Языковые модели всё чаще используются в естественных науках. В химии их применяют, например, для предсказания новых биологически активных соединений. Однако новое исследование, проведённое в Боннском университете, показывает, что химические языковые модели (CLM) не обязательно приобретают знание биохимических связей во время обучения.
Как работают CLM?
Учёные из Боннского университета под руководством профессора доктора Юргена Байората попытались разобраться в этом вопросе. Они сосредоточились на особой форме алгоритма искусственного интеллекта — трансформаторных CLM. Эта модель работает аналогично ChatGPT, Google Gemini и «Grok» от Илона Маска, которые обучаются на огромных объёмах текста, что позволяет им самостоятельно генерировать предложения. CLM, с другой стороны, обычно основаны на значительно меньшем объёме данных. Они получают свои знания из молекулярных представлений и отношений, например, из так называемых строк SMILES. Это символьные строки, которые представляют молекулы и их структуру в виде последовательности букв и символов.
В фармацевтических исследованиях учёные часто пытаются идентифицировать вещества, которые могут ингибировать определённые ферменты или блокировать рецепторы. CLM могут использоваться для прогнозирования активных молекул на основе аминокислотных последовательностей целевых белков.
Результаты исследования
Для своего исследования учёные использовали пары аминокислотных последовательностей целевых белков и соответствующих им известных активных соединений. Они систематически манипулировали обучающими данными.
Оказалось, что CLM не обладают глубоким химическим пониманием. Они просто повторяют, с небольшими вариациями, то, что уже усвоили в похожем контексте. Это не означает, что они непригодны для исследований в области лекарств. Вполне возможно, что они предложат лекарства, которые действительно блокируют определённые рецепторы или ингибируют ферменты. Однако это происходит не потому, что они так хорошо разбираются в химии, а потому, что они распознают сходства в текстовых молекулярных представлениях и статистические корреляции, которые остаются скрытыми от нас.
Исследование опубликовано в журнале Patterns.