Neuro Sova – про науку и технику

Как крупные языковые модели помогают в открытии новых молекул: инновационный подход к разработке лекарств

### Крупные языковые модели для открытия молекул

Процесс поиска молекул с нужными свойствами для создания новых лекарств и материалов трудоёмок и затратен. Он требует огромных вычислительных ресурсов и месяцев работы человека, чтобы сузить круг потенциальных кандидатов.

Крупные языковые модели (LLM), такие как ChatGPT, могут упростить этот процесс. Однако заставить LLM понимать атомы и связи, которые образуют молекулу, так же, как она делает это со словами в предложениях, стало научным препятствием.

Исследователи из Массачусетского технологического института (MIT) и лаборатории MIT-IBM Watson AI создали перспективный подход, который дополняет LLM другими моделями машинного обучения, известными как графовые модели. Они специально разработаны для генерации и прогнозирования молекулярных структур.

#### Объединение LLM с графовыми моделями

Их метод использует базовую LLM для интерпретации запросов на естественном языке, в которых указаны желаемые молекулярные свойства. Он автоматически переключается между базовой LLM и модулями искусственного интеллекта на основе графов для проектирования молекулы, объяснения обоснования и создания пошагового плана её синтеза.

Метод объединяет текст, граф и генерацию шагов синтеза, объединяя слова, графики и реакции в общий словарь для LLM.

По сравнению с существующими подходами, основанными на LLM, этот мультимодальный метод генерирует молекулы, которые лучше соответствуют спецификациям пользователя и имеют более высокий шанс иметь действительный план синтеза. Это повышает коэффициент успеха с 5% до 35%.

Он также превосходит LLM, размер которых более чем в 10 раз превышает его размер, и которые проектируют молекулы и маршруты синтеза только с текстовыми представлениями. Это говорит о том, что мультимодальность является ключом к успеху новой системы.

«Это может стать комплексным решением, в котором от начала до конца мы автоматизируем весь процесс проектирования и создания молекулы. Если бы LLM могла просто дать вам ответ за несколько секунд, это сэкономило бы огромное количество времени фармацевтическим компаниям», — говорит Майкл Сан, аспирант MIT и соавтор статьи об этом методе.

#### Лучшее из двух миров

Крупные языковые модели не предназначены для понимания тонкостей химии, что является одной из причин, по которой они с трудом справляются с обратным молекулярным дизайном — процессом идентификации молекулярных структур, которые имеют определённые функции или свойства.

LLM преобразуют текст в представления, называемые токенами, которые они используют для последовательного предсказания следующего слова в предложении. Но молекулы — это «граф-структуры», состоящие из атомов и связей без определённого порядка, что затрудняет их кодирование в виде последовательного текста.

С другой стороны, мощные графовые модели искусственного интеллекта представляют атомы и молекулярные связи в виде взаимосвязанных узлов и рёбер в графе. Хотя эти модели популярны для обратного молекулярного дизайна, они требуют сложных входных данных, не могут понимать естественный язык и дают результаты, которые трудно интерпретировать.

Исследователи MIT объединили LLM с графовыми моделями искусственного интеллекта в единую структуру, которая использует лучшее из обоих миров.

#### Llamole: большая языковая модель для открытия молекул

Llamole, что означает «большая языковая модель для открытия молекул», использует базовую LLM в качестве привратника для понимания запроса пользователя — простого языкового запроса о молекуле с определёнными свойствами.

Например, пользователь может искать молекулу, которая может проникать через гематоэнцефалический барьер и ингибировать ВИЧ, учитывая, что она имеет молекулярную массу 209 и определённые характеристики связей.

Когда LLM предсказывает текст в ответ на запрос, она переключается между графовыми модулями.

Один модуль использует графовую диффузионную модель для генерации молекулярной структуры с учётом входных требований. Второй модуль использует графовую нейронную сеть для кодирования сгенерированной молекулярной структуры обратно в токены для потребления LLM.

Конечный графовый модуль — это предсказатель графовых реакций, который на входе получает промежуточную молекулярную структуру и предсказывает шаг реакции, ища точный набор шагов для создания молекулы из основных строительных блоков.

Исследователи создали новый тип триггерного токена, который сообщает LLM, когда активировать каждый модуль. Когда LLM предсказывает триггерный токен «design», она переключается на модуль, который создаёт набросок молекулярной структуры, а когда она предсказывает триггерный токен «retro», она переключается на модуль ретросинтетического планирования, который предсказывает следующий шаг реакции.

«Прелесть этого в том, что всё, что LLM генерирует перед активацией определённого модуля, передаётся самому модулю. Модуль учится работать таким образом, который согласуется с тем, что было раньше», — говорит Сан.

Таким же образом выходные данные каждого модуля кодируются и возвращаются в процесс генерации LLM, чтобы она понимала, что сделал каждый модуль, и продолжала предсказывать токены на основе этих данных.

#### Более качественные и простые молекулярные структуры

В итоге Llamole выводит изображение молекулярной структуры, текстовое описание молекулы и пошаговый план синтеза, в котором подробно описаны этапы её создания, вплоть до отдельных химических реакций.

В экспериментах по проектированию молекул, соответствующих спецификациям пользователя, Llamole превзошла 10 стандартных LLM, 4 тонко настроенные LLM и современный метод, специфичный для предметной области. В то же время она повысила коэффициент успеха ретросинтетического планирования с 5% до 35%, генерируя молекулы более высокого качества, что означает, что они имели более простые структуры и более дешёвые строительные блоки.

«Сами по себе LLM с трудом понимают, как синтезировать молекулы, потому что это требует многоэтапного планирования. Наш метод может генерировать более качественные молекулярные структуры, которые также легче синтезировать», — говорит Лю.

Для обучения и оценки Llamole исследователи создали два набора данных с нуля, поскольку существующие наборы данных молекулярных структур не содержали достаточно подробной информации. Они дополнили сотни тысяч запатентованных молекул сгенерированными искусственным интеллектом описаниями на естественном языке и шаблонами индивидуальных описаний.

Набор данных, который они создали для тонкой настройки LLM, включает шаблоны, связанные с 10 молекулярными свойствами, поэтому одним из ограничений Llamole является то, что она обучена проектировать молекулы, учитывая только эти 10 числовых свойств.

В будущей работе исследователи хотят обобщить Llamole, чтобы она могла учитывать любые молекулярные свойства. Кроме того, они планируют улучшить графовые модули, чтобы повысить коэффициент успеха Llamole в ретросинтезе.

И в долгосрочной перспективе они надеются использовать этот подход, чтобы выйти за рамки молекул, создав мультимодальные LLM, которые смогут работать с другими типами графовых данных, такими как взаимосвязанные датчики в энергосистеме или транзакции на финансовом рынке.

«Llamole демонстрирует возможность использования крупных языковых моделей в качестве интерфейса для сложных данных, выходящих за рамки текстового описания, и мы ожидаем, что они станут основой, которая взаимодействует с другими алгоритмами искусственного интеллекта для решения любых графовых задач», — говорит Чен.

Источник