Как большие языковые модели помогают создавать новые молекулы: инновационный подход к фармацевтике

### Генерация молекул с помощью больших языковых моделей

Процесс поиска молекул с нужными свойствами для создания новых лекарств и материалов трудоёмок и затратен. Он требует огромных вычислительных ресурсов и месяцев работы человека, чтобы сузить круг потенциальных кандидатов.

Большие языковые модели (LLM), такие как ChatGPT, могут упростить этот процесс. Однако заставить LLM понимать атомы и связи, образующие молекулу, так же, как она работает со словами в предложениях, стало серьёзной научной задачей.

Исследователи из Массачусетского технологического института (MIT) и лаборатории MIT-IBM Watson AI разработали перспективный подход, который дополняет LLM другими моделями машинного обучения, известными как графовые модели. Они специально предназначены для генерации и прогнозирования молекулярных структур.

### Как работает метод

Их метод использует базовую LLM для интерпретации запросов на естественном языке, в которых указаны желаемые молекулярные свойства. Она автоматически переключается между базовой LLM и модулями искусственного интеллекта на основе графов для проектирования молекулы, объяснения логики и создания пошагового плана её синтеза.

Метод объединяет текст, граф и генерацию шагов синтеза, объединяя слова, графики и реакции в общий словарь для LLM.

Когда по сравнению с существующими подходами, основанными на LLM, этот мультимодальный метод генерировал молекулы, которые лучше соответствовали спецификациям пользователя, и у них был более высокий шанс иметь действительный план синтеза, повышая коэффициент успеха с 5% до 35%.

Он также превзошёл LLM, которые более чем в 10 раз больше его по размеру и проектируют молекулы и маршруты синтеза только с текстовыми представлениями. Это говорит о том, что мультимодальность является ключом к успеху новой системы.

«Это могло бы стать комплексным решением, в котором мы бы автоматизировали весь процесс проектирования и создания молекулы от начала до конца. Если бы LLM могла просто дать вам ответ за несколько секунд, это сэкономило бы огромное количество времени фармацевтическим компаниям», — говорит Майкл Сан, аспирант MIT и соавтор статьи об этом методе.

### Лучшее из двух миров

Большие языковые модели не предназначены для понимания тонкостей химии, что является одной из причин, по которой они с трудом справляются с обратным молекулярным дизайном — процессом идентификации молекулярных структур с определёнными функциями или свойствами.

LLM преобразуют текст в представления, называемые токенами, которые они используют для последовательного предсказания следующего слова в предложении. Но молекулы — это «граф-структуры», состоящие из атомов и связей без определённого порядка, что затрудняет их кодирование в виде последовательного текста.

С другой стороны, мощные графовые модели искусственного интеллекта представляют атомы и молекулярные связи в виде взаимосвязанных узлов и рёбер в графе. Хотя эти модели популярны для обратного молекулярного дизайна, они требуют сложных входных данных, не могут понимать естественный язык и выдают результаты, которые трудно интерпретировать.

Исследователи MIT объединили LLM с графовыми моделями искусственного интеллекта в единую структуру, которая использует лучшее из обоих миров.

Llamole, что означает большая языковая модель для молекулярных открытий, использует базовую LLM в качестве привратника для понимания запроса пользователя — простого языкового запроса на молекулу с определёнными свойствами.

Например, пользователь может искать молекулу, которая может проникать через гематоэнцефалический барьер и ингибировать ВИЧ, учитывая, что она имеет молекулярную массу 209 и определённые характеристики связей.

Когда LLM предсказывает текст в ответ на запрос, она переключается между графовыми модулями.

Один модуль использует графовую диффузионную модель для генерации молекулярной структуры с учётом входных требований. Второй модуль использует графовую нейронную сеть для кодирования сгенерированной молекулярной структуры обратно в токены для потребления LLM.

### Более качественные и простые молекулярные структуры

В итоге Llamole выводит изображение молекулярной структуры, текстовое описание молекулы и пошаговый план синтеза, в котором подробно описано, как её изготовить, вплоть до отдельных химических реакций.

В экспериментах по проектированию молекул, соответствующих спецификациям пользователя, Llamole превзошла 10 стандартных LLM, 4 тонко настроенные LLM и современный метод, специфичный для предметной области. В то же время она повысила коэффициент успеха ретросинтетического планирования с 5% до 35%, генерируя молекулы более высокого качества, что означает, что они имели более простые структуры и более дешёвые строительные блоки.

«Сами по себе LLM с трудом понимают, как синтезировать молекулы, потому что это требует многоэтапного планирования. Наш метод может генерировать более качественные молекулярные структуры, которые также легче синтезировать», — говорит Лю.

Для обучения и оценки Llamole исследователи создали два набора данных с нуля, поскольку существующие наборы данных молекулярных структур не содержали достаточно подробной информации. Они дополнили сотни тысяч запатентованных молекул сгенерированными искусственным интеллектом описаниями на естественном языке и шаблонами настраиваемых описаний.

Набор данных, который они создали для тонкой настройки LLM, включает шаблоны, связанные с 10 молекулярными свойствами, поэтому одним из ограничений Llamole является то, что она обучена проектировать молекулы с учётом только этих 10 числовых свойств.

В будущей работе исследователи хотят обобщить Llamole, чтобы она могла учитывать любые молекулярные свойства. Кроме того, они планируют улучшить графовые модули, чтобы повысить коэффициент успеха ретросинтеза Llamole.

И в долгосрочной перспективе они надеются использовать этот подход, чтобы выйти за рамки молекул, создавая мультимодальные LLM, которые могут работать с другими типами графовых данных, такими как взаимосвязанные датчики в энергосистеме или транзакции на финансовом рынке.

«Llamole демонстрирует возможность использования больших языковых моделей в качестве интерфейса для сложных данных, выходящих за рамки текстового описания, и мы ожидаем, что они станут основой, которая взаимодействует с другими алгоритмами искусственного интеллекта для решения любых графовых задач», — говорит Чен.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *