Новый генеративно-искусственный подход к предсказанию химических реакций повышает точность и надёжность

Многие попытки использовать возможности нового искусственного интеллекта и больших языковых моделей (БЯМ) для прогнозирования результатов химических реакций не приносили значительного успеха. Это было связано с тем, что до недавнего времени они не основывались на понимании фундаментальных физических принципов, таких как законы сохранения массы.

Команда исследователей из MIT предложила способ учёта этих физических ограничений в модели прогнозирования реакций

Группа учёных из Массачусетского технологического института (MIT) разработала метод, который позволяет значительно повысить точность и надёжность предсказаний химических реакций. Их работа опубликована в журнале Nature.

В статье, написанной недавним постдоком Джун Ёном Джунгом (ныне доцентом в Кукминском университете, Южная Корея); бывшим инженером-программистом Мун Хонг Фонгом (ныне в Дьюкском университете); аспирантом Николасом Касетти; постдоком Джорданом Лайлсом; студентом-физиком Не Дассанаяке и старшим автором Коннором Коли, который является профессором развития карьеры класса 1957 в департаментах MIT химической инженерии, электротехники и информатики, описан новый подход.

«Прогнозирование результатов реакций — очень важная задача», — объясняет Джунг. Например, если вы хотите создать новое лекарство, «вам нужно знать, как его изготовить. Для этого необходимо понимать, какой продукт, скорее всего, получится в результате заданной химической реакции».

Предыдущие попытки прогнозирования таких реакций учитывали только набор входных и выходных данных

Однако большинство предыдущих попыток прогнозирования таких реакций учитывали только набор входных и выходных данных, не рассматривая промежуточные этапы и не учитывая ограничения, связанные с сохранением массы в процессе реакции.

Джунг отмечает, что хотя большие языковые модели, такие как ChatGPT, очень успешны во многих областях исследований, они не предоставляют способ ограничить свои выходные данные физически реалистичными возможностями, такими как требование соблюдения закона сохранения массы. Эти модели используют вычислительные «токены», которые в данном случае представляют отдельные атомы. Однако, по его словам, «если вы не сохраняете токены, модель LLM начинает создавать новые атомы или удалять атомы в реакции».

Вместо того чтобы основываться на реальном научном понимании, «это похоже на алхимию», — добавляет он.

Новый подход основан на методе, разработанном ещё в 1970-х годах химиком Иваром Уги

Для решения этой проблемы команда использовала метод, разработанный ещё в 1970-х годах химиком Иваром Уги, который использует матрицу связи-электрона для представления электронов в реакции. Они использовали эту систему в качестве основы для своей новой программы, названной FlowER (Flow matching for Electron Redistribution), которая позволяет им явно отслеживать все электроны в реакции, чтобы гарантировать, что ни один из них не будет ложно добавлен или удалён в процессе.

Система использует матрицу для представления электронов в реакции, используя ненулевые значения для представления связей или одиночных электронных пар и нули для представления их отсутствия. «Это помогает нам сохранять как атомы, так и электроны одновременно», — говорит Фонг.

Система, разработанная командой, всё ещё находится на ранней стадии, говорит Коли. «Система в её нынешнем виде — это демонстрация — доказательство концепции того, что этот генеративный подход сопоставления потоков очень хорошо подходит для задачи прогнозирования химических реакций».

Хотя команда воодушевлена этим многообещающим подходом, «мы осознаём, что у него есть определённые ограничения в отношении широты различных химических веществ, которые он видел», — говорит он. Хотя модель была обучена на данных более чем о миллионе химических реакций, полученных из базы данных Патентного ведомства США, эти данные не включают некоторые металлы и некоторые виды каталитических реакций, говорит он.

«Мы невероятно воодушевлены тем фактом, что можем получать такие надёжные прогнозы химических механизмов» из существующей системы, говорит он. «Она сохраняет массу, сохраняет электроны, но мы, конечно, признаём, что в ближайшие годы предстоит проделать гораздо больше работы по расширению и повышению надёжности».

Но даже в своей нынешней форме, которая предоставляется бесплатно через онлайн-платформу GitHub, «мы думаем, что она будет делать точные прогнозы и будет полезна в качестве инструмента для оценки реактивности и картирования путей реакций», — говорит Коли. «Если мы посмотрим в будущее, действительно продвигая уровень понимания механизмов и помогая изобретать новые реакции, мы ещё не совсем там. Но мы надеемся, что это станет ступенькой к этому».

«Всё это с открытым исходным кодом», — говорит Фонг. «Модели, данные — всё это доступно», включая предыдущий набор данных, разработанный Джунгом, в котором исчерпывающе перечислены механистические этапы известных реакций. «Я думаю, что мы одна из первых групп, которая делает этот набор данных, делает его доступным с открытым исходным кодом и делает его доступным для всех», — говорит он.

Модель FlowER соответствует или превосходит существующие подходы в поиске стандартных механистических путей и позволяет обобщать на ранее невиданные типы реакций. Они говорят, что модель потенциально может быть актуальна для прогнозирования реакций в медицинской химии, открытии материалов, горении, атмосферной химии и электрохимических системах.

В своих сравнениях с существующими системами прогнозирования реакций Коли говорит: «Используя архитектурный выбор, который мы сделали, мы получаем значительное увеличение достоверности и сохранения, а также соответствие или немного более высокую точность с точки зрения производительности».

«Уникальность нашего подхода заключается в том, что, хотя мы используем эти учебники, чтобы сгенерировать этот набор данных, мы привязываем реагенты и продукты общей реакции к экспериментально подтверждённым данным из патентной литературы», — говорит он.

Они выводят основные механизмы, а не просто придумывают их. «Мы выводим их из экспериментальных данных, и это не то, что делалось и публиковалось в таком масштабе раньше».

Говоря о следующем шаге, он говорит: «Мы весьма заинтересованы в расширении понимания моделью металлов и каталитических циклов. Мы только коснулись поверхности в этой первой статье», и большинство реакций, включённых на данный момент, не включают металлы или катализаторы, «так что это направление, которое нас очень интересует».

В долгосрочной перспективе, по его словам, «большое волнение связано с использованием такой системы для открытия новых сложных реакций и помощи в выяснении новых механизмов. Я думаю, что долгосрочное потенциальное воздействие велико, но это, конечно, только первый шаг».

Источник