Когда алгоритмы предлагают нестандартные решения
Когда машинное обучение используется для поиска новых научных идей или направлений, алгоритмы иногда предлагают решения, которые не соответствуют физическим законам. Например, система искусственного интеллекта AlphaFold предсказывает сложные способы сворачивания аминокислотных цепей в трёхмерные структуры белков. Однако система иногда предлагает «нефизические» конфигурации — такие, которые неправдоподобны с точки зрения законов физики, особенно когда требуется предсказать сворачивание цепей, значительно отличающихся от её обучающих данных.
Ограничение «нефизических» результатов в разработке лекарств
Чтобы ограничить такие результаты в области разработки лекарств, Анима Анандкамар, профессор вычислительных и математических наук в Калифорнийском технологическом институте, и её коллеги представили новую модель машинного обучения под названием NucleusDiff. Она включает в себя простую физическую идею в процессе обучения, что значительно улучшает производительность алгоритма.
Анандкамар и её коллеги описывают NucleusDiff в статье, опубликованной в журнале «Proceedings of the National Academy of Sciences» в специальном выпуске, посвящённом машинному обучению в химии.
Цель разработки лекарств на основе структуры
Цель разработки лекарств на основе структуры — создать малые молекулы, называемые лигандами, которые будут хорошо связываться с биологической мишенью, обычно белком, вызывая желаемые изменения в активности. Модели искусственного интеллекта для разработки лекарств обучаются на наборах данных, содержащих десятки тысяч примеров таких пар белок-лиганд, а также информацию о том, насколько хорошо они соединяются друг с другом. Важным показателем является аффинность связывания.
NucleusDiff идёт ещё дальше. Модель гарантирует, что атомы находятся на соответствующем расстоянии друг от друга, учитывая физические концепции, такие как силы отталкивания, которые предотвращают перекрытие или столкновение атомов.
Принцип работы NucleusDiff
Вместо того чтобы учитывать расстояние между каждой парой атомов в молекуле (задача, требующая значительных вычислительных ресурсов), NucleusDiff оценивает многообразие или оболочку — приблизительную оценку распределения атомов и вероятных местоположений электронов в молекуле. На этом многообразии устанавливаются основные точки привязки, за которыми ведётся наблюдение, чтобы атомы никогда не приближались друг к другу слишком близко.
Команда обучила NucleusDiff на наборе данных под названием CrossDocked2020, который включает около 100 000 комплексов белок-лиганд. Они протестировали его на 100 комплексах и обнаружили, что он значительно превосходит современные модели по аффинности связывания, одновременно сокращая количество атомных столкновений почти до нуля.
Затем исследователи использовали новую модель для прогнозирования аффинности связывания новой молекулы, которая не была включена в обучающий набор данных: терапевтическая мишень при COVID-19 — протеаза 3CL. NucleusDiff снова продемонстрировала повышенную точность и сокращение атомных столкновений до двух третей по сравнению с другими ведущими моделями.
Работа Анандкамара и других в рамках инициативы AI4Science направлена на то, чтобы интегрировать больше физики в модели искусственного интеллекта, основанные на данных, для различных областей — от прогнозирования климата до робототехники и от сейсмологии до астрофизического моделирования.
«Если мы полагаемся исключительно на обучающие данные, мы не ожидаем, что машинное обучение будет хорошо работать с примерами, которые значительно отличаются от обучающих данных», — говорит Анандкамар.
Она отмечает, что в научных областях, таких как разработка лекарств, исследователи ищут новые результаты (например, новые молекулы). «Мы видим, что машинное обучение часто терпит неудачу при получении точных результатов на новых примерах, которые отличаются от обучающих данных. Но, включив физику, мы можем сделать машинное обучение более надёжным и эффективным», — говорит Анандкамар.
Предоставлено Калифорнийским технологическим институтом.