Исследователи заглянули внутрь работы языковых моделей для белков

В последние несколько лет модели, которые могут предсказывать структуру или функцию белков, стали широко использоваться в различных биологических приложениях, таких как определение мишеней для лекарств и разработка новых терапевтических антител.

Эти модели, основанные на больших языковых моделях (LLMs), могут делать очень точные прогнозы о пригодности белка для конкретного применения. Однако нет способа определить, как эти модели делают свои прогнозы или какие особенности белка играют наиболее важную роль в этих решениях.

Открытие «чёрного ящика»

В новом исследовании учёные из Массачусетского технологического института (MIT) использовали новую методику, чтобы открыть этот «чёрный ящик» и определить, какие особенности учитывает модель языка белков при принятии решений.

Понимание того, что происходит внутри этого «чёрного ящика», может помочь исследователям выбирать более подходящие модели для конкретной задачи, что ускорит процесс поиска новых лекарств или мишеней для вакцин.

«Наша работа имеет широкие последствия для повышения объяснимости в последующих задачах, которые зависят от этих представлений», — говорит Бонни Бергер, профессор математики в MIT, руководитель группы «Вычисления и биология» в Лаборатории компьютерных наук и искусственного интеллекта MIT и старший автор исследования. «Кроме того, выявление особенностей, которые отслеживают модели языка белков, может раскрыть новые биологические идеи из этих представлений».

Онкаром Гуджралом, аспирантом MIT, является ведущим автором исследования, которое опубликовано на этой неделе в Proceedings of the National Academy of Sciences. Михир Бафна, аспирант MIT, и Эрик Альм, профессор биологической инженерии MIT, также являются авторами статьи.

Открытие «чёрного ящика»

В 2018 году Бергер и бывший аспирант MIT Тристан Беплер представили первую модель языка белков. Их модель, как и последующие модели белков, ускорившие разработку AlphaFold, такие как ESM2 и OmegaFold, была основана на LLMs.

Эти модели, включая ChatGPT, могут анализировать огромные объёмы текста и определять, какие слова наиболее вероятно будут появляться вместе. Модели языка белков используют аналогичный подход, но вместо анализа слов они анализируют последовательности аминокислот.

Исследователи использовали эти модели для прогнозирования структуры и функции белков, а также для таких приложений, как идентификация белков, которые могут связываться с определёнными лекарствами.

В исследовании 2021 года Бергер и его коллеги использовали модель языка белков, чтобы предсказать, какие участки поверхностных белков вируса с меньшей вероятностью мутируют таким образом, чтобы вирус мог избежать иммунного ответа. Это позволило им определить возможные мишени для вакцин против гриппа, ВИЧ и SARS-CoV-2.

Однако во всех этих исследованиях было невозможно узнать, как модели делали свои прогнозы.

«Мы получали какой-то прогноз в конце, но у нас абсолютно не было представления о том, что происходит в отдельных компонентах этого „чёрного ящика“», — говорит Бергер.

В новом исследовании учёные хотели разобраться, как модели языка белков делают свои прогнозы. Как и LLMs, модели языка белков кодируют информацию в виде представлений, которые состоят из паттерна активации различных «узлов» в нейронной сети. Эти узлы аналогичны сетям нейронов, которые хранят воспоминания и другую информацию в мозге.

Внутренние механизмы работы LLMs нелегко интерпретировать, но в последние пару лет исследователи начали использовать тип алгоритма, известный как разрежённый автоэнкодер, чтобы пролить свет на то, как эти модели делают свои прогнозы. Новое исследование из лаборатории Бергера — первое, в котором этот алгоритм используется для моделей языка белков.

Разрежённые автоэнкодеры работают путём настройки представления белка в нейронной сети. Обычно данный белок будет представлен паттерном активации ограниченного числа нейронов, например, 480. Разрежённый автоэнкодер расширит это представление до гораздо большего числа узлов, скажем, до 20 000.

Когда информация о белке кодируется только 480 нейронами, каждый узел загорается для нескольких функций, что затрудняет определение того, какие функции кодирует каждый узел. Однако при расширении нейронной сети до 20 000 узлов это дополнительное пространство вместе с ограничением разрежённости даёт информации пространство для «распространения». Теперь функция белка, которая ранее кодировалась несколькими узлами, может занимать один узел.

«В разрежённом представлении нейроны, которые загораются, делают это более осмысленным образом», — говорит Гуджрал. «До того, как создаются разрежённые представления, сети упаковывают информацию так плотно, что трудно интерпретировать нейроны».

Интерпретируемые модели

После того как исследователи получили разрежённые представления многих белков, они использовали ИИ-ассистента под названием Claude (связанного с популярным чат-ботом Anthropic с таким же названием), чтобы проанализировать эти представления. В этом случае они попросили Claude сравнить разрежённые представления с известными особенностями каждого белка, такими как молекулярная функция, семейство белков или местоположение в клетке.

Анализируя тысячи представлений, Claude может определить, какие узлы соответствуют определённым особенностям белка, а затем описать их простым языком. Например, алгоритм может сказать: «Этот нейрон, по-видимому, обнаруживает белки, участвующие в трансмембранном транспорте ионов или аминокислот, особенно те, которые расположены в плазматической мембране».

Этот процесс делает узлы гораздо более «интерпретируемыми», то есть исследователи могут определить, что кодирует каждый узел. Они обнаружили, что наиболее вероятными для кодирования узлами были семейство белков и определённые функции, включая несколько различных метаболических и биосинтетических процессов.

«Когда вы обучаете разрежённый автоэнкодер, вы не обучаете его быть интерпретируемым, но оказывается, что, стимулируя представление быть действительно разрежённым, вы в конечном итоге получаете интерпретируемость», — говорит Гуджрал.

Понимание того, какие особенности кодирует конкретная модель белка, может помочь исследователям выбрать подходящую модель для конкретной задачи или настроить тип входных данных, которые они дают модели, для получения наилучших результатов. Кроме того, анализ особенностей, которые кодирует модель, может однажды помочь биологам узнать больше о белках, которые они изучают.

«В какой-то момент, когда модели станут намного мощнее, вы сможете узнать больше биологии, чем уже знаете, открыв модели», — говорит Гуджрал.

Исследование было профинансировано Национальными институтами здравоохранения.

1. Какие задачи в биологии решают модели, основанные на больших языковых моделях (LLMs)?

Модели, основанные на больших языковых моделях (LLMs), используются для прогнозирования структуры и функции белков. Они применяются в различных биологических приложениях, таких как определение мишеней для лекарств и разработка новых терапевтических антител.

2. Какие методы использовались учёными для «открытия чёрного ящика» и определения особенностей, учитываемых моделью языка белков при принятии решений?

Учёные использовали разрежённый автоэнкодер для настройки представления белка в нейронной сети. Этот алгоритм позволяет расширить представление белка до гораздо большего числа узлов, что облегчает интерпретацию работы модели.

3. Какие особенности белков были выявлены в результате исследования?

В результате исследования было выявлено, что наиболее вероятными для кодирования узлами были семейство белков и определённые функции, включая несколько различных метаболических и биосинтетических процессов.

4. Какие преимущества может предоставить понимание особенностей, кодируемых моделью языка белков?

Понимание особенностей, кодируемых моделью языка белков, может помочь исследователям выбрать подходящую модель для конкретной задачи или настроить тип входных данных, которые они дают модели, для получения наилучших результатов. Кроме того, анализ особенностей, которые кодирует модель, может однажды помочь биологам узнать больше о белках, которые они изучают.

5. Какие перспективы открывает использование разрежённых автоэнкодеров для анализа биологических данных?

Использование разрежённых автоэнкодеров для анализа биологических данных может привести к более глубокому пониманию работы белков и их функций. Это, в свою очередь, может ускорить процесс поиска новых лекарств или мишеней для вакцин, а также помочь биологам узнать больше о белках, которые они изучают.

Источник