Исследователи заглянули внутрь работы языковых моделей для белков

В последние несколько лет модели, которые могут предсказывать структуру или функцию белков, широко используются в различных биологических приложениях, таких как определение мишеней для лекарств и разработка новых терапевтических антител.

Эти модели, основанные на больших языковых моделях (LLM), могут делать очень точные прогнозы о пригодности белка для конкретного применения. Однако нет способа определить, как эти модели делают свои прогнозы или какие особенности белка играют наиболее важную роль в этих решениях.

В новом исследовании учёные из Массачусетского технологического института (MIT) использовали новую методику, чтобы открыть «чёрный ящик» и определить, какие особенности учитывает модель языка белков при принятии решений.

Как работают модели языка белков

Модели языка белков используют аналогичный подход, но вместо анализа слов они анализируют последовательности аминокислот. Исследователи использовали эти модели для прогнозирования структуры и функции белков, а также для приложений, таких как идентификация белков, которые могут связываться с определёнными лекарствами.

В 2018 году Бергер и бывший аспирант MIT Тристан Беплер представили первую модель языка белков. Их модель, как и последующие модели белков, была основана на LLM. Эти модели, включая ChatGPT, могут анализировать огромные объёмы текста и определять, какие слова наиболее вероятно появляются вместе.

В 2021 году Бергер и его коллеги использовали модель языка белков, чтобы предсказать, какие участки поверхностных белков вируса с меньшей вероятностью мутируют таким образом, чтобы вирус мог ускользнуть от иммунной системы. Это позволило им определить возможные мишени для вакцин против гриппа, ВИЧ и SARS-CoV-2.

Однако во всех этих исследованиях было невозможно узнать, как модели делали свои прогнозы.

«Мы получали прогнозы в конце, но абсолютно не понимали, что происходит в отдельных компонентах этого чёрного ящика», — говорит Бергер.

Новый подход

В новом исследовании учёные хотели разобраться, как модели языка белков делают свои прогнозы. Как и LLM, модели языка белков кодируют информацию в виде представлений, которые состоят из паттерна активации различных «узлов» в нейронной сети. Эти узлы аналогичны сетям нейронов, которые хранят воспоминания и другую информацию в мозге.

Внутренние механизмы работы LLM нелегко интерпретировать, но в последние пару лет исследователи начали использовать тип алгоритма, известный как разреженный автоэнкодер, чтобы пролить свет на то, как эти модели делают свои прогнозы. Новое исследование из лаборатории Бергера — первое, в котором этот алгоритм используется для моделей языка белков.

Разреженные автоэнкодеры работают путём настройки того, как белок представлен в нейронной сети. Обычно данный белок представлен паттерном активации ограниченного числа нейронов, например, 480. Разреженный автоэнкодер расширит это представление до гораздо большего числа узлов, скажем, до 20 000.

Когда информация о белке закодирована только 480 нейронами, каждый узел загорается для нескольких функций, что затрудняет определение того, какие функции кодирует каждый узел. Однако, когда нейронная сеть расширена до 20 000 узлов, это дополнительное пространство вместе с ограничением разреженности даёт информации пространство для «растягивания». Теперь особенность белка, которая ранее была закодирована несколькими узлами, может занимать один узел.

«В разреженном представлении нейроны, которые загораются, делают это более осмысленно», — говорит Гуджрал. «До того, как были созданы разреженные представления, сети упаковывали информацию так плотно, что интерпретировать нейроны было сложно».

После того как исследователи получили разреженные представления многих белков, они использовали ИИ-ассистента под названием Claude (связанного с популярным чат-ботом Anthropic с таким же именем), чтобы проанализировать эти представления. В этом случае они попросили Claude сравнить разреженные представления с известными особенностями каждого белка, такими как молекулярная функция, семейство белков или местоположение в клетке.

Анализируя тысячи представлений, Claude может определить, какие узлы соответствуют конкретным особенностям белка, и описать их простым языком. Например, алгоритм может сказать: «Этот нейрон, по-видимому, обнаруживает белки, участвующие в трансмембранном транспорте ионов или аминокислот, особенно тех, которые расположены в плазматической мембране».

Этот процесс делает узлы гораздо более «интерпретируемыми», то есть исследователи могут определить, что кодирует каждый узел. Они обнаружили, что наиболее вероятными для кодирования узлами были семейство белков и определённые функции, включая несколько различных метаболических и биосинтетических процессов.

«Когда вы обучаете разреженный автоэнкодер, вы не обучаете его интерпретируемости, но оказывается, что, стимулируя представление быть действительно разреженным, вы в конечном итоге получаете интерпретируемость», — говорит Гуджрал.

Понимание того, какие особенности кодирует конкретная модель белка, может помочь исследователям выбрать правильную модель для конкретной задачи или настроить тип входных данных, которые они дают модели, для получения наилучших результатов. Кроме того, анализ особенностей, которые кодирует модель, может однажды помочь биологам узнать больше о белках, которые они изучают.

«В какой-то момент, когда модели станут намного мощнее, вы сможете узнать больше биологии, чем уже знаете, открыв модели», — говорит Гуджрал.

Источник

Исследователи заглянули внутрь работы языковых моделей для белков

Как работают модели языка белков

Новый подход

Другие новости по теме

Другие новости на сайте