В последние несколько лет модели, которые могут предсказывать структуру или функцию белков, широко используются в различных биологических приложениях, таких как определение мишеней для лекарств и разработка новых терапевтических антител.
Эти модели, основанные на больших языковых моделях (LLM), могут делать очень точные прогнозы о пригодности белка для конкретного применения. Однако нет способа определить, как эти модели делают свои прогнозы или какие особенности белка играют наиболее важную роль в этих решениях.
В новом исследовании учёные из Массачусетского технологического института (MIT) использовали новую методику, чтобы открыть «чёрный ящик» и определить, какие особенности учитывает модель языка белков при принятии решений.
Как работают модели языка белков
Модели языка белков используют аналогичный подход, но вместо анализа слов они анализируют последовательности аминокислот. Исследователи использовали эти модели для прогнозирования структуры и функции белков, а также для приложений, таких как идентификация белков, которые могут связываться с определёнными лекарствами.
В 2018 году Бергер и бывший аспирант MIT Тристан Беплер представили первую модель языка белков. Их модель, как и последующие модели белков, была основана на LLM. Эти модели, включая ChatGPT, могут анализировать огромные объёмы текста и определять, какие слова наиболее вероятно появляются вместе.
В 2021 году Бергер и его коллеги использовали модель языка белков, чтобы предсказать, какие участки поверхностных белков вируса с меньшей вероятностью мутируют таким образом, чтобы вирус мог ускользнуть от иммунной системы. Это позволило им определить возможные мишени для вакцин против гриппа, ВИЧ и SARS-CoV-2.
Однако во всех этих исследованиях было невозможно узнать, как модели делали свои прогнозы.
«Мы получали прогнозы в конце, но абсолютно не понимали, что происходит в отдельных компонентах этого чёрного ящика», — говорит Бергер.
Новый подход
В новом исследовании учёные хотели разобраться, как модели языка белков делают свои прогнозы. Как и LLM, модели языка белков кодируют информацию в виде представлений, которые состоят из паттерна активации различных «узлов» в нейронной сети. Эти узлы аналогичны сетям нейронов, которые хранят воспоминания и другую информацию в мозге.
Внутренние механизмы работы LLM нелегко интерпретировать, но в последние пару лет исследователи начали использовать тип алгоритма, известный как разреженный автоэнкодер, чтобы пролить свет на то, как эти модели делают свои прогнозы. Новое исследование из лаборатории Бергера — первое, в котором этот алгоритм используется для моделей языка белков.
Разреженные автоэнкодеры работают путём настройки того, как белок представлен в нейронной сети. Обычно данный белок представлен паттерном активации ограниченного числа нейронов, например, 480. Разреженный автоэнкодер расширит это представление до гораздо большего числа узлов, скажем, до 20 000.
Когда информация о белке закодирована только 480 нейронами, каждый узел загорается для нескольких функций, что затрудняет определение того, какие функции кодирует каждый узел. Однако, когда нейронная сеть расширена до 20 000 узлов, это дополнительное пространство вместе с ограничением разреженности даёт информации пространство для «растягивания». Теперь особенность белка, которая ранее была закодирована несколькими узлами, может занимать один узел.
«В разреженном представлении нейроны, которые загораются, делают это более осмысленно», — говорит Гуджрал. «До того, как были созданы разреженные представления, сети упаковывали информацию так плотно, что интерпретировать нейроны было сложно».
После того как исследователи получили разреженные представления многих белков, они использовали ИИ-ассистента под названием Claude (связанного с популярным чат-ботом Anthropic с таким же именем), чтобы проанализировать эти представления. В этом случае они попросили Claude сравнить разреженные представления с известными особенностями каждого белка, такими как молекулярная функция, семейство белков или местоположение в клетке.
Анализируя тысячи представлений, Claude может определить, какие узлы соответствуют конкретным особенностям белка, и описать их простым языком. Например, алгоритм может сказать: «Этот нейрон, по-видимому, обнаруживает белки, участвующие в трансмембранном транспорте ионов или аминокислот, особенно тех, которые расположены в плазматической мембране».
Этот процесс делает узлы гораздо более «интерпретируемыми», то есть исследователи могут определить, что кодирует каждый узел. Они обнаружили, что наиболее вероятными для кодирования узлами были семейство белков и определённые функции, включая несколько различных метаболических и биосинтетических процессов.
«Когда вы обучаете разреженный автоэнкодер, вы не обучаете его интерпретируемости, но оказывается, что, стимулируя представление быть действительно разреженным, вы в конечном итоге получаете интерпретируемость», — говорит Гуджрал.
Понимание того, какие особенности кодирует конкретная модель белка, может помочь исследователям выбрать правильную модель для конкретной задачи или настроить тип входных данных, которые они дают модели, для получения наилучших результатов. Кроме того, анализ особенностей, которые кодирует модель, может однажды помочь биологам узнать больше о белках, которые они изучают.
«В какой-то момент, когда модели станут намного мощнее, вы сможете узнать больше биологии, чем уже знаете, открыв модели», — говорит Гуджрал.
Другие новости по теме
- Предотвращение сильной боли у цыплят обходится дешевле, чем сотая часть цента, утверждают исследователи
- Леса из келпа в морских охраняемых районах более устойчивы к морским тепловым волнам, показало исследование
- Определение пола у рептилий: роль двойных драконов
- Инструмент для редактирования РНК может снизить риски генной терапии.
- Новые угрозы паразитарных инфекций в Великобритании и Ирландии: роль изменения климата и путешествий с домашними животными
- Исследование подчёркивает критические проблемы коммуникации в европейских сетях исследований биоразнообразия
- Исследование выявило ген, ответственный за разнообразие цветовых узоров у африканских фиалок
- Вода из туалетов самолёта может помочь в борьбе со следующей пандемией
- Крупнейшая база данных о средиземноморских деревьях теперь доступна
- Клетки по-разному реагируют на раны разной формы, показало исследование
Другие новости на сайте
- Учёный из Гонконга надеется на гнездовые ящики, чтобы спасти какаду, находящихся под угрозой исчезновения
- Три ожидаемых крипто-IPO после успеха Circle (CRLC) и Bullish (BLSH)
- Предотвращение сильной боли у цыплят обходится дешевле, чем сотая часть цента, утверждают исследователи
- Стратегия увеличивает вложения в биткоин — добавляет 430 BTC на фоне роста цены
- Блок Эрнер привлек 8 миллионов долларов для развития и расширения продуктовой линейки
- Одинокий майнер вопреки всему заработал 371 тысячу долларов, добыв редкий биткоин-блок
- Цена XMR выросла на фоне сомнений в успехе атаки Qubic с долей в 51%.
- VanEck: бум стабильных монет стимулирует волну слияний и поглощений в сфере платёжных компаний-посредников
- Проект Qubic нацелился на Dogecoin после голосования сообщества о запуске следующей атаки 51%
- Взрослые люди среднего возраста перегружены множеством ролей.