Проблема структуры белков: разгадывая оригами жизни

Программа искусственного интеллекта AlphaFold меняет правила игры в биологических исследованиях, как сообщает Имма Перфетто. Эта статья была впервые опубликована в журнале Cosmos Print Magazine в сентябре 2024 года.

Революция в изучении структуры белков

На картине изображён комплекс двух белков (ScpA и ScpB) в клюве бумажной птицы оригами. Структура белкового комплекса важна во время деления клеток у бактерий. Сверху: ScpA — синий, ScpB — зелёный. Внизу: меры уверенности, где тёмно-синий — очень высокая уверенность, голубой — уверенное, жёлтый — низкая уверенность, а оранжевый — очень низкая уверенность в структурном прогнозе.

Белок состоит из цепи аминокислот, соединённых друг с другом, как бусины на нитке. Эта цепь самопроизвольно сворачивается, подобно оригами, в замысловатые складки и петли благодаря взаимодействиям между аминокислотами. Получающаяся уникальная трёхмерная структура во многом определяет его жизненно важную функцию в живом организме. Определение структуры позволяет биологам лучше понять, как работает белок, и разработать эксперименты для его воздействия и модификации.

Самый маленький известный белок, TAL, влияет на развитие плодовой мухи Drosophila melanogaster и состоит всего из 11 аминокислот. Самый большой — титин, который содержится в клетках мышц человека и состоит примерно из 35 000 аминокислот.

Белки слишком малы, чтобы их можно было исследовать под обычным микроскопом. В течение десятилетий исследователи использовали сложные экспериментальные методы, такие как рентгеновская кристаллография, ядерный магнитный резонанс (ЯМР) и криогенная электронная микроскопия (крио-ЭМ), для определения их структур. Это кропотливая, трудоёмкая работа, требующая специальных навыков и иногда сотен тысяч долларов. И, как может подтвердить Кейт Мичи, успех не всегда гарантирован.

«Я потратила четыре года, пытаясь решить кристаллическую структуру комплекса двух человеческих белков, и меня опередили. Вы знаете, я не получила ничего за четыре года. Я очень много работала над этим, и это был действительно сложный проект. AlphaFold может рассчитать это за несколько часов», — говорит Мичи, главный научный сотрудник Центра структурной биологии в Аналитическом центре Марка Уэйнрайта при Университете Нового Южного Уэльса в Сиднее.

8 мая 2024 года в журнале Nature была опубликована статья, представляющая третью и новейшую версию системы искусственного интеллекта (ИИ) AlphaFold, которая предсказывает трёхмерную структуру белков по их последовательностям аминокислот. Google DeepMind и Isomorphic Labs, дочерние компании Alphabet, совместно разработали новую модель. Они утверждают, что AlphaFold 3 (AF3) — «революционная модель, которая может предсказывать структуру и взаимодействия всех молекул жизни с беспрецедентной точностью».

Предсказание структур молекул жизни

Белки не существуют в вакууме. Они движутся, связываются друг с другом и модифицируют друг друга, а также образуют большие сложные комплексы.

Питер Чаботар, соруководитель отдела структурной биологии в WEHI, старейшем медицинском исследовательском институте в Австралии, говорит, что одним из первых ограничений AF2 было то, что можно было получить структурные прогнозы только для одного белка. «Часто вас интересует, как разные белки будут взаимодействовать друг с другом. Например, мы работаем над белками, которые участвуют в гибели клеток, и взаимодействие между этими белками определяет, будет ли клетка жить или умирать».

Новейшая версия AF3 расширяет эту возможность, предсказывая взаимодействия между несколькими белками и нуклеиновыми кислотами (ДНК и РНК). Она может предсказывать влияние ионов и посттрансляционных модификаций — добавления химических групп к аминокислотам — на эти молекулярные системы. AF3 также можно использовать для предсказания того, как набор небольших молекул, называемых лигандами, связывается с белками, хотя это ограничено лигандами, для которых в PDB доступны экспериментальные данные высокого качества.

«Но настоящая сила заключается в том, что мы много делаем в мире открытия лекарств», — говорит Чаботар. «И это чрезвычайно мощно для этого, потенциально, но они не включили это в том виде, в каком оно было выпущено. Мы занимались открытием лекарств против белков, участвующих в гибели клеток. Я не могу взять один из препаратов, с которыми мы работали, и посмотреть, как он взаимодействует с моим целевым белком, я могу использовать только те [лиганды], которые они нам разрешили».

Эта возможность предсказывать структуру новых молекул лекарств, взаимодействующих с целевыми белками, кажется ограниченной Isomorphic Labs, которая была запущена в 2021 году для коммерческого открытия лекарств.

AF3 использует совершенно другой подход для этого нового набора прогнозов: генеративный ИИ. После обработки входных последовательностей он собирает свои прогнозы с помощью диффузионной сети, подобной той, которая используется в генераторах изображений ИИ. Согласно веб-сайту Isomorphic Labs: «диффузионный процесс начинается с облака атомов и за много шагов сходится к своей окончательной, наиболее точной молекулярной структуре».

Генеративный ИИ не лишён ограничений. AF3 иногда будет создавать структуры с перекрывающимися атомами (что физически невозможно) или заменять деталь структуры её зеркальным отображением (что химически невозможно). Как генеративная модель, она также склонна к галлюцинациям, когда изобретает правдоподобные структуры — особенно в неупорядоченных областях белка, не имеющих стабильной трёхмерной структуры, — подобно тому, как ИИ для преобразования текста в изображение пытается создать реалистично выглядящие руки. Встроенные меры уверенности помогают определить, когда AF3 не совсем уверена в своём структурном прогнозе, но в конечном итоге учёный, разбирающийся в лежащей в основе структурной биологии, должен прийти и определить, что пошло не так и почему.

«Это очень, очень мощно. Но это не исключает необходимости обязательно подтверждать вещи экспериментально. Будь то путём решения структур или, например, путём тестирования структур каким-либо образом в эксперименте», — говорит Чаботар.

Опасения по поводу кода

В отличие от AF2, доступ к новейшей версии AlphaFold ограничен веб-сервером и предназначен только для некоммерческих исследований. «У нас есть различные проекты по открытию лекарств на основе структуры, и некоторые из них чисто академические, как у студентов, докторов наук и отличников. Но у нас также были коммерческие партнёрства, потому что это способ вывести ваши открытия в клинические условия», — говорит Чаботар. «Так что в целом всё, что может оказать влияние, делается академической лабораторией в рамках коммерческого партнёрства. Теперь, я думаю, это ставит нас в несколько неловкое положение. Даже если бы мы могли посмотреть на наши соединения, связанные с целевым [белком], есть некоторые проекты, в которых мы не сможем это сделать, потому что, знаете, мы поставили галочку».

Сопроводительная статья в Nature была опубликована без исходного кода, но с «псевдокодом» — подробным описанием того, что может делать код и как он работает. Это вызвало открытое письмо редакторам журнала Nature, опубликованное 16 мая и подписанное более чем 1000 учёными по состоянию на июнь.

В письме высказывались опасения, что «отсутствие доступного кода ставит под угрозу экспертную оценку» и что выпущенный псевдокод «потребует месяцев усилий, чтобы превратить его в рабочий код, который приближается к производительности, тратя драгоценное время и ресурсы».

Чувства, похоже, возымели действие. Вскоре после публикации письма вице-президент по исследованиям DeepMind Пушмит Кохли объявил через X, что они удвоят дневной лимит заданий до 20 и «работают над выпуском модели AF3 (включая веса) для академического использования… в течение 6 месяцев».

22 мая Nature ответила в редакционной статье, изложив свои доводы в пользу публикации статьи без кода: «Частный сектор финансирует большинство глобальных исследований и разработок, и многие результаты такой работы не публикуются в рецензируемых журналах. Мы в Nature считаем, что журналам необходимо взаимодействовать с частным сектором и работать с его учёными, чтобы они могли представить свои исследования на экспертную оценку и опубликовать их».

Тем временем другие исследователи не будут сидеть сложа руки до выхода кода в конце 2024 года. Уже сейчас несколько команд спешат разработать свои собственные версии AlphaFold 3 с открытым исходным кодом, без каких-либо ограничений.

Источник