**PLAID — генерация белков**
PLAID — это мультимодальная генеративная модель, которая одновременно генерирует последовательность белка в 1D и 3D-структуру, изучая скрытое пространство моделей сворачивания белков.
В 2024 году Нобелевская премия по химии была присуждена AlphaFold2, что стало важным моментом признания роли искусственного интеллекта в биологии. Что же ждёт нас после решения задачи сворачивания белков?
В PLAID мы разрабатываем метод, который учится выбирать из скрытого пространства моделей сворачивания белков для генерации новых белков. Он может принимать композиционные функции и подсказки об организме, а также может быть обучен на базах данных последовательностей, которые на 2–4 порядка больше, чем базы данных структур.
**От предсказания структуры к разработке лекарств в реальном мире**
Хотя недавние работы демонстрируют потенциал диффузионных моделей для генерации белков, существуют ограничения предыдущих моделей, которые делают их непрактичными для применения в реальном мире.
**Генерация «полезных» белков**
Просто генерировать белки недостаточно, важно контролировать генерацию для получения «полезных» белков. Как может выглядеть интерфейс для этого? Для примера рассмотрим, как мы контролируем генерацию изображений с помощью композиционных текстовых подсказок (пример из Liu et al., 2022).
В PLAID мы зеркально отражаем этот интерфейс для спецификации управления. Конечная цель — полностью контролировать генерацию с помощью текстового интерфейса, но здесь мы рассматриваем композиционные ограничения по двум осям в качестве доказательства концепции: функция и организм.
**Обучение связи функция-структура-последовательность**
PLAID изучает тетраэдрический паттерн координации цистеина-Fe2+/Fe3+, часто встречающийся в металлопротеинах, сохраняя при этом высокое разнообразие на уровне последовательностей.
**Обучение с использованием данных только для последовательностей**
Ещё один важный аспект модели PLAID заключается в том, что для обучения генеративной модели нам нужны только последовательности! Генеративные модели изучают распределение данных, определяемое их обучающими данными, а базы данных последовательностей значительно больше, чем структурные, поскольку последовательности получить гораздо дешевле, чем экспериментальную структуру.
**Как это работает?**
Мы можем обучить генеративную модель генерировать структуру, используя только данные о последовательностях, изучая диффузионную модель в скрытом пространстве модели сворачивания белка. Затем, во время логического вывода, после выборки из этого скрытого пространства допустимых белков, мы можем взять замороженные веса из модели сворачивания белка для декодирования структуры. Здесь мы используем ESMFold, преемника модели AlphaFold2, который заменяет этап поиска моделью языка белков.
**Метод**
Во время обучения для получения встраивания нужны только последовательности; во время логического вывода мы можем декодировать последовательность и структуру из выбранного встраивания. ❄️ обозначает замороженные веса.
Таким образом, мы можем использовать информацию о структурном понимании в весах предварительно обученных моделей сворачивания белков для задачи проектирования белков. Это аналогично тому, как модели «видение-язык-действие» (VLA) в робототехнике используют априорные данные, содержащиеся в моделях «видение-язык» (VLM), обученных на данных интернет-масштаба, для обеспечения восприятия, рассуждения и понимания информации.
**Сжатие скрытого пространства моделей сворачивания белков**
Небольшая проблема при прямом применении этого метода заключается в том, что скрытое пространство ESMFold — и, действительно, скрытое пространство многих моделей на основе трансформеров — требует большой регуляризации. Это пространство также очень велико, поэтому обучение этому встраиванию в конечном итоге приводит к синтезу изображений с высоким разрешением.
Чтобы решить эту проблему, мы также предлагаем CHEAP (Compressed Hourglass Embedding Adaptations of Proteins), где мы изучаем модель сжатия для совместного встраивания последовательности белка и структуры.
**Дальнейшие исследования**
Хотя в этой работе мы рассматриваем случай генерации последовательностей и структуры белка, мы можем адаптировать этот метод для выполнения мультимодальной генерации для любых модальностей, где есть предиктор от более распространённой модальности к менее распространённой. Поскольку предсказатели последовательности-структуры для белков начинают работать со всё более сложными системами (например, AlphaFold3 также может предсказывать белки в комплексе с нуклеиновыми кислотами и молекулярными лигандами), легко представить, как можно выполнять мультимодальную генерацию для более сложных систем, используя тот же метод.