ByteDance выпускает Protenix-v1: новая модель с открытым исходным кодом, достигающая уровня AlphaFold3 в прогнозировании биомолекулярных структур

Насколько модель с открытым исходным кодом может приблизиться к точности AlphaFold3 при совпадении обучающих данных, масштаба модели и бюджета на вывод?

ByteDance представила Protenix-v1 — комплексную модель, воспроизводящую AlphaFold3 (AF3) для прогнозирования биомолекулярных структур. Модель выпущена с кодом и параметрами модели под лицензией Apache 2.0.

Protenix-v1 нацелена на достижение уровня AF3 в отношении структур белков, ДНК, РНК и лигандов, сохраняя при этом всю систему открытой и расширяемой для исследований и производства.

Что такое Protenix-v1?

Protenix описывается как «Protenix: Protein + X», базовая модель для высокоточного прогнозирования биомолекулярных структур. Она предсказывает трёхмерные структуры для комплексов, которые могут включать:
* белки;
* нуклеиновые кислоты (ДНК и РНК);
* малые молекулы-лиганды.

Исследовательская группа определяет Protenix как комплексную модель, воспроизводящую AF3. Она повторно реализует диффузионную архитектуру в стиле AF3 для комплексов с атомами и представляет её в обучаемом коде PyTorch.

Проект выпущен как полный стек:
* код для обучения и вывода;
* предварительно обученные веса модели;
* данные и конвейеры MSA;
* браузерный веб-сервер Protenix для интерактивного использования.

Согласно исследовательской группе, Protenix-v1 (protenixbasedefault_v1.0.0) — «первая модель с полностью открытым исходным кодом, которая превосходит AlphaFold3 в различных наборах тестов, соблюдая при этом те же ограничения по обучающим данным, масштабу модели и бюджету на вывод, что и AlphaFold3».

Основные ограничения:
* Дата отсечения обучающих данных: 2021-09-30, совпадает с AF3.
* Масштаб модели: у Protenix-v1 368 миллионов параметров; масштаб AF3 соответствует, но не разглашается.
* Бюджет на вывод: сравнения используют аналогичные бюджеты выборки и ограничения по времени выполнения.

https://github.com/bytedance/Protenix

На сложных мишенях, таких как комплексы антиген–антитело, увеличение количества отобранных кандидатов с нескольких до сотен даёт последовательное логарифмически-линейное улучшение точности.

Это даёт чёткое и задокументированное поведение масштабирования во время вывода, а не единую фиксированную рабочую точку.

PXMeter v1.0.0: оценка более 6 тысяч комплексов

Чтобы поддержать эти утверждения, исследовательская группа выпустила PXMeter v1.0.0 — набор инструментов с открытым исходным кодом для воспроизводимых тестов прогнозирования структур.

PXMeter предоставляет:
* вручную подобранный набор тестов, из которого удалены неживые артефакты и проблемные записи;
* временные и доменно-специфичные подмножества (например, антитело–антиген, белок–РНК, комплексы лигандов);
* единую систему оценки, которая вычисляет такие показатели, как LDDT комплекса и DockQ для разных моделей.

Связанная с PXMeter исследовательская работа «Пересмотр тестов прогнозирования структур с помощью PXMeter» оценивает Protenix, AlphaFold3, Boltz-1 и Chai-1 на одних и тех же тщательно подобранных задачах и показывает, как разные дизайны наборов данных влияют на ранжирование моделей и воспринимаемую производительность.

Как Protenix вписывается в более широкую экосистему?

Protenix является частью небольшой экосистемы связанных проектов:
* PXDesign: набор инструментов для проектирования связующих, построенный на основе базовой модели Protenix. Он сообщает о 20–73% экспериментальных показателях успешности и в 2–6 раз выше, чем у таких методов, как AlphaProteo и RFdiffusion, и доступен через сервер Protenix.
* Protenix-Dock: классическая система стыковки белков и лигандов, которая использует эмпирические оценочные функции, а не глубокие сети, настроенные для жёстких задач стыковки.
* Protenix-Mini и последующие работы, такие как Protenix-Mini+: облегчённые варианты, которые снижают затраты на вывод с помощью архитектурного сжатия и нескольких шагов диффузионных пробоотборников, сохраняя при этом точность в пределах нескольких процентов от полной модели на стандартных тестах.

Вместе эти компоненты охватывают прогнозирование структуры, стыковку и проектирование, а также используют общие интерфейсы и форматы, что упрощает интеграцию в последующие конвейеры.

Ключевые выводы:
* Модель уровня AF3 с открытым исходным кодом: Protenix-v1 — это предиктор биомолекулярных структур в стиле AF3 с открытым кодом и весами под лицензией Apache 2.0, нацеленный на белки, ДНК, РНК и лиганды.
* Строгое соответствие AF3 для справедливого сравнения: Protenix-v1 соответствует AlphaFold3 по критическим параметрам: дате отсечения обучающих данных (2021-09-30), классу масштаба модели и сопоставимому бюджету на вывод, что позволяет делать обоснованные заявления об уровне производительности AF3.
* Прозрачная оценка с помощью PXMeter v1.0.0: PXMeter предоставляет тщательно подобранный набор тестов для более чем 6 тысяч комплексов с временными и доменно-специфичными подмножествами, а также едиными метриками (например, LDDT комплекса, DockQ) для воспроизводимой оценки.
* Проверенное поведение масштабирования во время вывода: Protenix-v1 демонстрирует логарифмически-линейный прирост точности по мере увеличения количества отобранных кандидатов, что даёт документированный компромисс между задержкой и точностью, а не единую фиксированную рабочую точку.

1. Какие ключевые особенности модели Protenix-v1 выделяют её на фоне других моделей для прогнозирования биомолекулярных структур?

Protenix-v1 выделяется на фоне других моделей благодаря своей способности достигать уровня AlphaFold3 в прогнозировании биомолекулярных структур. Она использует диффузионную архитектуру в стиле AlphaFold3 для комплексов с атомами и представлена в обучаемом коде PyTorch. Кроме того, Protenix-v1 выпущена с открытым исходным кодом под лицензией Apache 2.0, что делает её доступной для исследований и производства.

2. Какие ограничения существуют у модели Protenix-v1 и как они соотносятся с AlphaFold3?

Основные ограничения Protenix-v1 включают дату отсечения обучающих данных (2021-09-30), которая совпадает с AlphaFold3, масштаб модели (368 миллионов параметров) и бюджет на вывод, который сопоставим с AlphaFold3. Эти ограничения обеспечивают справедливое сравнение с AlphaFold3.

3. Как модель Protenix-v1 может быть интегрирована в более широкую экосистему связанных проектов?

Protenix является частью небольшой экосистемы связанных проектов, таких как PXDesign, Protenix-Dock и Protenix-Mini. Эти компоненты охватывают прогнозирование структуры, стыковку и проектирование, а также используют общие интерфейсы и форматы, что упрощает интеграцию в последующие конвейеры.

4. Какие преимущества предоставляет набор инструментов PXMeter v1.0.0 для оценки моделей прогнозирования структур?

PXMeter v1.0.0 предоставляет набор инструментов с открытым исходным кодом для воспроизводимых тестов прогнозирования структур. Он включает в себя вручную подобранный набор тестов, временные и доменно-специфичные подмножества и единую систему оценки, которая вычисляет такие показатели, как LDDT комплекса и DockQ для разных моделей. Это позволяет проводить более точные и объективные оценки производительности моделей.

5. Какие выводы можно сделать о модели Protenix-v1 на основе ключевых выводов статьи?

Ключевые выводы статьи включают в себя то, что Protenix-v1 является моделью уровня AF3 с открытым исходным кодом, которая соответствует AlphaFold3 по критическим параметрам. Она также демонстрирует прозрачную оценку с помощью PXMeter v1.0.0 и проверенное поведение масштабирования во время вывода, что обеспечивает документированный компромисс между задержкой и точностью.

Источник