Anthrogen представляет Odyssey: семейство языковых моделей для работы с белками

Anthrogen представил Odyssey — семейство языковых моделей для работы с белками, предназначенное для генерации последовательностей и структур, редактирования белков и условного проектирования. Модели производства варьируются от 1,2 млрд до 102 млрд параметров.

Исследовательская группа Anthrogen позиционирует Odyssey как передовую мультимодальную модель для реальных задач проектирования белков и отмечает, что API находится в раннем доступе.

Какую проблему решает Odyssey?

Проектирование белков сочетает в себе аминокислотную последовательность, трёхмерную структуру и функциональный контекст. Многие предыдущие модели используют самовнимание, которое смешивает информацию по всей последовательности сразу.

Белки подчиняются геометрическим ограничениям, поэтому дальнодействующие эффекты распространяются через локальные окрестности в трёхмерном пространстве. Anthrogen формулирует это как проблему локальности и предлагает новое правило распространения, называемое Consensus, которое лучше соответствует домену.

Представление входных данных и токенизация

Odyssey — это мультимодальная модель. Она встраивает токены последовательности, токены структуры и облегчённые функциональные сигналы, а затем объединяет их в общее представление.

Для структуры Odyssey использует конечный скалярный квантозатор (FSQ) для преобразования трёхмерной геометрии в компактные токены. Представьте FSQ как алфавит форм, который позволяет модели считывать структуру так же легко, как и последовательность.

Функциональные сигналы могут включать доменные метки, намёки на вторичную структуру, метки ортологичных групп или короткие текстовые дескрипторы. Такой совместный взгляд даёт модели доступ к локальным закономерностям последовательности и дальнодействующим геометрическим отношениям в едином скрытом пространстве.

Основа изменения, Consensus вместо самовнимания

Consensus заменяет глобальное самовнимание итеративными, учитывающими локальность обновлениями на разрежённом графе контактов или последовательностей. Каждый слой побуждает соседние окрестности сначала прийти к согласию, а затем распространяет это согласие наружу по цепочке и контактному графу.

Это изменение влияет на вычисления. Самовнимание масштабируется как O(L²) с длиной последовательности L. Anthrogen сообщает, что Consensus масштабируется как O(L), что делает длинные последовательности и мультидоменные конструкции доступными по цене.

Компания также сообщает об улучшении устойчивости к выбору скорости обучения в более крупных масштабах, что снижает хрупкие запуски и перезапуски.

Цель обучения и генерация, дискретная диффузия

Odyssey обучается с помощью дискретной диффузии на токенах последовательности и структуры. Прямой процесс применяет маскирующий шум, имитирующий мутацию. Обратный временной денойзер учится восстанавливать согласованную последовательность и координаты, которые работают вместе.

При выводе тот же обратный процесс поддерживает условную генерацию и редактирование. Вы можете удерживать каркас, исправить мотив, замаскировать петлю, добавить функциональный тег, а затем позволить модели завершить остальное, сохраняя при этом последовательность и структуру синхронизированными.

Anthrogen сообщает о сопоставленных сравнениях, где диффузия превосходит моделирование замаскированного языка во время оценки. На странице отмечены более низкие тренировочные перплексии для диффузии по сравнению со сложным маскированием и более низкие или сопоставимые тренировочные перплексии по сравнению с простым маскированием.

Ключевые выводы

* Odyssey — это мультимодальная модель семейства языковых моделей для работы с белками, которая объединяет последовательность, структуру и функциональный контекст, с производственными моделями на 1,2 млрд, 8 млрд и 102 млрд параметров.
* Consensus заменяет самовнимание распространением, учитывающим локальность, которое масштабируется как O(L) и демонстрирует надёжное поведение при обучении в более крупных масштабах.
* FSQ преобразует трёхмерные координаты в дискретные структурные токены для совместного моделирования последовательности и структуры.
* Дискретная диффузия обучает обратный временной денойзер и в сопоставленных сравнениях превосходит моделирование замаскированного языка во время оценки.
* Anthrogen сообщает о более высокой производительности примерно в 10 раз меньшем объёме данных, чем у конкурирующих моделей, что решает проблему нехватки данных при моделировании белков.

Odyssey — впечатляющая модель, поскольку она реализует совместное моделирование последовательностей и структур с помощью FSQ, Consensus и дискретной диффузии, обеспечивая условное проектирование и редактирование в практических условиях.

Odyssey масштабируется до 102 млрд параметров со сложностью O(L) для Consensus, что снижает затраты на длинные белки и улучшает устойчивость к скорости обучения. Anthrogen сообщает, что диффузия превосходит моделирование замаскированного языка в сопоставленных оценках, что соответствует целям совместного проектирования.

Система нацелена на многоцелевое проектирование, включая эффективность, специфичность, стабильность и технологичность. Исследовательская группа подчёркивает эффективность использования данных примерно в 10 раз по сравнению с конкурирующими моделями, что имеет значение в областях со скудными помеченными данными.

1. Какие проблемы в области работы с белками решает модель Odyssey от Anthrogen?

Odyssey решает проблему проектирования белков, сочетая аминокислотную последовательность, трёхмерную структуру и функциональный контекст. Модель учитывает локальные закономерности последовательности и дальнодействующие геометрические отношения в едином скрытом пространстве.

2. Как модель Odyssey отличается от предыдущих моделей в подходе к работе с белками?

В отличие от предыдущих моделей, Odyssey использует правило распространения Consensus вместо глобального самовнимания. Это позволяет учитывать локальность и делает длинные последовательности и мультидоменные конструкции доступными по цене.

3. Какие преимущества предлагает модель Odyssey в обучении и генерации?

Odyssey обучается с помощью дискретной диффузии на токенах последовательности и структуры. Это позволяет модели восстанавливать согласованную последовательность и координаты, а также поддерживать условную генерацию и редактирование.

4. Какие параметры производственных моделей представлены в семействе Odyssey?

Производственные модели семейства Odyssey варьируются от 1,2 млрд до 102 млрд параметров.

5. В чём заключается эффективность использования данных моделью Odyssey по сравнению с конкурирующими моделями?

Anthrogen сообщает о более высокой производительности Odyssey примерно в 10 раз меньшем объёме данных, чем у конкурирующих моделей. Это имеет значение в областях со скудными помеченными данными.

Источник