Anthrogen представил Odyssey — семейство языковых моделей для работы с белками, предназначенное для генерации последовательностей и структур, редактирования белков и условного проектирования. Модели производства варьируются от 1,2 млрд до 102 млрд параметров.
Исследовательская группа Anthrogen позиционирует Odyssey как передовую мультимодальную модель для реальных задач проектирования белков и отмечает, что API находится в раннем доступе.
Какую проблему решает Odyssey?
Проектирование белков сочетает в себе аминокислотную последовательность, трёхмерную структуру и функциональный контекст. Многие предыдущие модели используют самовнимание, которое смешивает информацию по всей последовательности сразу.
Белки подчиняются геометрическим ограничениям, поэтому дальнодействующие эффекты распространяются через локальные окрестности в трёхмерном пространстве. Anthrogen формулирует это как проблему локальности и предлагает новое правило распространения, называемое Consensus, которое лучше соответствует домену.
Представление входных данных и токенизация
Odyssey — это мультимодальная модель. Она встраивает токены последовательности, токены структуры и облегчённые функциональные сигналы, а затем объединяет их в общее представление.
Для структуры Odyssey использует конечный скалярный квантозатор (FSQ) для преобразования трёхмерной геометрии в компактные токены. Представьте FSQ как алфавит форм, который позволяет модели считывать структуру так же легко, как и последовательность.
Функциональные сигналы могут включать доменные метки, намёки на вторичную структуру, метки ортологичных групп или короткие текстовые дескрипторы. Такой совместный взгляд даёт модели доступ к локальным закономерностям последовательности и дальнодействующим геометрическим отношениям в едином скрытом пространстве.
Основа изменения, Consensus вместо самовнимания
Consensus заменяет глобальное самовнимание итеративными, учитывающими локальность обновлениями на разрежённом графе контактов или последовательностей. Каждый слой побуждает соседние окрестности сначала прийти к согласию, а затем распространяет это согласие наружу по цепочке и контактному графу.
Это изменение влияет на вычисления. Самовнимание масштабируется как O(L²) с длиной последовательности L. Anthrogen сообщает, что Consensus масштабируется как O(L), что делает длинные последовательности и мультидоменные конструкции доступными по цене.
Компания также сообщает об улучшении устойчивости к выбору скорости обучения в более крупных масштабах, что снижает хрупкие запуски и перезапуски.
Цель обучения и генерация, дискретная диффузия
Odyssey обучается с помощью дискретной диффузии на токенах последовательности и структуры. Прямой процесс применяет маскирующий шум, имитирующий мутацию. Обратный временной денойзер учится восстанавливать согласованную последовательность и координаты, которые работают вместе.
При выводе тот же обратный процесс поддерживает условную генерацию и редактирование. Вы можете удерживать каркас, исправить мотив, замаскировать петлю, добавить функциональный тег, а затем позволить модели завершить остальное, сохраняя при этом последовательность и структуру синхронизированными.
Anthrogen сообщает о сопоставленных сравнениях, где диффузия превосходит моделирование замаскированного языка во время оценки. На странице отмечены более низкие тренировочные перплексии для диффузии по сравнению со сложным маскированием и более низкие или сопоставимые тренировочные перплексии по сравнению с простым маскированием.
Ключевые выводы
* Odyssey — это мультимодальная модель семейства языковых моделей для работы с белками, которая объединяет последовательность, структуру и функциональный контекст, с производственными моделями на 1,2 млрд, 8 млрд и 102 млрд параметров.
* Consensus заменяет самовнимание распространением, учитывающим локальность, которое масштабируется как O(L) и демонстрирует надёжное поведение при обучении в более крупных масштабах.
* FSQ преобразует трёхмерные координаты в дискретные структурные токены для совместного моделирования последовательности и структуры.
* Дискретная диффузия обучает обратный временной денойзер и в сопоставленных сравнениях превосходит моделирование замаскированного языка во время оценки.
* Anthrogen сообщает о более высокой производительности примерно в 10 раз меньшем объёме данных, чем у конкурирующих моделей, что решает проблему нехватки данных при моделировании белков.
Odyssey — впечатляющая модель, поскольку она реализует совместное моделирование последовательностей и структур с помощью FSQ, Consensus и дискретной диффузии, обеспечивая условное проектирование и редактирование в практических условиях.
Odyssey масштабируется до 102 млрд параметров со сложностью O(L) для Consensus, что снижает затраты на длинные белки и улучшает устойчивость к скорости обучения. Anthrogen сообщает, что диффузия превосходит моделирование замаскированного языка в сопоставленных оценках, что соответствует целям совместного проектирования.
Система нацелена на многоцелевое проектирование, включая эффективность, специфичность, стабильность и технологичность. Исследовательская группа подчёркивает эффективность использования данных примерно в 10 раз по сравнению с конкурирующими моделями, что имеет значение в областях со скудными помеченными данными.
1. Какие проблемы в области работы с белками решает модель Odyssey от Anthrogen?
Odyssey решает проблему проектирования белков, сочетая аминокислотную последовательность, трёхмерную структуру и функциональный контекст. Модель учитывает локальные закономерности последовательности и дальнодействующие геометрические отношения в едином скрытом пространстве.
2. Как модель Odyssey отличается от предыдущих моделей в подходе к работе с белками?
В отличие от предыдущих моделей, Odyssey использует правило распространения Consensus вместо глобального самовнимания. Это позволяет учитывать локальность и делает длинные последовательности и мультидоменные конструкции доступными по цене.
3. Какие преимущества предлагает модель Odyssey в обучении и генерации?
Odyssey обучается с помощью дискретной диффузии на токенах последовательности и структуры. Это позволяет модели восстанавливать согласованную последовательность и координаты, а также поддерживать условную генерацию и редактирование.
4. Какие параметры производственных моделей представлены в семействе Odyssey?
Производственные модели семейства Odyssey варьируются от 1,2 млрд до 102 млрд параметров.
5. В чём заключается эффективность использования данных моделью Odyssey по сравнению с конкурирующими моделями?
Anthrogen сообщает о более высокой производительности Odyssey примерно в 10 раз меньшем объёме данных, чем у конкурирующих моделей. Это имеет значение в областях со скудными помеченными данными.