InstaDeep представляет Nucleotide Transformer v3 (NTv3): новая базовая модель в области мультивидовой геномики

Nucleotide Transformer v3 (NTv3) — это новая базовая модель в области мультивидовой геномики от компании InstaDeep. Она предназначена для работы с контекстами длиной до 1 мегабазы (Мб) с разрешением в один нуклеотид.

Требования к геномным предсказаниям и дизайну

Современные геномные предсказания и дизайн требуют моделей, которые связывают локальные мотивы с регуляторным контекстом масштаба мегабазы и работают с множеством организмов. NTv3 объединяет обучение представлению, прогнозирование функциональных треков и аннотаций генома, а также управляемую генерацию последовательностей в единой архитектуре, работающей с контекстами длиной 1 Мб с разрешением в один нуклеотид.

Предыдущие модели Nucleotide Transformer

Предыдущие модели Nucleotide Transformer показали, что самоконтролируемый предварительный тренинг на тысячах геномов даёт сильные признаки для прогнозирования молекулярных фенотипов. Оригинальная серия включала модели от 50 млн до 2,5 млрд параметров, обученные на 3 200 геномах человека и 850 дополнительных геномах различных видов. NTv3 сохраняет эту идею предварительного обучения только последовательностям, но расширяет её до более длинных контекстов и добавляет явный функциональный контроль и генеративный режим.

Архитектура для 1 Мб геномных окон

NTv3 использует архитектуру в стиле U-Net, которая нацелена на очень длинные геномные окна. Конволюционная башня понижающей дискретизации сжимает входную последовательность, стек трансформеров моделирует долгосрочные зависимости в этом сжатом пространстве, а башня деконволюции восстанавливает разрешение базового уровня для прогнозирования и генерации.

Данные для обучения

Модель NTv3 предварительно обучена на 9 триллионах пар оснований из ресурса OpenGenome2 с использованием маскированного языкового моделирования с базовым разрешением. После этого этапа модель дообучается с совместной целью, которая объединяет продолжение самоконтролируемого обучения с контролируемым обучением примерно на 16 000 функциональных треков и аннотационных меток из 24 видов животных и растений.

Производительность и бенчмарк NTv3

После дообучения NTv3 достигает современной точности прогнозирования функциональных треков и аннотаций генома среди видов. Она превосходит сильные модели последовательности к функции и предыдущие базовые модели геномики на существующих общедоступных бенчмарках и на новом бенчмарке NTv3, который определён как контролируемый набор инструментов для тонкой настройки с входными окнами стандартизированного размера 32 кб и выходами с базовым разрешением.

От прогнозирования до управляемой генерации последовательностей

Помимо прогнозирования, NTv3 можно настроить как управляемую генеративную модель с помощью маскированного диффузионного языкового моделирования. В этом режиме модель получает сигналы, которые кодируют желаемые уровни активности энхансеров и селективность промоторов, и заполняет замаскированные участки в последовательности ДНК таким образом, чтобы это соответствовало этим условиям.

В экспериментах, описанных в материалах запуска, команда разрабатывает 1 000 последовательностей энхансеров с заданными уровнями активности и специфичностью промоторов и проверяет их in vitro с помощью STARR-seq-анализов в сотрудничестве с лабораторией Старка. Результаты показывают, что эти сгенерированные энхансеры восстанавливают предполагаемый порядок уровней активности и достигают более чем в 2 раза улучшенной специфичности промоторов по сравнению с базовыми показателями.

Ключевые выводы

* NTv3 — это базовая модель в области мультивидовой геномики, которая объединяет обучение представлению, прогнозирование функциональных треков, аннотирование генома и управляемую генерацию последовательностей в единой архитектуре в стиле U-Net, которая поддерживает контекст с разрешением в один нуклеотид длиной до 1 Мб для 24 видов животных и растений.
* Модель обучена на 9 триллионах пар оснований с использованием совместных самоконтролируемых и контролируемых целей.
* NTv3 достигает современной производительности по бенчмарку NTv3.
* Та же архитектура поддерживает управляемый дизайн энхансеров, подтверждённый STARR-seq. NTv3 можно настроить как управляемую генеративную модель с помощью маскированного диффузионного языкового моделирования для разработки последовательностей энхансеров с заданными уровнями активности и селективностью промоторов.

1. Какие задачи решает модель NTv3 и какие возможности она предоставляет в области мультивидовой геномики?

* NTv3 решает задачи обучения представлению, прогнозирования функциональных треков, аннотирования генома и управляемой генерации последовательностей. Она предназначена для работы с контекстами длиной до 1 мегабазы с разрешением в один нуклеотид и может быть использована для анализа геномов 24 видов животных и растений.

2. На каких данных предварительно обучена модель NTv3 и какие этапы включает её обучение?

* Модель NTv3 предварительно обучена на 9 триллионах пар оснований из ресурса OpenGenome2 с использованием маскированного языкового моделирования с базовым разрешением. После этого этапа модель дообучается с совместной целью, которая объединяет продолжение самоконтролируемого обучения с контролируемым обучением примерно на 16 000 функциональных треков и аннотационных меток из 24 видов животных и растений.

3. Какие преимущества NTv3 имеет по сравнению с предыдущими моделями в области геномики?

* NTv3 превосходит сильные модели последовательности к функции и предыдущие базовые модели геномики на существующих общедоступных бенчмарках и на новом бенчмарке NTv3. Она достигает современной точности прогнозирования функциональных треков и аннотаций генома среди видов.

4. Какие возможности предоставляет NTv3 для управляемой генерации последовательностей ДНК?

* NTv3 можно настроить как управляемую генеративную модель с помощью маскированного диффузионного языкового моделирования. В этом режиме модель получает сигналы, которые кодируют желаемые уровни активности энхансеров и селективность промоторов, и заполняет замаскированные участки в последовательности ДНК таким образом, чтобы это соответствовало этим условиям.

5. Какие результаты были получены при использовании NTv3 для генерации последовательностей энхансеров?

* В экспериментах, описанных в материалах запуска, команда разрабатывает 1 000 последовательностей энхансеров с заданными уровнями активности и специфичностью промоторов и проверяет их in vitro с помощью STARR-seq-анализов в сотрудничестве с лабораторией Старка. Результаты показывают, что эти сгенерированные энхансеры восстанавливают предполагаемый порядок уровней активности и достигают более чем в 2 раза улучшенной специфичности промоторов по сравнению с базовыми показателями.

Источник