Google DeepMind представляет AlphaGenome: модель глубокого обучения для комплексного прогнозирования влияния отдельных вариантов или мутаций в ДНК

Единая модель глубокого обучения для понимания генома

Google DeepMind представила AlphaGenome — новую систему глубокого обучения, предназначенную для прогнозирования регуляторных последствий вариаций последовательностей ДНК в широком спектре биологических модальностей.

AlphaGenome отличается тем, что принимает длинные последовательности ДНК — до 1 мегабазы — и выдаёт прогнозы с высоким разрешением, такие как события сплайсинга на уровне оснований, доступность хроматина, экспрессия генов и связывание факторов транскрипции.

Техническая архитектура и методология обучения

AlphaGenome использует архитектуру в стиле U-Net с ядром трансформатора. Она обрабатывает последовательности ДНК параллельными блоками по 131 кб на устройствах TPUv3, обеспечивая прогнозы с учётом контекста и разрешением на уровне пар оснований. Архитектура использует двумерные вложения для моделирования пространственного взаимодействия (например, контактных карт) и одномерные вложения для линейных геномных задач.

Обучение проходило в два этапа:
* Предварительное обучение: использование моделей для конкретных складок и всех складок для прогнозирования по наблюдаемым экспериментальным дорожкам.
* Дистилляция: модель-ученик обучается на моделях-учителях для обеспечения согласованных и эффективных прогнозов, что позволяет выполнять быстрый вывод (~1 секунда на вариант) на графических процессорах, таких как NVIDIA H100.

Производительность по бенчмаркам

AlphaGenome была тщательно протестирована на специализированных и мультимодальных моделях на 24 геномных дорожках и 26 задачах прогнозирования эффектов вариантов. Она превзошла или соответствовала современным моделям в 22 из 24 и 24 из 26 оценок соответственно.

В задачах по сплайсингу, экспрессии генов и хроматину AlphaGenome последовательно превосходила специализированные модели, такие как SpliceAI, Borzoi и ChromBPNet.

Прогноз эффекта варианта по одной только последовательности

Одной из ключевых сильных сторон AlphaGenome является прогнозирование эффекта варианта (VEP). Она справляется с задачами VEP без использования данных популяционной генетики, что делает её надёжной для редких вариантов и дистальных регуляторных областей.

С помощью одного вывода AlphaGenome оценивает, как мутация может повлиять на паттерны сплайсинга, уровни экспрессии и состояние хроматина — всё это в мультимодальном формате.

Применение в интерпретации GWAS и анализе вариантов заболеваний

AlphaGenome помогает интерпретировать сигналы GWAS, присваивая направленность вариантных эффектов на экспрессию генов. По сравнению с методами колокализации, такими как COLOC, AlphaGenome обеспечивает дополнительный и более широкий охват — разрешая в 4 раза больше локусов в квинтиле с наименьшим MAF.

Она также продемонстрировала полезность в онкогеномике. При анализе некодирующих мутаций выше онкогена TAL1 (связанного с T-ALL) прогнозы AlphaGenome соответствовали известным эпигеномным изменениям и механизмам повышения экспрессии, подтверждая её способность оценивать мутации с усилением функции в регуляторных элементах.

Основные выводы

AlphaGenome от Google DeepMind — это мощная модель глубокого обучения, которая прогнозирует последствия ДНК-мутаций в различных регуляторных модальностях с разрешением на уровне пар оснований. Она сочетает в себе моделирование длинных последовательностей, мультимодальное прогнозирование и вывод с высоким разрешением в единой архитектуре.

Превосходя специализированные и общие модели в 50 бенчмарках, AlphaGenome значительно улучшает интерпретацию некодирующих генетических вариантов и теперь доступна в предварительном режиме для поддержки геномных исследований по всему миру.

🔬🧬🧬

Ознакомиться с подробностями можно в [статье](), на [странице с техническими деталями](), а также на [GitHub]().

Все заслуги за это исследование принадлежат исследователям проекта. Подписывайтесь на нас в [Twitter](), присоединяйтесь к нашему [ML SubReddit]() с более чем 100 тысячами участников и подписывайтесь на [наш Newsletter]().

1. Какие задачи прогнозирования эффектов вариантов решает AlphaGenome?

AlphaGenome решает задачи прогнозирования регуляторных последствий вариаций последовательностей ДНК, включая события сплайсинга на уровне оснований, доступность хроматина, экспрессию генов и связывание факторов транскрипции.

2. Как AlphaGenome обрабатывает последовательности ДНК?

AlphaGenome использует архитектуру в стиле U-Net с ядром трансформатора. Она обрабатывает последовательности ДНК параллельными блоками по 131 кб на устройствах TPUv3, обеспечивая прогнозы с учётом контекста и разрешением на уровне пар оснований.

3. Какие этапы включает в себя обучение AlphaGenome?

Обучение AlphaGenome проходило в два этапа: предварительное обучение с использованием моделей для конкретных складок и всех складок для прогнозирования по наблюдаемым экспериментальным дорожкам, а также дистилляция, когда модель-ученик обучается на моделях-учителях для обеспечения согласованных и эффективных прогнозов.

4. Как AlphaGenome справляется с задачами прогнозирования эффекта варианта (VEP)?

Одной из ключевых сильных сторон AlphaGenome является прогнозирование эффекта варианта (VEP). Она справляется с задачами VEP без использования данных популяционной генетики, что делает её надёжной для редких вариантов и дистальных регуляторных областей. С помощью одного вывода AlphaGenome оценивает, как мутация может повлиять на паттерны сплайсинга, уровни экспрессии и состояние хроматина.

5. В каких областях применения AlphaGenome продемонстрировала свою полезность?

AlphaGenome продемонстрировала свою полезность в интерпретации сигналов GWAS, анализе вариантов заболеваний и онкогеномике. Она помогает интерпретировать сигналы GWAS, присваивая направленность вариантных эффектов на экспрессию генов, и подтвердила свою способность оценивать мутации с усилением функции в регуляторных элементах при анализе некодирующих мутаций выше онкогена TAL1.

Источник

Оставьте комментарий