Единая модель глубокого обучения для понимания генома
Google DeepMind представила AlphaGenome — новую систему глубокого обучения, предназначенную для прогнозирования регуляторных последствий вариаций последовательностей ДНК в широком спектре биологических модальностей.
AlphaGenome отличается тем, что принимает длинные последовательности ДНК — до 1 мегабазы — и выдаёт прогнозы с высоким разрешением, такие как события сплайсинга на уровне оснований, доступность хроматина, экспрессия генов и связывание факторов транскрипции.
Техническая архитектура и методология обучения
AlphaGenome использует архитектуру в стиле U-Net с ядром трансформатора. Она обрабатывает последовательности ДНК параллельными блоками по 131 кб на устройствах TPUv3, обеспечивая прогнозы с учётом контекста и разрешением на уровне пар оснований. Архитектура использует двумерные вложения для моделирования пространственного взаимодействия (например, контактных карт) и одномерные вложения для линейных геномных задач.
Обучение проходило в два этапа:
* Предварительное обучение: использование моделей для конкретных складок и всех складок для прогнозирования по наблюдаемым экспериментальным дорожкам.
* Дистилляция: модель-ученик обучается на моделях-учителях для обеспечения согласованных и эффективных прогнозов, что позволяет выполнять быстрый вывод (~1 секунда на вариант) на графических процессорах, таких как NVIDIA H100.
Производительность по бенчмаркам
AlphaGenome была тщательно протестирована на специализированных и мультимодальных моделях на 24 геномных дорожках и 26 задачах прогнозирования эффектов вариантов. Она превзошла или соответствовала современным моделям в 22 из 24 и 24 из 26 оценок соответственно.
В задачах по сплайсингу, экспрессии генов и хроматину AlphaGenome последовательно превосходила специализированные модели, такие как SpliceAI, Borzoi и ChromBPNet.
Прогноз эффекта варианта по одной только последовательности
Одной из ключевых сильных сторон AlphaGenome является прогнозирование эффекта варианта (VEP). Она справляется с задачами VEP без использования данных популяционной генетики, что делает её надёжной для редких вариантов и дистальных регуляторных областей.
С помощью одного вывода AlphaGenome оценивает, как мутация может повлиять на паттерны сплайсинга, уровни экспрессии и состояние хроматина — всё это в мультимодальном формате.
Применение в интерпретации GWAS и анализе вариантов заболеваний
AlphaGenome помогает интерпретировать сигналы GWAS, присваивая направленность вариантных эффектов на экспрессию генов. По сравнению с методами колокализации, такими как COLOC, AlphaGenome обеспечивает дополнительный и более широкий охват — разрешая в 4 раза больше локусов в квинтиле с наименьшим MAF.
Она также продемонстрировала полезность в онкогеномике. При анализе некодирующих мутаций выше онкогена TAL1 (связанного с T-ALL) прогнозы AlphaGenome соответствовали известным эпигеномным изменениям и механизмам повышения экспрессии, подтверждая её способность оценивать мутации с усилением функции в регуляторных элементах.
Основные выводы
AlphaGenome от Google DeepMind — это мощная модель глубокого обучения, которая прогнозирует последствия ДНК-мутаций в различных регуляторных модальностях с разрешением на уровне пар оснований. Она сочетает в себе моделирование длинных последовательностей, мультимодальное прогнозирование и вывод с высоким разрешением в единой архитектуре.
Превосходя специализированные и общие модели в 50 бенчмарках, AlphaGenome значительно улучшает интерпретацию некодирующих генетических вариантов и теперь доступна в предварительном режиме для поддержки геномных исследований по всему миру.
🔬🧬🧬
Ознакомиться с подробностями можно в [статье](), на [странице с техническими деталями](), а также на [GitHub]().
Все заслуги за это исследование принадлежат исследователям проекта. Подписывайтесь на нас в [Twitter](), присоединяйтесь к нашему [ML SubReddit]() с более чем 100 тысячами участников и подписывайтесь на [наш Newsletter]().
1. Какие задачи прогнозирования эффектов вариантов решает AlphaGenome?
AlphaGenome решает задачи прогнозирования регуляторных последствий вариаций последовательностей ДНК, включая события сплайсинга на уровне оснований, доступность хроматина, экспрессию генов и связывание факторов транскрипции.
2. Как AlphaGenome обрабатывает последовательности ДНК?
AlphaGenome использует архитектуру в стиле U-Net с ядром трансформатора. Она обрабатывает последовательности ДНК параллельными блоками по 131 кб на устройствах TPUv3, обеспечивая прогнозы с учётом контекста и разрешением на уровне пар оснований.
3. Какие этапы включает в себя обучение AlphaGenome?
Обучение AlphaGenome проходило в два этапа: предварительное обучение с использованием моделей для конкретных складок и всех складок для прогнозирования по наблюдаемым экспериментальным дорожкам, а также дистилляция, когда модель-ученик обучается на моделях-учителях для обеспечения согласованных и эффективных прогнозов.
4. Как AlphaGenome справляется с задачами прогнозирования эффекта варианта (VEP)?
Одной из ключевых сильных сторон AlphaGenome является прогнозирование эффекта варианта (VEP). Она справляется с задачами VEP без использования данных популяционной генетики, что делает её надёжной для редких вариантов и дистальных регуляторных областей. С помощью одного вывода AlphaGenome оценивает, как мутация может повлиять на паттерны сплайсинга, уровни экспрессии и состояние хроматина.
5. В каких областях применения AlphaGenome продемонстрировала свою полезность?
AlphaGenome продемонстрировала свою полезность в интерпретации сигналов GWAS, анализе вариантов заболеваний и онкогеномике. Она помогает интерпретировать сигналы GWAS, присваивая направленность вариантных эффектов на экспрессию генов, и подтвердила свою способность оценивать мутации с усилением функции в регуляторных элементах при анализе некодирующих мутаций выше онкогена TAL1.