Google AI выпускает DeepPolisher: новый инструмент глубокого обучения для повышения точности сборки геномов

Google AI совместно с Genomics Institute в UC Santa Cruz представил DeepPolisher — передовой инструмент для глубокого обучения, который значительно повышает точность сборки геномов за счёт исправления ошибок на уровне отдельных оснований. Эффективность инструмента была недавно продемонстрирована в рамках продвижения Human Pangenome Reference — важного этапа в исследованиях геномики.

Проблема точной сборки генома

Справочный геном — это основа для понимания генетического разнообразия, наследственности, механизмов заболеваний и эволюционной биологии. Современные технологии секвенирования, включая разработки Illumina и Pacific Biosciences, значительно улучшили точность и производительность секвенирования. Однако даже с учётом технологических прорывов, собрать безошибочный геном человека (состоящий из более чем 3 миллиардов нуклеотидов) остаётся чрезвычайно сложной задачей. Даже незначительная частота ошибок на одно основание может привести к тысячам ошибок, которые могут скрыть ключевые генетические вариации или ввести в заблуждение при последующем анализе.

Что такое DeepPolisher?

DeepPolisher — это инструмент для коррекции секвенирования с открытым исходным кодом, основанный на трансформерах. Используя достижения DeepConsensus, он применяет архитектуры глубокого обучения на основе трансформеров для дальнейшего снижения ошибок в сборке генома, особенно ошибок вставки и удаления (indel), которые оказывают глубокое влияние, смещая рамки считывания и могут привести к тому, что важные гены или регуляторные элементы будут пропущены во время аннотации.

Технология: энкодер-трансформер, адаптирующий проверенные методы обработки естественного языка для геномики.

Данные для обучения: использовалась линия человеческих клеток, подробно охарактеризованная NIST и NHGRI, секвенированная с помощью различных платформ для обеспечения почти полной точности (правильность около 99,99999%, от 300 до 1 000 ошибок в 6 миллиардах оснований).

Как это работает? (Технический обзор)

1. Выравнивание входных данных: принимает выровненные чтения PacBio HiFi относительно сборки генома с учётом гаплотипа в качестве входных данных.
2. Обнаружение участков с ошибками: сканирует сборку в окнах размером 25 кб; выявляет участки с кандидатами в ошибки, где данные чтения отклоняются от сборки.
3. Кодирование данных: для каждого окна, содержащего предполагаемые ошибки (<100 п.н.), создаёт многоканальное тензорное представление признаков выравнивания чтений, таких как основание, качество основания, качество сопоставления и статус совпадения/несовпадения.
4. Вывод модели: передаёт эти тензоры в трансформер, который предсказывает исправленные последовательности для этих регионов.
5. Коррекция выходных данных: выводит различия в формате VCF, которые затем применяются к сборке для получения полированной, высокоточной последовательности с помощью таких инструментов, как bcftools.

Производительность и влияние

DeepPolisher обеспечивает существенное улучшение:
* Общее снижение ошибок: ~50%.
* Снижение ошибок indel: >70%.
* Уровень ошибок: достигает уровня ошибок в одно основание на 500 000 собранных оснований в реальных условиях при использовании Human Pangenome Reference Consortium (HPRC).
* Улучшение геномного Q-score: повышает качество сборки в среднем с Q66,7 до Q70,1 (Q-score — это логарифмическая мера частоты ошибок на одно основание; чем выше, тем лучше. Q70,1 означает <1 ошибка на 12 миллионов нуклеотидов). Каждый образец, протестированный HPRC, показал улучшение. Эти достижения напрямую влияют на надёжность и точность полученных справочных материалов, таких как Human Pangenome Reference, в котором объём данных увеличился в пять раз, а количество ошибок существенно сократилось благодаря DeepPolisher.

Внедрение и применение

DeepPolisher интегрирован в крупные проекты: используется во втором выпуске данных HPRC, обеспечивая высокоточные справочные сборки для 232 человек, обеспечивая широкое разнообразие предков в геномных справочниках.

Доступен на GitHub с примерами из практики и контейнеризированными рабочими процессами для использования со сборками, созданными с помощью таких инструментов, как HiFiasm, и секвенированных с помощью PacBio HiFi.

Хотя изначально DeepPolisher был ориентирован на геномы человека, структура и подход адаптируются к другим организмам и платформам секвенирования, способствуя повышению точности в сообществе геномики.

Практический пример рабочего процесса

Типичный рабочий процесс с использованием DeepPolisher может включать:
1. Входные данные: диплоидная сборка HiFiasm и чтения PacBio HiFi, выровненные по фазам с помощью конвейера PHARAOH.
2. Запуск: контейнеризированные команды для создания образа, вывода и применения исправлений.
3. Выходные данные: отдельные файлы VCF для материнских и отцовских сборок, полированные FASTA после этапа консенсуса bcftools.
4. Оценка: использование инструментов для количественной оценки улучшений в частотах ошибок и точности вариантов (например, dipcall, Hap.py).

Заключение и перспективы

DeepPolisher представляет собой прорыв в технологии полировки генома — резко снижая уровень ошибок и открывая более высокое разрешение для функциональной геномики, обнаружения редких вариантов и клинических применений. Нацеливаясь на устранение оставшихся барьеров на пути к идеальным сборкам генома, он обеспечивает более точную диагностику, генетические исследования на популяционном уровне и прокладывает путь для проектов создания справочников следующего поколения, принося пользу биомедицинским исследованиям и медицине.

1. Какие проблемы решает инструмент DeepPolisher в области геномики?

Инструмент DeepPolisher решает проблему точной сборки генома, значительно повышая её точность за счёт исправления ошибок на уровне отдельных оснований. Это особенно важно для выявления генетических вариаций и предотвращения ошибок при последующем анализе.

2. Какие типы ошибок в сборке генома исправляет DeepPolisher?

DeepPolisher особенно эффективен в исправлении ошибок вставки и удаления (indel). Эти ошибки могут смещать рамки считывания и приводить к тому, что важные гены или регуляторные элементы будут пропущены во время аннотации.

3. Как работает DeepPolisher на техническом уровне?

DeepPolisher работает следующим образом:
1. Выравнивание входных данных: принимает выровненные чтения PacBio HiFi относительно сборки генома с учётом гаплотипа в качестве входных данных.
2. Обнаружение участков с ошибками: сканирует сборку в окнах размером 25 кб; выявляет участки с кандидатами в ошибки, где данные чтения отклоняются от сборки.
3. Кодирование данных: для каждого окна, содержащего предполагаемые ошибки (<100 п.н.), создаёт многоканальное тензорное представление признаков выравнивания чтений.
4. Вывод модели: передаёт эти тензоры в трансформер, который предсказывает исправленные последовательности для этих регионов.
5. Коррекция выходных данных: выводит различия в формате VCF, которые затем применяются к сборке для получения полированной, высокоточной последовательности.

4. Какие результаты были получены при использовании DeepPolisher в проекте Human Pangenome Reference?

При использовании DeepPolisher в проекте Human Pangenome Reference было достигнуто существенное улучшение:
* Общее снижение ошибок: ~50%.
* Снижение ошибок indel: >70%.
* Уровень ошибок: достигает уровня ошибок в одно основание на 500 000 собранных оснований в реальных условиях.
* Улучшение геномного Q-score: повышает качество сборки в среднем с Q66,7 до Q70,1.

Каждый образец, протестированный HPRC, показал улучшение.

5. Каковы перспективы использования DeepPolisher в будущем?

DeepPolisher представляет собой прорыв в технологии полировки генома, резко снижая уровень ошибок и открывая более высокое разрешение для функциональной геномики, обнаружения редких вариантов и клинических применений. Нацеливаясь на устранение оставшихся барьеров на пути к идеальным сборкам генома, он обеспечивает более точную диагностику, генетические исследования на популяционном уровне и прокладывает путь для проектов создания справочников следующего поколения, принося пользу биомедицинским исследованиям и медицине.

Источник