Google AI совместно с Genomics Institute в UC Santa Cruz представил DeepPolisher — передовой инструмент для глубокого обучения, который значительно повышает точность сборки геномов за счёт исправления ошибок на уровне отдельных оснований. Эффективность инструмента была недавно продемонстрирована в рамках продвижения Human Pangenome Reference — важного этапа в исследованиях геномики.
Проблема точной сборки генома
Справочный геном — это основа для понимания генетического разнообразия, наследственности, механизмов заболеваний и эволюционной биологии. Современные технологии секвенирования, включая разработки Illumina и Pacific Biosciences, значительно улучшили точность и производительность секвенирования. Однако даже с учётом технологических прорывов, собрать безошибочный геном человека (состоящий из более чем 3 миллиардов нуклеотидов) остаётся чрезвычайно сложной задачей. Даже незначительная частота ошибок на одно основание может привести к тысячам ошибок, которые могут скрыть ключевые генетические вариации или ввести в заблуждение при последующем анализе.
Что такое DeepPolisher?
DeepPolisher — это инструмент для коррекции секвенирования с открытым исходным кодом, основанный на трансформерах. Используя достижения DeepConsensus, он применяет архитектуры глубокого обучения на основе трансформеров для дальнейшего снижения ошибок в сборке генома, особенно ошибок вставки и удаления (indel), которые оказывают глубокое влияние, смещая рамки считывания и могут привести к тому, что важные гены или регуляторные элементы будут пропущены во время аннотации.
Технология: энкодер-трансформер, адаптирующий проверенные методы обработки естественного языка для геномики.
Данные для обучения: использовалась линия человеческих клеток, подробно охарактеризованная NIST и NHGRI, секвенированная с помощью различных платформ для обеспечения почти полной точности (правильность около 99,99999%, от 300 до 1 000 ошибок в 6 миллиардах оснований).
Как это работает? (Технический обзор)
1. Выравнивание входных данных: принимает выровненные чтения PacBio HiFi относительно сборки генома с учётом гаплотипа в качестве входных данных.
2. Обнаружение участков с ошибками: сканирует сборку в окнах размером 25 кб; выявляет участки с кандидатами в ошибки, где данные чтения отклоняются от сборки.
3. Кодирование данных: для каждого окна, содержащего предполагаемые ошибки (<100 п.н.), создаёт многоканальное тензорное представление признаков выравнивания чтений, таких как основание, качество основания, качество сопоставления и статус совпадения/несовпадения.
4. Вывод модели: передаёт эти тензоры в трансформер, который предсказывает исправленные последовательности для этих регионов.
5. Коррекция выходных данных: выводит различия в формате VCF, которые затем применяются к сборке для получения полированной, высокоточной последовательности с помощью таких инструментов, как bcftools.
Производительность и влияние
DeepPolisher обеспечивает существенное улучшение:
* Общее снижение ошибок: ~50%.
* Снижение ошибок indel: >70%.
* Уровень ошибок: достигает уровня ошибок в одно основание на 500 000 собранных оснований в реальных условиях при использовании Human Pangenome Reference Consortium (HPRC).
* Улучшение геномного Q-score: повышает качество сборки в среднем с Q66,7 до Q70,1 (Q-score — это логарифмическая мера частоты ошибок на одно основание; чем выше, тем лучше. Q70,1 означает <1 ошибка на 12 миллионов нуклеотидов).
Каждый образец, протестированный HPRC, показал улучшение. Эти достижения напрямую влияют на надёжность и точность полученных справочных материалов, таких как Human Pangenome Reference, в котором объём данных увеличился в пять раз, а количество ошибок существенно сократилось благодаря DeepPolisher.
Внедрение и применение
DeepPolisher интегрирован в крупные проекты: используется во втором выпуске данных HPRC, обеспечивая высокоточные справочные сборки для 232 человек, обеспечивая широкое разнообразие предков в геномных справочниках.
Доступен на GitHub с примерами из практики и контейнеризированными рабочими процессами для использования со сборками, созданными с помощью таких инструментов, как HiFiasm, и секвенированных с помощью PacBio HiFi.
Хотя изначально DeepPolisher был ориентирован на геномы человека, структура и подход адаптируются к другим организмам и платформам секвенирования, способствуя повышению точности в сообществе геномики.
Практический пример рабочего процесса
Типичный рабочий процесс с использованием DeepPolisher может включать:
1. Входные данные: диплоидная сборка HiFiasm и чтения PacBio HiFi, выровненные по фазам с помощью конвейера PHARAOH.
2. Запуск: контейнеризированные команды для создания образа, вывода и применения исправлений.
3. Выходные данные: отдельные файлы VCF для материнских и отцовских сборок, полированные FASTA после этапа консенсуса bcftools.
4. Оценка: использование инструментов для количественной оценки улучшений в частотах ошибок и точности вариантов (например, dipcall, Hap.py).
Заключение и перспективы
DeepPolisher представляет собой прорыв в технологии полировки генома — резко снижая уровень ошибок и открывая более высокое разрешение для функциональной геномики, обнаружения редких вариантов и клинических применений. Нацеливаясь на устранение оставшихся барьеров на пути к идеальным сборкам генома, он обеспечивает более точную диагностику, генетические исследования на популяционном уровне и прокладывает путь для проектов создания справочников следующего поколения, принося пользу биомедицинским исследованиям и медицине.
1. Какие проблемы решает инструмент DeepPolisher в области геномики?
Инструмент DeepPolisher решает проблему точной сборки генома, значительно повышая её точность за счёт исправления ошибок на уровне отдельных оснований. Это особенно важно для выявления генетических вариаций и предотвращения ошибок при последующем анализе.
2. Какие типы ошибок в сборке генома исправляет DeepPolisher?
DeepPolisher особенно эффективен в исправлении ошибок вставки и удаления (indel). Эти ошибки могут смещать рамки считывания и приводить к тому, что важные гены или регуляторные элементы будут пропущены во время аннотации.
3. Как работает DeepPolisher на техническом уровне?
DeepPolisher работает следующим образом:
1. Выравнивание входных данных: принимает выровненные чтения PacBio HiFi относительно сборки генома с учётом гаплотипа в качестве входных данных.
2. Обнаружение участков с ошибками: сканирует сборку в окнах размером 25 кб; выявляет участки с кандидатами в ошибки, где данные чтения отклоняются от сборки.
3. Кодирование данных: для каждого окна, содержащего предполагаемые ошибки (<100 п.н.), создаёт многоканальное тензорное представление признаков выравнивания чтений.
4. Вывод модели: передаёт эти тензоры в трансформер, который предсказывает исправленные последовательности для этих регионов.
5. Коррекция выходных данных: выводит различия в формате VCF, которые затем применяются к сборке для получения полированной, высокоточной последовательности.
4. Какие результаты были получены при использовании DeepPolisher в проекте Human Pangenome Reference?
При использовании DeepPolisher в проекте Human Pangenome Reference было достигнуто существенное улучшение:
* Общее снижение ошибок: ~50%.
* Снижение ошибок indel: >70%.
* Уровень ошибок: достигает уровня ошибок в одно основание на 500 000 собранных оснований в реальных условиях.
* Улучшение геномного Q-score: повышает качество сборки в среднем с Q66,7 до Q70,1.
Каждый образец, протестированный HPRC, показал улучшение.
5. Каковы перспективы использования DeepPolisher в будущем?
DeepPolisher представляет собой прорыв в технологии полировки генома, резко снижая уровень ошибок и открывая более высокое разрешение для функциональной геномики, обнаружения редких вариантов и клинических применений. Нацеливаясь на устранение оставшихся барьеров на пути к идеальным сборкам генома, он обеспечивает более точную диагностику, генетические исследования на популяционном уровне и прокладывает путь для проектов создания справочников следующего поколения, принося пользу биомедицинским исследованиям и медицине.