Google AI Research выпускает DeepSomatic: новую модель ИИ для выявления генетических вариантов раковых клеток

Команда исследователей из Google Research и UC Santa Cruz выпустила модель ИИ DeepSomatic, которая выявляет генетические варианты раковых клеток. В сотрудничестве с Children’s Mercy она обнаружила 10 вариантов в клетках детского лейкоза, которые были пропущены другими инструментами.

DeepSomatic имеет инструмент для выявления малых соматических вариантов в геномах рака, который работает с короткими прочтениями Illumina, длинными прочтениями PacBio HiFi и длинными прочтениями Oxford Nanopore. Метод расширяет возможности DeepVariant, обнаруживает однонуклеотидные варианты и небольшие вставки и делеции в данных всего генома и всего экзома, а также поддерживает рабочие процессы с опухолью и нормальными клетками и только с опухолью, включая модели FFPE.

Как это работает?

DeepSomatic преобразует выровненные прочтения в тензоры, похожие на изображения, которые кодируют наложения, качества оснований и контекст выравнивания. Свёрточная нейронная сеть классифицирует сайты-кандидаты как соматические или нет, а конвейер выдаёт VCF или gVCF. Этот дизайн не зависит от платформы, поскольку тензор суммирует локальный гаплотип и шаблоны ошибок в разных технологиях.

Исследователи Google описывают подход и его направленность на различение унаследованных и приобретённых вариантов, включая сложные образцы, такие как глиобластома и детский лейкоз.

Наборы данных и тестирование

Для обучения и оценки используется CASTLE (Cancer Standards Long read Evaluation) — набор данных для оценки стандартов секвенирования рака с использованием длинных прочтений. CASTLE содержит 6 пар линий опухолевых и нормальных клеток, которые были секвенированы на Illumina, PacBio HiFi и Oxford Nanopore. Исследовательская группа выпускает контрольные наборы и номера доступов для повторного использования. Это устраняет пробел в ресурсах для обучения и тестирования соматических технологий в нескольких технологиях.

Полученные результаты

Исследовательская группа сообщает о последовательном улучшении по сравнению с широко используемыми методами как для однонуклеотидных вариантов, так и для инделей. На инделях Illumina следующий лучший метод составляет около 80% F1, DeepSomatic — около 90%. На инделях PacBio следующий лучший метод составляет менее 50%, DeepSomatic — более 80%. Базовые показатели включают SomaticSniper, MuTect2 и Strelka2 для коротких прочтений и ClairS для длинных прочтений.

Исследование сообщает о 329 011 соматических вариантах в эталонных линиях и дополнительном сохранённом образце. Исследовательская группа Google сообщает, что DeepSomatic превосходит существующие методы, особенно в отношении инделей.

Применение на реальных образцах

Исследовательская группа оценивает перенос на рак за пределы обучающего набора. Образец глиобластомы показывает восстановление известных драйверов. Образцы детского лейкоза тестируют режим только для опухолей, где чистая норма не доступна. Инструмент восстанавливает известные вызовы и сообщает о дополнительных вариантах в этой группе. Эти исследования показывают, что схема представления и обучения обобщается на новые контексты заболеваний и на условия без сопоставленных нормальных образцов.

Основные выводы

* DeepSomatic обнаруживает соматические SNV (однонуклеотидные варианты) и индели на платформах Illumina, PacBio HiFi и Oxford Nanopore и основан на методологии DeepVariant.
* Конвейер поддерживает рабочие процессы с опухолью и нормальными клетками и только с опухолью, включает модели FFPE WGS и WES и опубликован на GitHub.
* Он кодирует наложения прочтений в виде тензоров, похожих на изображения, и использует свёрточную нейронную сеть для классификации соматических сайтов и выдачи VCF или gVCF.
* Обучение и оценка используют набор данных CASTLE с 6 согласованными парами линий опухолевых и нормальных клеток, секвенированных на трёх платформах, с предоставленными контрольными показателями и номерами доступов.
* Сообщаемые результаты показывают около 90% F1 для инделей на Illumina и более 80% на PacBio, превосходя общие базовые показатели, с 329 011 соматическими вариантами, идентифицированными в эталонных образцах.

Редакционные комментарии

DeepSomatic — это прагматичный шаг для вызова соматических вариантов на платформах секвенирования. Модель сохраняет представление тензора изображения DeepVariant и свёрточную нейронную сеть, поэтому одна и та же архитектура масштабируется от Illumina до PacBio HiFi и Oxford Nanopore с последовательной предварительной обработкой и выводами.

Набор данных CASTLE — это правильный шаг: он предоставляет согласованные линии опухолевых и нормальных клеток на трёх технологиях, что усиливает обучение и тестирование, а также способствует воспроизводимости. Сообщаемые результаты подчёркивают точность инделей, около 90% F1 на Illumina и более 80% на PacBio по сравнению с более низкими базовыми показателями, что устраняет давнюю слабость в обнаружении инделей. Конвейер поддерживает WGS и WES, опухоль и только опухоль, а также FFPE, что соответствует реальным лабораторным ограничениям.

Ознакомьтесь с технической статьёй, техническими деталями, набором данных и репозиторием на GitHub. Не стесняйтесь посетить нашу страницу на GitHub для получения руководств, кодов и блокнотов. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit на 100 тысяч человек, подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.

1. Какие преимущества предлагает модель DeepSomatic по сравнению с другими методами выявления генетических вариантов в раковых клетках?

Ответ: DeepSomatic превосходит существующие методы, особенно в отношении инделей. На инделях Illumina следующий лучший метод составляет около 80% F1, DeepSomatic — около 90%. На инделях PacBio следующий лучший метод составляет менее 50%, DeepSomatic — более 80%.

2. Какие типы генетических вариантов может обнаруживать DeepSomatic?

Ответ: DeepSomatic обнаруживает соматические SNV (однонуклеотидные варианты) и индели на платформах Illumina, PacBio HiFi и Oxford Nanopore.

3. Какие платформы секвенирования поддерживает DeepSomatic?

Ответ: DeepSomatic поддерживает рабочие процессы с короткими прочтениями Illumina, длинными прочтениями PacBio HiFi и длинными прочтениями Oxford Nanopore.

4. Какие данные использовались для обучения и оценки DeepSomatic?

Ответ: Для обучения и оценки используется CASTLE (Cancer Standards Long read Evaluation) — набор данных для оценки стандартов секвенирования рака с использованием длинных прочтений. CASTLE содержит 6 пар линий опухолевых и нормальных клеток, которые были секвенированы на Illumina, PacBio HiFi и Oxford Nanopore.

5. Какие выводы можно сделать о применении DeepSomatic в реальных условиях?

Ответ: Исследования показывают, что схема представления и обучения обобщается на новые контексты заболеваний и на условия без сопоставленных нормальных образцов. Образец глиобластомы показывает восстановление известных драйверов. Образцы детского лейкоза тестируют режим только для опухолей, где чистая норма не доступна. Инструмент восстанавливает известные вызовы и сообщает о дополнительных вариантах в этой группе.

Источник