Алгоритм выравнивания последовательностей позволяет быстро искать микробную ДНК всего мира.

Новый инструмент LexicMap облегчает изучение микробной ДНК и ускоряет поиск

Благодаря новому инструменту выравнивания последовательностей LexicMap учёные могут искать последовательности ДНК среди миллионов геномов бактерий и архей за считанные минуты. Это помогает исследователям отслеживать вспышки заболеваний, изучать устойчивость к антибиотикам и понимать микробное разнообразие.

Открытые базы данных, такие как Европейский архив нуклеотидов (ENA), содержат более 2,4 миллиона бактериальных геномов, и их число стремительно растёт. До сих пор поиск в этих обширных ресурсах был медленным и требовал значительных вычислительных ресурсов, что ограничивало возможности учёных отслеживать устойчивость к антибиотикам, изучать вспышки заболеваний или исследовать микробное разнообразие.

Новая статья в журнале Nature Biotechnology

В новой статье, опубликованной в журнале Nature Biotechnology, представлен новый алгоритм. Используя инновационный метод индексации генетических данных, LexicMap позволяет исследователям быстро искать последовательности ДНК или мутации в растущих базах данных ДНК по всему миру. Это открывает новые возможности в эпидемиологии, экологии и эволюционной биологии.

«Эволюция постепенно изменяет гены посредством мутаций, поэтому биологи часто хотят сканировать все мировые данные ДНК в поисках совпадений и различий, — говорит Замин Икбал, профессор алгоритмической и микробной геномики в Университете Бата и приглашённый руководитель группы в EMBL-EBI. — Поскольку взрыв данных опередил наши алгоритмы, нам приходилось довольствоваться поисковыми системами, которые ищут лишь часть наших данных».

Развитие высококачественных ресурсов данных и улучшенных алгоритмов поиска

За последнее десятилетие команда, стоящая за LexicMap, разрабатывала высококачественные ресурсы данных для исследовательского сообщества и параллельно разрабатывала улучшенные алгоритмы поиска для микробной ДНК. Они также работают в составе глобального консорциума AllTheBacteria, чтобы собрать и аннотировать все 2,4 миллиона бактериальных и архейных геномов в ENA. LexicMap — это первый алгоритм выравнивания, который может быстро искать все эти данные с низкой вычислительной нагрузкой.

«Поиск в интернете — это рутина современной жизни, и мы не можем представить себе жизнь без Google, — говорит Вэй Шен, доцент Чунцинского медицинского университета и бывший приглашённый учёный в EMBL-EBI. — Выравнивание с базой данных ДНК — это биологический эквивалент поиска в Google, и теперь LexicMap делает это масштабируемым для всего объёма глобальных бактериальных данных. Если вы обнаружили новый ген устойчивости к лекарствам, вы можете захотеть узнать, насколько он распространён среди бактерий, и теперь вы можете найти его во всемирных данных всего за несколько минут».

Благодаря тому, что микробные геномы стало легче искать, LexicMap открывает новые возможности для исследований и общественного здравоохранения.

«Возможность поиска во всех общедоступных бактериальных геномах за считанные минуты меняет то, что возможно, — говорит Джон Лис, руководитель группы в EMBL-EBI. — Если вы разрабатываете новый антибиотик и обнаруживаете мутацию устойчивости, вам нужно знать, насколько она распространена в реальном мире. Теперь, впервые, вы можете за считанные минуты найти её среди более чем 2 миллионов геномов — всей глобальной коллекции».

Инструмент LexicMap уже интегрирован в проект AllTheBacteria, который курирует и индексирует высококачественные сборки всех известных бактериальных геномов. Это даёт исследователям простой способ изучить одну из крупнейших коллекций микробной ДНК, когда-либо собранных.

Предоставлено Европейской молекулярно-биологической лабораторией.

Источник

Другие новости по теме

Другие новости на сайте