Понимание нас: исследователи применяют алгоритм для расшифровки сложных последовательностей генома

За последние 10 лет прорывы в понимании генетических инструкций, передаваемых от родителей потомству, приблизили учёных к возможности эффективно расшифровывать ДНК со 100% точностью. Однако этот подход к анализу, называемый секвенированием генома, всё ещё представляет сложность для определённых участков генома.

Части ДНК с очень сложными репликациями, комбинациями и вариациями всё ещё не могут быть автоматически секвенированы с высоким уровнем точности. Вместо этого они обычно требуют трудоёмкого и дорогостоящего ручного анализа.

Группа исследователей, под руководством двух преподавателей из Школы электротехники и информатики Пенсильванского государственного университета, разработала инструмент для упрощения анализа этих сложных участков, в частности тех, которые кодируют иммунную систему организма.

Они протестировали свой алгоритм, названный CloseRead, на 74 общедоступных последовательностях генома и смогли выявить ошибки в этих сборках с большей точностью, чем другие существующие инструменты верификации, которые не специализированы для этих сложных участков.

Команда опубликовала своё исследование в журнале Genome Biology.

Геномы млекопитающих состоят из миллиардов крошечных фрагментов, известных как нуклеотиды, и их трудно полностью точно секвенировать, объяснил Антон Банкевич, доцент кафедры информатики в Пенсильванском государственном университете и соавтор статьи. Процесс включает в себя изучение того, какие нуклеотиды появляются в геноме, чтобы извлечь всю генетическую информацию, хранящуюся в молекуле ДНК.

«Вы можете представить геном как страницу из книги с очень мелким текстом, настолько мелким, что вы не сможете прочитать его без увеличительного стекла», — сказал Банкевич. «Хотя мы можем использовать увеличительное стекло, чтобы увидеть отдельные слова на странице, трудно понять, как все слова сочетаются друг с другом, чтобы составить целое. Это проблема, с которой мы сталкиваемся при попытке реконструировать полную последовательность генома».

Согласно Банкевичу, большая часть этой реконструкции теперь может быть выполнена с помощью алгоритмов, обученных восстанавливать полную нуклеотидную последовательность на основе множества более мелких подпоследовательностей. Однако во время реконструкции могут возникать различные ошибки, многие из которых исследователи, проверяющие сборки, могут легко пропустить, что усложняет процесс.

Кроме того, млекопитающие являются диплоидными организмами, то есть они получают два набора генетической информации от обоих родителей, что добавляет ещё один уровень сложности к их геному, который может достигать миллиардов нуклеотидов.

Первый человеческий геном был секвенирован в 2001 году с помощью секвенирования с низким разрешением и коротких прочтений, которое может анализировать только небольшие участки генома за раз. Однако в последние годы учёные добились быстрых успехов в применении секвенирования с длинным чтением, что позволяет одновременно секвенировать гораздо больше генетической информации с беспрецедентной точностью.

Прорывы в области секвенирования с длинным чтением вызвали «взрыв» генерации данных о последовательностях генома млекопитающих, по словам Яны Сафоновой, доцента кафедры информатики в Пенсильванском государственном университете и соавтора статьи.

Учёные, включая Сафонову, недавно проанализировали близких родственников человека и теперь могут лучше изучить связь между генетическим планом организма, или генотипом, и тем, как эти гены проявляются в желаемых признаках, таких как устойчивость к болезням.

Хотя инструменты для проверки этих последовательностей существуют, Сафонова объяснила, что части генома всё ещё слишком сложны для точного секвенирования без тщательного ручного анализа. Она специализируется на изучении локусов иммуноглобулина (IG), сложного участка генома, ответственного за выработку антител.

«Локусы IG отвечают за ваш адаптивный иммунный ответ, который помогает вашему организму распознавать и бороться с незнакомыми вирусами и бактериями», — сказала Сафонова. «Эта часть генома сложна, содержит множество повторяющихся фрагментов по всей структуре и сильно различается от человека к человеку. Это затрудняет анализ даже для специалистов».

Авторы разработали CloseRead для проверки этого сложного региона в существующих последовательностях генома. Они изучили сборку локусов IG в общедоступных последовательностях генома 61 млекопитающего и 13 рептилий.

Инструмент сканирует каждый нуклеотид по отдельности, ища случаи, когда нуклеотиды не идеально совпадают в сборке (известные как несоответствия), и участки генома, где данные полностью отсутствуют в сборке (известные как перерывы в охвате). Кроме того, CloseRead визуализирует последовательности, выделяя возможные ошибки для исследователей, просматривающих данные, и упрощая процесс проверки.

«Мы обнаружили, что, как ни странно, в регионе локусов IG много неполноты: около 50% предложенных сборок оказались либо неправильными, либо неполными», — сказал Банкевич. «Самой частой ошибкой, которую мы обнаружили, было то, что одна копия генетического материала была собрана правильно, а другая — неправильно или полностью отсутствовала у млекопитающих. В локусах IG так много сложностей, что небольшая ошибка, подобная этой, может иметь большое влияние на ваш анализ».

До недавних прорывов в области секвенирования с длинным чтением точный анализ локусов IG был невозможен из-за сложности региона, который отвечает за устойчивость к таким заболеваниям, как гепатит и болезни сердца, или предрасположенность к аутоиммунным расстройствам.

По словам Сафоновой, лучшее понимание этого региона ускорит не только иммуногеномику — изучение того, как иммунная система реагирует на болезни — и биомедицинские исследования, но и генетические исследования и биологию в целом.

«Разработка CloseRead — это лишь часть совместных исследований, направленных на то, чтобы сделать точные последовательности генома доступными», — сказала Сафонова. «Сравнивая геном двух организмов с их уникальными проявляемыми признаками, мы можем лучше понять связь между генотипом и видимыми признаками, которые появляются у млекопитающих. Это был один из самых больших вопросов в биологии, и данные, которыми мы располагаем сейчас, могут действительно помочь учёным установить эти связи».

Кроме того, более глубокое понимание региона локусов IG может пролить свет на генетическую историю видов, сказала Сафонова. Команда провела тематические исследования на трёх случайно выбранных видах млекопитающих, включая гренландского волка, подвида серого волка, обитающего в Гренландии.

«Когда мы исследовали геном гренландского волка, мы увидели то, что выглядело как ошибки в сборке», — сказала Сафонова. «Однако после дальнейшего рассмотрения мы обнаружили, что сборки были правильными и служили доказательством того, что гренландский волк на самом деле скрещивался с серыми волками очень давно».

Хотя CloseRead был разработан специально для нацеливания на локусы IG, при дальнейшем развитии его можно будет применять к другим сложным участкам геномов — например, к Y-хромосоме — которые годами ускользали от внимания генетиков. Хотя есть надежда в конечном итоге устранить необходимость в ручной проверке, Банкевич сказал, что технологии для этого пока нет.

«Это предостерегающая история: у нас есть невероятный потенциал для реконструкции последовательностей генома, но мы должны быть осторожны с тем, что мы используем в нашем анализе», — сказал Банкевич. «Сборка генома без тщательной проверки в настоящее время не идеальна. CloseRead помогает проверять информацию в сложных регионах, но данные всё равно нужно анализировать, и мы должны помнить об этом при просмотре новых последовательностей генома, которые публикуются».

Предоставлено:
Пенсильванский государственный университет.

Источник

Оставьте комментарий