Понимание биологии человека требует не только составления карты наших генов, но и понимания того, как регулируется экспрессия генов, чтобы управлять здоровым развитием, ростом и поддержанием систем организма в течение жизни.
Учёные из Национальной лаборатории Лоуренса в Беркли (Berkeley Lab) и Стэнфордского университета открыли новые механизмы, с помощью которых регуляторные последовательности, называемые энхансерами, управляют экспрессией генов во время эмбрионального развития. Энхансеры — это участки ДНК, которые координируют экспрессию гена, даже находясь далеко от фактической кодирующей последовательности.
Их работа, опубликованная сегодня в Nature, показывает, что для правильной регуляции экспрессии необходимы множественные короткие модульные последовательности внутри энхансера и что даже одна нуклеотидная мутация в одной из этих областей может изменить, как и где активируется ген. Команда также использовала свои экспериментальные результаты для разработки и оценки модели машинного обучения.
«Эти находки показывают, что даже малейшие изменения могут иметь огромные последствия», — сказал первый автор Майкл Косицкий, постдокторский исследователь в Berkeley Lab. «Наш подход даст учёным мощный инструмент для изучения нормальной регуляции генов и разгадки всё более крепнущей связи между болезнями и вариациями в некодирующем геноме».
Использование мышиной модели для изучения энхансеров
Члены команды из Berkeley Lab использовали мышиную модель для изучения семи человеческих энхансеров, которые, как известно, управляют развитием мозга, сердца, конечностей и лица. Они создали огромное количество различных мутаций в этих энхансерах, затем искали изменения в развивающихся тканях по всему телу.
В одном поразительном примере изменения в энхансере, связанном со строительством структур в лице и конечностях, заставили его активироваться в тканях сердца и нервной системы вместо этого.
«Видя, что всего одна мутация в паре оснований может изменить место активации энхансера в организме и потенциально изменить развитие организма, мы понимаем, что это имеет глубокие последствия для изучения человеческих заболеваний и разработки генной терапии», — сказал соавтор-руководитель Лен Пеннаккио, старший научный сотрудник подразделения экологической геномики и системной биологии (EGSB) в Berkeley Lab. «Это также означает, что учёным нужно быть осторожными при разработке тканеспецифичных генной терапии, чтобы избежать непредвиденных эффектов».
Сложность изучения энхансеров
Изучение энхансеров всегда было сложной задачей, потому что каждая из этих последовательностей содержит несколько сайтов связывания для факторов транскрипции, молекул, которые включают или выключают транскрипцию ДНК. Эффекты мутаций зависят от конкретной комбинации и расположения изменённых сайтов и могут быть выявлены только с помощью систематических экспериментов. Эта сложность и нехватка данных для обучения алгоритмов машинного обучения затрудняют создание точных прогностических моделей.
Используя большой экспериментальный набор данных, созданный командой Berkeley Lab, сотрудники Стэнфорда разработали новую модель и проверили, может ли она идентифицировать те же важные последовательности, которые были выявлены в экспериментах.
«Мы хотели изучить, как далеко ИИ может нас завести в понимании биологии энхансеров прямо сейчас», — сказал Аксель Визель, старший научный сотрудник Berkeley Lab и один из соответствующих авторов.
Они обнаружили, что хотя модель может идентифицировать многие функционально важные области энхансеров, ища последовательности, известные как указывающие на сайты связывания, она упускает другие последовательности, которые явно важны на основании экспериментальных данных команды.
«Сейчас доступные модели говорят правду, но не всю правду», — сказал Косицкий. «Другими словами, прогнозы, которые у нас есть, обычно верны, но иногда они упускают функциональные области, которые мы идентифицировали экспериментально. Выявление этих слепых зон моделирования поможет нам улучшить их в будущем».
На данный момент результаты служат одновременно ресурсом и напоминанием: даже лучшие прогностические модели должны основываться на экспериментальной биологии. По мере того как исследователи продолжают совершенствовать инструменты ИИ, подобные исследования будут иметь важное значение для выявления того, что эти модели делают правильно, а где они всё ещё терпят неудачу.
Предоставлено Национальной лабораторией Лоуренса в Беркли.