В июне компания Google DeepMind представила AlphaGenome — свою новейшую модель машинного обучения для биологических открытий. В то время как модель AlphaFold от DeepMind, удостоенная Нобелевской премии, фокусируется на белках и их структуре, AlphaGenome прогнозирует, как генетические варианты влияют на процессы, которые контролируют включение и выключение генов.
В своём анонсе и [препринте](https://www.biorxiv.org/content/10.1101/2025.06.25.661532v2) в bioRxiv DeepMind назвала два ресурса, созданных в основном в Broad Institute в 2010-х годах, в качестве основных источников обучающих данных для AlphaGenome:
* Консорциум Encyclopedia of DNA Elements (ENCODE), который каталогизировал более миллиона [регуляторных элементов](https://phys.org/tags/regulatory+elements/) по всему геному;
* Проект Genotype-Tissue Expression (GTEx), который продолжает составлять карту закономерностей экспрессии генов в тканях человека и приматов.
Оба ресурса также сыграли важную роль в раскрытии механизмов работы генома и того, как некодирующие генетические варианты влияют на [риск заболеваний](https://phys.org/tags/disease+risk/), и заложили основу для таких усилий, как Консорциум по изучению влияния геномных вариаций на функции Национального института здравоохранения (NIH), Атлас человеческих клеток и обсерватория регуляции генов (GRO) Broad.
Чтобы узнать больше о том, как ENCODE, GTEx и аналогичные наборы данных способствуют развитию науки в эпоху искусственного интеллекта, мы поговорили с Кристин Ардли, учёным института в Broad и директором GTEx; и Брэдом Бернштейном, членом института, руководителем GRO, директором программы эпигеномики Broad и руководителем консорциума ENCODE.
Бернстайн: «Целью ENCODE было понять язык генома. Когда он стартовал, можно было объяснить только 1–2% генома. Никто не знал, какая часть из оставшихся 98% является функциональной и как она влияет на регуляцию клетки. С помощью ENCODE мы поняли, что, возможно, 20% генома имеют регуляторные или функциональные роли. Это изменило представление о том, что некодирующая часть генома — это просто мусор».
Ардли: «И это запустило GTEx. Как только мы достигли точки, когда исследования генетики человека надёжно выявляли варианты, связанные с заболеваниями и признаками, мы поняли, что большинство из них находится в этих неизвестных регионах генома, и мы понятия не имели, как они функционируют. GTEx был запущен как способ систематического измерения того, могут ли эти генетические варианты иметь регуляторные роли, влияющие на экспрессию генов в контексте тканей, клеток и заболеваний».
Ардли: «Наследие этих ресурсов долговечно, поскольку более чем через десять или два года после их создания они способствуют развитию технологий, которые мы не могли себе представить. Они были разработаны как общественные ресурсы и максимально утилитарны, без ограничений на их использование. Последнее достижение является свидетельством того, что они действительно работают так, как задумано».
Для достижения этого нам нужно больше таких объективных базовых ресурсов. Их ценность как обучающих данных для моделей, которые могли бы помочь определить систематические правила генома, поистине замечательна.
Бернстайн: «Здесь, в Broad, есть несколько лабораторий, которые применяют машинное обучение к регуляторному коду. Джейсон Буэнростро, который руководит GRO вместе со мной, использует глубокое обучение, чтобы выяснить, как [регуляторные элементы](https://www.linkedin.com/posts/broad-institute2multiscale-footprints-reveal-the-organization-activity-7291198568906805248-nzJy/), расположенные рядом с генами, например промоторы, организованы и изменяются по мере развития клеток».
Наш коллега Андерс Хансен применяет искусственный интеллект для [составления карты структуры и организации генома](https://www.biorxiv.org/content/10.1101/2025.05.06.650874v1.full) в трёх измерениях, что невероятно важно для понимания долгосрочных взаимодействий между элементами и того, как они контролируют экспрессию как генов, так и целых генетических программ.
Моя команда сотрудничала с учёными из Google над [общей моделью](https://innovations.dana-farber.org/ai-learns-genomic-language-to-advance-cancer-treatment/) регуляторного кода генома, которую можно легко применить к любому новому типу клеток.
Ардли: «Нам нужно продолжать разрабатывать ресурсы, которые сосредоточены на нарушениях у людей — биологических изменениях, влияющих на здоровье. Возьмём развитие. Мы претерпеваем множество изменений по мере развития, и в некотором смысле это большое возмущение. Как мы можем систематически и в масштабе изучать этот процесс и чему он может нас научить? Над этим работает следующий этап GTEx».
Болезнь — это ещё одна форма возмущения, которую мы часто рассматриваем только с точки зрения конечной точки. Но на самом деле это процесс, в ходе которого клетки переходят из нормального состояния в ненормальное. Что там происходит? Нам нужно систематически собирать данные по всему этому континууму.
Лучшее понимание функций вариантов поможет нам интерпретировать результаты генетического тестирования. Когда мы анализируем геном пациента, мы часто получаем варианты, значимость которых мы не можем определить. Многие из них могут быть регуляторными вариантами, которые могут иметь большое значение при заболеваниях, но которые мы пока не можем интерпретировать. Нам нужны эти ресурсы данных и модели, подобные AlphaGenome, чтобы помочь нам лучше понять, что делают эти варианты.
Бернстайн: «У нас есть много данных из ENCODE и других ресурсов о том, где [факторы транскрипции](https://phys.org/tags/transcription+factors/) и другие элементы связываются с ДНК, какие гены включаются в каком типе клеток и так далее. Но у нас нет большого количества данных в человеческих клетках о вариациях и возмущениях. Я хотел бы видеть больше данных, полученных путём выбора отдельных типов клеток и мутагенеза всего генома, чтобы помочь нам расшифровать регуляторный код генома».
Это сложный вопрос. Сколько данных нам нужно сгенерировать, чтобы создать модели, которые могли бы полностью понять долгосрочные регуляторные события, сложные механизмы, структуры хроматина и конформации, которые выходят далеко за рамки связывания факторов транскрипции? Это сложно представить.
Однако, если мы сделаем это правильно, [большие языковые модели](https://phys.org/tags/large+language+models/), такие как AlphaGenome, могут помочь нам ответить на вопрос о том, как лучше интерпретировать функции вариантов: следует ли нам углубляться в варианты один за другим или использовать модели искусственного интеллекта для изучения правил [генома](https://phys.org/tags/genome/) агностическим, целостным способом? Я в восторге от того, чтобы выяснить это.
Предоставлено [Broad Institute of MIT and Harvard](https://phys.org/partners/broad-institute-of-mit-and-harvard/)
Другие новости по теме
- Урожай хлопка в штате процветает благодаря своевременным дождям.
- Методы предварительной обработки приближают биотопливо второго поколения из сахарного тростника к коммерциализации
- Борьба с вымиранием: коралловые рифы демонстрируют признаки адаптации к потеплению морей
- Лучший способ спасти рифы Флориды? Промышленная фабрика по производству термоустойчивых кораллов
- Биологический «грандиозный проект» ускоряет усилия по генетическому картированию всех эукариот Земли
- Танзанийские «крысы-герои» спасают жизни, обнаруживая опасность и болезни
- Июнь Кливер, черепаха вида логгерхед, выпущена в океан у берегов Флориды после реабилитации.
- Исследование CRISPR раскрывает неожиданную роль Cas9 как защитника бактериальной защиты
- Нейронная сеть на основе ДНК обучается на примерах для решения задач
- Автоматический инструмент для быстрого и масштабного профилирования модификаций РНК, связанных с заболеваниями
Другие новости на сайте
- Комиссия по торговле товарными фьючерсами (CFTC) разрешила: подразделения надзора за рынком и клиринга и управления рисками 3 сентября выпустили заявление о неприменении мер в отношении QCX LLC и QC Clearing LLC. Это позволит компаниям в определённых условиях не соблюдать некоторые требования по учёту сделок и отчётности по данным для контрактов на события, включая бинарные опционы и контракты с переменной выплатой.
- ChainUp стала дважды финалистом премии Thomson Reuters ALB Pan-Asian Regulatory Awards 2025
- Органические решения для улучшения аквакультуры и экосистем
- Урожай хлопка в штате процветает благодаря своевременным дождям.
- Методы предварительной обработки приближают биотопливо второго поколения из сахарного тростника к коммерциализации
- Борьба с вымиранием: коралловые рифы демонстрируют признаки адаптации к потеплению морей
- Президент ЕЦБ призвала ужесточить регулирование стейблкоинов
- Глобальное распространение криптовалют в 2025 году: Chainalysis выявила лидеров
- Toyota создаст первый в Европе электромобиль на заводе в Чехии, Maruti Suzuki представляет новый внедорожник Victoris для Индии и мировых рынков, Volvo начинает производство полностью электрического седана ES90 в Европе
- 🔥🎮 Marvel Rivals официально выйдет на PS4 12 сентября вместе с обновлением Heart of the Dragon! 🌟