Исследование показало, что сложные модели глубокого обучения не лучше простых базовых в понимании генетических возмущений

Глубокое обучение показало большой потенциал в предсказании и создании функциональных ферментов и белков. Но распространяется ли это мастерство на другие области биологии?

Недавние исследования опровергли ожидания

Недавнее исследование показало, что базовые модели, основанные на глубоком обучении, не превосходят простые базовые методы в предсказании того, как генетические возмущения — изменения в экспрессии или функции генов — влияют на транскрипто́м, профиль экспрессии генов клеток.

В случае двойных возмущений, когда одновременно изменяются два гена, ошибка в предсказаниях была выше у моделей глубокого обучения по сравнению с базовыми аддитивными моделями. Последние вместо сложного машинного обучения просто складывают комбинированные эффекты изменений генов.

Основополагающие модели

Основополагающие модели — это модели глубокого обучения, обученные на огромных объёмах данных. В этом контексте речь идёт о моделях одноклеточного уровня, обученных на недавно опубликованных данных по транскриптомике, охватывающих миллионы клеток.

Исследование, опубликованное в Nature, использовало общедоступные наборы данных по одноклеточным возмущениям CRISPR, чтобы сравнить пять известных основополагающих моделей, включая scGPT и scFoundation, наряду с двумя другими моделями глубокого обучения, с четырьмя намеренно простыми базовыми моделями.

Цели исследований в области глубокого обучения

Недавние исследования в области фундаментальных моделей, основанных на глубоком обучении, направлены на революцию в понимании биологии путём обучения на огромных объёмах данных. Ожидается, что модели смогут получить общее представление о том, как работают клетки, а не просто запоминать конкретные экспериментальные результаты. Это позволило бы предсказывать результаты без проведения экспериментов, значительно ускоряя открытие лекарств и исследования заболеваний.

Однако биология — это глубоко сложная наука, где поведение клеток, генов и организмов зависит от множества факторов, многие из которых остаются неизученными. Модели, разрабатываемые для понимания этих сложностей, чрезвычайно ресурсоёмки, поскольку требуют времени, энергии и мощных вычислительных машин.

Прежде чем вкладывать дополнительные ресурсы в создание таких моделей, важно остановиться и задать вопрос: действительно ли они эффективны и превосходят уже имеющиеся модели?

Предыдущие исследования

Предыдущие исследования проводили сравнительные эксперименты, но большинство из них сравнивали одну модель глубокого обучения с другой и не имели сравнения с простой моделью. Исследователи этого исследования поставили цель изменить это, сравнив простые, интерпретируемые базовые модели со сложными.

Они обнаружили, что ни одна из сложных моделей последовательно не превосходила простые базовые модели, такие как прогнозы без изменений, средние или линейные модели, в предсказании эффекта одиночных или двойных возмущений на экспрессию генов. Большинство моделей также испытывали трудности с точным предсказанием сложных генетических взаимодействий.

Выводы

Эти результаты ясно показали, что более высокая стоимость и сложность не обязательно приводят к лучшей производительности по сравнению с более простыми, менее ресурсоёмкими методами. Также была установлена важность тщательного тестирования и сравнения новых моделей с существующими.

Исследователи пришли к выводу, что амбициозная цель основополагающих моделей — научиться обобщающему пониманию клеточных состояний и предсказывать результаты на основе этих знаний — всё ещё недостижима.

© 2025 Science X Network

More from [Biology and Medical](https://www.physicsforums.com/forums/biology-and-medical.82/)

Источник

Другие новости по теме

Другие новости на сайте