Встречайте BioReason: первая в мире модель рассуждений в биологии, которая позволяет ИИ рассуждать о геномике как эксперт-биолог

Одним из серьёзных препятствий для использования ИИ в геномике является отсутствие интерпретируемых пошаговых рассуждений на основе сложных данных ДНК. Хотя модели, основанные на ДНК, превосходно обучаются выявлению сложных закономерностей последовательностей для таких задач, как предсказание вариантов и регуляция генов, они часто работают как «чёрные ящики», предлагая ограниченное понимание лежащих в основе биологических механизмов.

В то же время большие языковые модели демонстрируют впечатляющие способности к рассуждениям в различных областях, но они не предназначены для работы с необработанными геномными последовательностями. Этот разрыв между сильным представлением ДНК и глубокими биологическими рассуждениями мешает ИИ достичь экспертного уровня понимания и ограничивает его потенциал в продвижении научных открытий через осмысленные объяснения, основанные на гипотезах.

Модели, основанные на ДНК, добились значительного прогресса, научившись создавать богатые представления непосредственно из геномных последовательностей, показав высокие результаты в ряде биологических задач. Модели вроде Evo2 с их возможностями работы на больших дистанциях подчёркивают их потенциал, но отсутствие интерпретируемости ограничивает более глубокое биологическое понимание.

Тем временем большие языковые модели превосходно справляются с рассуждениями на основе биомедицинских текстов, но часто не взаимодействуют напрямую с необработанными геномными данными. Попытки, такие как GeneGPT и TxGemma, представляют собой первые усилия по преодолению этого разрыва.

Исследователи из Векторного института, Университетской сети здравоохранения (UHN), Института Arc, Cohere, Калифорнийского университета в Сан-Франциско и Google DeepMind представили BIOREASON — новаторскую систему ИИ, объединяющую модель, основанную на ДНК, с большой языковой моделью. Эта интеграция позволяет BIOREASON анализировать необработанные геномные последовательности, применяя основанные на LLM рассуждения для получения чётких, биологически обоснованных выводов.

BIOREASON — это мультимодальная структура, разработанная для поддержки глубоких, интерпретируемых биологических рассуждений путём объединения геномных последовательностей с запросами на естественном языке. Она использует модель, основанную на ДНК, для извлечения богатых контекстуальных встраиваний из необработанных входных данных ДНК и объединяет их с токенизированными текстовыми запросами для формирования единого ввода для LLM, в частности Qwen3.

Система обучена генерировать пошаговые объяснения биологических процессов. Встроенные представления ДНК проецируются в пространство LLM с помощью обучаемого слоя, а комбинированный ввод обогащается позиционным кодированием. Кроме того, возможности рассуждений системы совершенствуются с помощью обучения с подкреплением посредством групповой относительной оптимизации политики.

Исследователи оценили BIOREASON на трёх наборах данных, посвящённых интерпретации вариантов ДНК и биологическим рассуждениям. Он превзошёл модели, основанные только на ДНК и только на LLM, в прогнозировании исходов заболеваний на основе геномных вариантов.

Наиболее эффективная версия, сочетающая Evo2 и Qwen3-4B, достигла высокой точности и F1-оценок по всем задачам. Примечательный пример исследования включал мутацию PFN1, связанную с БАС, где BIOREASON точно предсказал заболевание и сгенерировал 10-шаговое объяснение, прослеживающее влияние варианта на динамику актина и дегенерацию двигательных нейронов.

Это показывает его сильные стороны не только в точных предсказаниях, но и в предоставлении прозрачных, биологически обоснованных путей рассуждений.

BIOREASON сочетает кодировщики ДНК с большими языковыми моделями, чтобы обеспечить детальное, интерпретируемое рассуждение над геномными данными. В отличие от традиционных моделей, он не только делает точные прогнозы, но и объясняет биологическую логику, стоящую за ними, с помощью пошаговых выводов. Это помогает учёным лучше понять механизмы заболеваний и сформулировать новые вопросы для исследований.

Хотя BIOREASON обладает мощными возможностями, у него есть и проблемы, такие как высокие вычислительные затраты и ограниченные меры неопределённости. Будущая работа направлена на решение этих проблем путём улучшения масштабируемости, включения дополнительных биологических данных, таких как РНК и белки, и применения его к более широким задачам, включая GWAS.

В целом, BIOREASON показывает многообещающие результаты в продвижении точной медицины и геномных исследований.

Источник

Оставьте комментарий