Область биомедицинского искусственного интеллекта быстро развивается, растёт спрос на агентов, способных выполнять задачи в области геномики, клинической диагностики и молекулярной биологии. Эти агенты должны не просто извлекать факты, но и решать сложные биологические задачи, интерпретировать данные пациентов и извлекать значимую информацию из обширных биомедицинских баз данных. В отличие от моделей общего назначения, биомедицинские агенты должны взаимодействовать с инструментами, специфичными для предметной области, понимать биологические иерархии и имитировать рабочие процессы исследователей для эффективной поддержки современных биомедицинских исследований.
Основная задача: достижение уровня экспертного мышления
Однако достижение экспертного уровня производительности в этих задачах далеко не тривиально. Большинство крупных языковых моделей не справляются с нюансами и глубиной биомедицинского мышления. Они могут преуспеть в задачах поиска на поверхности или распознавания закономерностей, но часто терпят неудачу, когда сталкиваются с многошаговым мышлением, диагностикой редких заболеваний или приоритизацией генов — областями, требующими не только доступа к данным, но и контекстуального понимания и предметно-специфических суждений.
Почему традиционные подходы неэффективны
Хотя некоторые решения используют обучение с учителем на специализированных биомедицинских наборах данных или генерацию с дополнением извлечения для обоснования ответов в литературе или базах данных, у этих подходов есть недостатки. Они часто полагаются на статические подсказки и предопределённое поведение, которым не хватает адаптивности. Кроме того, многие из этих агентов с трудом выполняют внешние инструменты, и их цепочки рассуждений рушатся, когда они сталкиваются с незнакомыми биомедицинскими структурами. Эта хрупкость делает их непригодными для динамичной или высокоответственной среды, где интерпретируемость и точность не подлежат обсуждению.
Biomni-R0: новая парадигма с использованием обучения с подкреплением
Исследователи из Стэнфордского университета и Калифорнийского университета в Беркли представили новое семейство моделей под названием Biomni-R0, созданных путём применения обучения с подкреплением (RL) к биомедицинскому агенту. Эти модели, Biomni-R0-8B и Biomni-R0-32B, были обучены в среде RL, специально разработанной для биомедицинского мышления, используя как задачи с экспертной аннотацией, так и новую структуру вознаграждения.
Стратегия обучения и проектирование системы
Исследование представило двухэтапный процесс обучения. Сначала они использовали тонкую настройку с учителем (SFT) на высококачественных траекториях, полученных из Claude-4 Sonnet с использованием выборочного отбора, эффективно загружая способность агента следовать структурированным форматам рассуждений. Затем они провели тонкую настройку моделей с помощью обучения с подкреплением, оптимизируя два вида вознаграждений: одно за правильность (например, выбор правильного гена или диагноза) и другое за форматирование ответов (например, правильное использование структурированных тегов `
Для обеспечения вычислительной эффективности команда разработала асинхронное планирование развёртывания, которое минимизировало узкие места, вызванные задержками внешних инструментов. Они также увеличили длину контекста до 64 тысяч токенов, что позволило агенту эффективно управлять длинными многошаговыми рассуждениями.
Результаты, превосходящие передовые модели
Достижения в производительности были значительными. Biomni-R0-32B достигла показателя 0,669, что стало скачком по сравнению с показателем базовой модели 0,346. Даже Biomni-R0-8B, меньшая версия, набрала 0,588, опередив такие модели общего назначения, как Claude 4 Sonnet и GPT-5, которые намного крупнее.
В рамках отдельных задач Biomni-R0-32B показала наивысший результат в 7 из 10 задач, в то время как GPT-5 лидировала в 2, а Claude 4 — только в 1. Одним из наиболее ярких результатов стала диагностика редких заболеваний, где Biomni-R0-32B достигла показателя 0,67 по сравнению с Qwen-32B 0,03, что более чем в 20 раз лучше. Аналогичным образом, в приоритизации вариантов GWAS показатель модели увеличился с 0,16 до 0,74, что демонстрирует ценность предметно-специфического мышления.
Проектирование с учётом масштабируемости и точности
Обучение крупных биомедицинских агентов требует работы с ресурсоёмкими развёртываниями, включающими выполнение внешних инструментов, запросы к базам данных и оценку кода. Чтобы справиться с этим, система отделила выполнение в среде от логического вывода модели, что позволило более гибко масштабировать и сократить время простоя GPU. Это нововведение обеспечило эффективное использование ресурсов даже с инструментами, имеющими различную задержку выполнения.
Ключевые выводы из исследования включают:
* Биомедицинские агенты должны выполнять глубокий анализ, а не просто извлекать информацию в области геномики, диагностики и молекулярной биологии.
* Центральная проблема — достижение экспертного уровня выполнения задач, особенно в сложных областях, таких как редкие заболевания и приоритизация генов.
* Традиционные методы, включая тонкую настройку с учителем и модели на основе поиска, часто не обеспечивают надёжности и адаптивности.
* Biomni-R0, разработанная Стэнфордом и Калифорнийским университетом в Беркли, использует обучение с подкреплением с вознаграждениями, основанными на экспертных оценках, и структурированным форматированием выходных данных.
* Двухэтапный процесс обучения, SFT с последующей RL, оказался высокоэффективным для оптимизации производительности и качества рассуждений.
* Biomni-R0-8B демонстрирует высокие результаты с более компактной архитектурой, в то время как Biomni-R0-32B устанавливает новые стандарты, опережая Claude 4 и GPT-5 в 7 из 10 задач.
* Обучение с подкреплением позволило агенту генерировать более длинные и связные рассуждения, что является ключевой чертой экспертного поведения.
Эта работа закладывает основу для создания суперэкспертных биомедицинских агентов, способных с точностью автоматизировать сложные исследовательские рабочие процессы.
1. Какие основные задачи стоят перед биомедицинскими агентами и почему их сложно решить с помощью традиционных подходов?
Основные задачи биомедицинских агентов включают глубокий анализ в области геномики, клинической диагностики и молекулярной биологии. Традиционные подходы, такие как обучение с учителем на специализированных биомедицинских наборах данных или генерация с дополнением извлечения, часто полагаются на статические подсказки и предопределённое поведение, которым не хватает адаптивности. Они также сталкиваются с трудностями при выполнении внешних инструментов и не всегда способны эффективно управлять длинными многошаговыми рассуждениями.
2. В чём заключается инновационность подхода Biomni-R0 и как он решает проблемы традиционных методов?
Инновационность подхода Biomni-R0 заключается в применении обучения с подкреплением (RL) к биомедицинскому агенту. Этот подход позволяет оптимизировать производительность и качество рассуждений, используя двухэтапный процесс обучения: сначала тонкую настройку с учителем (SFT) на высококачественных траекториях, а затем тонкую настройку моделей с помощью обучения с подкреплением. Это обеспечивает адаптивность и эффективность в выполнении сложных биомедицинских задач.
3. Какие результаты были достигнуты с помощью Biomni-R0 и как они сравниваются с другими моделями?
Biomni-R0-32B достигла показателя 0,669, что стало скачком по сравнению с показателем базовой модели 0,346. Biomni-R0-8B набрала 0,588, опередив такие модели общего назначения, как Claude 4 Sonnet и GPT-5. В рамках отдельных задач Biomni-R0-32B показала наивысший результат в 7 из 10 задач, в то время как GPT-5 лидировала в 2, а Claude 4 — только в 1. Одним из наиболее ярких результатов стала диагностика редких заболеваний, где Biomni-R0-32B достигла показателя 0,67 по сравнению с Qwen-32B 0,03.
4. Какие ключевые выводы можно сделать из исследования о создании биомедицинских агентов?
Ключевые выводы включают:
* Биомедицинские агенты должны выполнять глубокий анализ, а не просто извлекать информацию.
* Достижение экспертного уровня выполнения задач является центральной проблемой.
* Традиционные методы часто не обеспечивают надёжности и адаптивности.
* Biomni-R0 использует обучение с подкреплением с вознаграждениями, основанными на экспертных оценках, и структурированным форматированием выходных данных.
* Двухэтапный процесс обучения оказался высокоэффективным для оптимизации производительности и качества рассуждений.
5. Какие перспективы открывает работа с Biomni-R0 для биомедицинских исследований?
Работа с Biomni-R0 закладывает основу для создания суперэкспертных биомедицинских агентов, способных с точностью автоматизировать сложные исследовательские рабочие процессы. Это может привести к более эффективному анализу данных, более точной диагностике и более быстрому прогрессу в биомедицинских исследованиях.