Группа исследователей из Стэнфордского университета выпустила MedAgentBench — новый набор тестов для оценки агентов на основе больших языковых моделей (LLM) в контексте здравоохранения. В отличие от предыдущих наборов данных для ответов на вопросы, MedAgentBench предоставляет виртуальную среду электронных медицинских записей (EHR), где системы искусственного интеллекта должны взаимодействовать, планировать и выполнять многоэтапные клинические задачи. Это знаменует собой значительный переход от тестирования статического мышления к оценке агентских возможностей в реальных медицинских рабочих процессах, основанных на использовании инструментов.
Зачем нужны агентские эталоны в здравоохранении?
Недавние LLM перешли от статического взаимодействия в чате к агентскому поведению — интерпретации высокоуровневых инструкций, вызовам API, интеграции данных пациентов и автоматизации сложных процессов. В медицине это может помочь решить проблему нехватки персонала, упростить документацию и повысить эффективность административной работы.
Хотя существуют общие эталоны для агентов (например, AgentBench, AgentBoard, tau-bench), в здравоохранении отсутствовал стандартизированный эталон, учитывающий сложность медицинских данных, совместимость с FHIR и продольные записи пациентов. MedAgentBench устраняет этот пробел, предлагая воспроизводимую, клинически значимую систему оценки.
Из чего состоит MedAgentBench?
MedAgentBench состоит из 300 задач по 10 категориям, написанных лицензированными врачами. Эти задачи включают в себя поиск информации о пациентах, отслеживание результатов лабораторных исследований, документацию, назначение анализов, направления и управление приёмом лекарств. Задачи в среднем состоят из 2–3 шагов и отражают рабочие процессы, встречающиеся при стационарном и амбулаторном лечении.
Какие данные пациентов поддерживают эталон?
В основе эталона лежат 100 реалистичных профилей пациентов, извлечённых из репозитория данных Stanford STARR, включающего более 700 000 записей, включая лабораторные исследования, показатели жизнедеятельности, диагнозы, процедуры и назначения лекарств. Данные были анонимизированы и перемешаны для обеспечения конфиденциальности, сохраняя при этом клиническую достоверность.
Как устроена среда?
Среда соответствует стандарту FHIR, поддерживая как извлечение (GET), так и модификацию (POST) данных EHR. Системы искусственного интеллекта могут имитировать реалистичные клинические взаимодействия, такие как документирование показателей жизнедеятельности или назначение лекарств. Такая конструкция позволяет напрямую переводить эталоны в живые системы EHR.
Как оцениваются модели?
Метрика: уровень успеха выполнения задач (SR), измеряемый строгим проходом @1, чтобы отразить требования безопасности в реальных условиях.
Проверенные модели: 12 ведущих LLM, включая GPT-4o, Claude 3.5 Sonnet, Gemini 2.0, DeepSeek-V3, Qwen2.5 и Llama 3.3.
Оркестратор агентов: базовая настройка оркестрации с девятью функциями FHIR, ограниченная восемью раундами взаимодействия на задачу.
Какие модели показали лучшие результаты?
Claude 3.5 Sonnet v2: лучший общий результат с 69,67% успеха, особенно сильный в задачах поиска (85,33%).
GPT-4o: 64,0% успеха, демонстрирует сбалансированную производительность поиска и действий.
DeepSeek-V3: 62,67% успеха, лидирует среди моделей с открытым весом.
Наблюдение: большинство моделей преуспели в задачах по запросам, но испытывали трудности с задачами, требующими безопасных многоэтапных действий.
Какие ошибки допускали модели?
Выявлено два основных типа ошибок:
* Нарушение правил выполнения инструкций — неверные вызовы API или неправильное форматирование JSON.
* Несоответствие выходных данных — предоставление полных предложений, когда требовались структурированные числовые значения.
Эти ошибки указывают на пробелы в точности и надёжности, которые имеют решающее значение при клиническом внедрении.
Резюме
MedAgentBench устанавливает первый крупномасштабный эталон для оценки агентов LLM в реалистичных условиях EHR, сочетая 300 задач, созданных врачами-клиницистами, с совместимой со стандартом FHIR средой и 100 профилями пациентов. Результаты показывают большой потенциал, но ограниченную надёжность — Claude 3.5 Sonnet v2 лидирует с 69,67%, что подчёркивает разрыв между успехом в запросах и безопасным выполнением действий. Несмотря на ограничения, связанные с данными одного учреждения и ориентацией на EHR, MedAgentBench представляет собой открытую, воспроизводимую систему, которая будет способствовать развитию следующего поколения надёжных агентов искусственного интеллекта в здравоохранении.
1. Какие проблемы в здравоохранении решает внедрение агентских эталонов на основе больших языковых моделей (LLM)?
Внедрение агентских эталонов на основе LLM помогает решить проблему нехватки персонала, упростить документацию и повысить эффективность административной работы в медицине.
2. Какие основные компоненты включает в себя MedAgentBench?
MedAgentBench включает в себя 300 задач по 10 категориям, написанных лицензированными врачами, и 100 реалистичных профилей пациентов, извлечённых из репозитория данных Stanford STARR.
3. Какие типы ошибок допускали модели при выполнении задач в MedAgentBench?
Модели допускали два основных типа ошибок: нарушение правил выполнения инструкций (неверные вызовы API или неправильное форматирование JSON) и несоответствие выходных данных (предоставление полных предложений, когда требовались структурированные числовые значения).
4. Какие модели показали лучшие результаты в тестировании на MedAgentBench?
Лучшие результаты показали:
* Claude 3.5 Sonnet v2 — лучший общий результат с 69,67% успеха, особенно сильный в задачах поиска (85,33%).
* GPT-4o — 64,0% успеха, демонстрирует сбалансированную производительность поиска и действий.
* DeepSeek-V3 — 62,67% успеха, лидирует среди моделей с открытым весом.
5. Какие ограничения существуют у MedAgentBench?
Ограничения MedAgentBench включают в себя данные одного учреждения и ориентацию на EHR (электронные медицинские записи). Несмотря на это, MedAgentBench представляет собой открытую, воспроизводимую систему, которая будет способствовать развитию следующего поколения надёжных агентов искусственного интеллекта в здравоохранении.