Accenture Research представляет MCP-Bench: крупномасштабный бенчмарк для оценки агентов LLM в сложных задачах реального мира через серверы MCP

Современные большие языковые модели (LLM) вышли далеко за рамки простого генерации текста. Многие из наиболее перспективных приложений в реальном мире требуют, чтобы эти модели использовали внешние инструменты — такие как API, базы данных и программные библиотеки — для решения сложных задач. Но как мы можем быть уверены, что агент ИИ может планировать, рассуждать и координировать работу с инструментами так же, как это сделал бы человек-помощник? На этот вопрос и отвечает MCP-Bench.

Проблема существующих бенчмарков

Большинство предыдущих бенчмарков для LLM, использующих инструменты, были сосредоточены на разовых вызовах API или узких, искусственно созданных рабочих процессах. Даже более продвинутые оценки редко проверяли, насколько хорошо агенты могут находить и использовать нужные инструменты на основе нечётких инструкций из реального мира — не говоря уже о том, могут ли они координировать работу между несколькими доменами и обосновывать свои ответы фактическими данными. На практике это означает, что многие модели хорошо справляются с искусственными задачами, но сталкиваются со сложностями и неоднозначностью реальных сценариев.

Что отличает MCP-Bench

Команда исследователей из Accenture представляет MCP-Bench — бенчмарк на основе протокола Model Context Protocol (MCP) для агентов LLM, которые напрямую подключаются к 28 серверам реального мира. Каждый сервер предлагает набор инструментов в различных областях — таких как финансы, научные вычисления, здравоохранение, путешествия и научные исследования. Всего бенчмарк охватывает 250 инструментов, организованных таким образом, что реалистичные рабочие процессы требуют как последовательного, так и параллельного использования инструментов, иногда на нескольких серверах.

Ключевые особенности:

* Аутентичные задачи. Задачи разработаны с учётом реальных потребностей пользователей, таких как планирование многодневного кемпинга (с учётом геопространственных данных, погоды и информации о парках), проведение биомедицинских исследований или преобразование единиц измерения в научных расчётах.
* Нечёткие инструкции. Вместо того чтобы указывать инструменты или шаги, задачи описаны естественным, иногда расплывчатым языком, требующим от агента сделать вывод о том, что делать, как это сделал бы человек-помощник.
* Разнообразие инструментов. Бенчмарк включает в себя всё: от медицинских калькуляторов и библиотек научных вычислений до финансовой аналитики, коллекций иконок и даже нишевых инструментов, таких как услуги гадания по Книге перемен (I Ching).
* Контроль качества. Задачи автоматически генерируются, затем фильтруются на предмет разрешимости и актуальности для реального мира. Каждая задача представлена в двух формах: точное техническое описание (используется для оценки) и разговорная, нечёткая версия (что видит агент).
* Многоуровневая оценка. Используются как автоматизированные метрики (например, «использовал ли агент правильный инструмент и предоставил ли правильные параметры?»), так и судьи на основе LLM (для оценки планирования, обоснования и рассуждений).

Как тестируются агенты

Агент, работающий с MCP-Bench, получает задачу (например, «Спланируйте поездку в Йосемити с подробной логистикой и прогнозами погоды») и должен решить, шаг за шагом, какие инструменты вызвать, в каком порядке и как использовать их результаты. Эти рабочие процессы могут охватывать несколько раундов взаимодействия, при этом агент объединяет результаты в согласованный, подкреплённый доказательствами ответ.

Каждый агент оценивается по нескольким параметрам, включая:

* Выбор инструмента. Выбрал ли он правильные инструменты для каждой части задачи?
* Точность параметров. Предоставил ли он полные и правильные входные данные для каждого инструмента?
* Планирование и координация. Правильно ли он обработал зависимости и параллельные шаги?
* Обоснование на основе доказательств. Ссылки ли его окончательный ответ на выходные данные инструментов, избегая необоснованных утверждений?

Что показывают результаты

Исследователи протестировали 20 современных LLM на 104 задачах. Основные выводы:

* Базовое использование инструментов. Большинство моделей могли правильно вызывать инструменты и обрабатывать схемы параметров даже для сложных или специализированных инструментов.
* Планирование всё ещё сложно. Даже лучшие модели испытывали трудности с длинными многошаговыми рабочими процессами, требующими не только выбора инструментов, но и понимания того, когда переходить к следующему шагу, какие части могут выполняться параллельно и как обрабатывать неожиданные результаты.
* Меньшие модели отстают. По мере усложнения задач, особенно тех, которые охватывают несколько серверов, меньшие модели чаще допускали ошибки, повторяли шаги или пропускали подзадачи.
* Эффективность сильно различается. Некоторым моделям требовалось гораздо больше вызовов инструментов и раундов взаимодействия для достижения тех же результатов, что указывает на неэффективность планирования и исполнения.
* Для нюансов всё ещё нужны люди. Хотя бенчмарк автоматизирован, проверка людьми обеспечивает реалистичность и разрешимость задач — напоминание о том, что для действительно надёжной оценки всё ещё требуется человеческий опыт.

Почему это исследование важно?

MCP-Bench предоставляет практический способ оценить, насколько хорошо агенты ИИ могут действовать как «цифровые помощники» в реальных условиях — ситуациях, когда пользователи не всегда точны, а правильный ответ зависит от объединения информации из многих источников. Бенчмарк выявляет пробелы в текущих возможностях LLM, особенно в области сложного планирования, междоменного рассуждения и синтеза на основе доказательств — областях, имеющих решающее значение для развёртывания агентов ИИ в бизнесе, исследованиях и специализированных областях.

Резюме

MCP-Bench — это серьёзный крупномасштабный тест для агентов ИИ, использующих реальные инструменты и реальные задачи, без каких-либо упрощений или искусственных настроек. Он показывает, что делают хорошо текущие модели и где они всё ещё терпят неудачу. Для всех, кто создаёт или оценивает ИИ-ассистентов, эти результаты и сам бенчмарк, вероятно, станут полезной проверкой реальности.

Ознакомьтесь с [документом](https://arxiv.org/abs/2508.20453) и [страницей GitHub](https://github.com/). Не стесняйтесь заглянуть на нашу [страницу GitHub](https://github.com/), чтобы узнать о руководствах, кодах и ноутбуках. Также подписывайтесь на нас в [Twitter](https://twitter.com/) и присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) с более чем 100 тысячами участников и подписывайтесь на наш [Newsletter](https://www.accenture.com/us-en/services/consulting/ai-machine-learning-services).

1. Какие проблемы существующих бенчмарков для LLM решает MCP-Bench?

Ответ: большинство предыдущих бенчмарков для LLM, использующих инструменты, были сосредоточены на разовых вызовах API или узких, искусственно созданных рабочих процессах. MCP-Bench предлагает более реалистичные задачи, которые требуют от агентов планирования, рассуждения и координации работы с инструментами так же, как это сделал бы человек-помощник в реальных условиях.

2. Какие ключевые особенности отличают MCP-Bench от других бенчмарков?

Ответ: MCP-Bench отличается от других бенчмарков следующими ключевыми особенностями:
* Аутентичные задачи, разработанные с учётом реальных потребностей пользователей.
* Нечёткие инструкции, требующие от агента сделать вывод о том, что делать, как это сделал бы человек-помощник.
* Разнообразие инструментов, включая медицинские калькуляторы, библиотеки научных вычислений, финансовую аналитику и другие.
* Контроль качества, включающий автоматическую генерацию и фильтрацию задач.
* Многоуровневая оценка, использующая как автоматизированные метрики, так и судей на основе LLM.

3. Какие параметры используются для оценки агентов, работающих с MCP-Bench?

Ответ: агенты, работающие с MCP-Bench, оцениваются по следующим параметрам:
* Выбор инструмента: выбрал ли агент правильные инструменты для каждой части задачи?
* Точность параметров: предоставил ли агент полные и правильные входные данные для каждого инструмента?
* Планирование и координация: правильно ли агент обработал зависимости и параллельные шаги?
* Обоснование на основе доказательств: ссылки ли окончательный ответ агента на выходные данные инструментов, избегая необоснованных утверждений?

4. Какие выводы были сделаны исследователями после тестирования 20 современных LLM на 104 задачах с использованием MCP-Bench?

Ответ: исследователи пришли к следующим выводам:
* Большинство моделей могли правильно вызывать инструменты и обрабатывать схемы параметров даже для сложных или специализированных инструментов.
* Даже лучшие модели испытывали трудности с длинными многошаговыми рабочими процессами, требующими не только выбора инструментов, но и понимания того, когда переходить к следующему шагу, какие части могут выполняться параллельно и как обрабатывать неожиданные результаты.
* По мере усложнения задач, особенно тех, которые охватывают несколько серверов, меньшие модели чаще допускали ошибки, повторяли шаги или пропускали подзадачи.
* Эффективность сильно различается: некоторым моделям требовалось гораздо больше вызовов инструментов и раундов взаимодействия для достижения тех же результатов, что указывает на неэффективность планирования и исполнения.
* Для нюансов всё ещё нужны люди: хотя бенчмарк автоматизирован, проверка людьми обеспечивает реалистичность и разрешимость задач.

Источник