ServiceNow Research представляет EnterpriseOps-Gym: высокоточный бенчмарк для оценки планирования действий в условиях реального предприятия

Большие языковые модели (LLM) переходят от диалоговых к автономным агентам, способным выполнять сложные профессиональные рабочие процессы. Однако их внедрение в корпоративных средах ограничено отсутствием бенчмарков, отражающих специфику профессиональных задач: планирование на длительный срок, постоянные изменения состояния и строгие протоколы доступа.

Для решения этой проблемы исследователи из ServiceNow Research, Mila и Université de Montréal представили EnterpriseOps-Gym — высокоточную тестовую среду для оценки планирования действий в реалистичных корпоративных сценариях.

Среда оценки

EnterpriseOps-Gym представляет собой контейнеризированную среду Docker, которая имитирует восемь критически важных для бизнеса доменов:

* Операционные домены: управление обслуживанием клиентов (CSM), управление человеческими ресурсами (HR) и управление ИТ-услугами (ITSM).
* Домены совместной работы: электронная почта, календарь, Teams и Drive.
* Гибридный домен: междоменные задачи, требующие скоординированного выполнения в нескольких системах.

Бенчмарк включает 164 таблицы реляционных баз данных и 512 функциональных инструментов. Со средним коэффициентом внешних ключей 1,7 среда имеет высокую реляционную плотность, что заставляет агентов ориентироваться в сложных зависимостях между таблицами для поддержания ссылочной целостности.

Бенчмарк включает 1150 задач, подготовленных экспертами, с траекториями выполнения, в среднем составляющими 9 шагов и достигающими 34 шагов.

Результаты оценки

Исследовательская группа оценила 14 передовых моделей, используя метрику pass@1, где задача считается успешной только в том случае, если все основанные на результатах SQL-верификаторы проходят.

| Модель | Средний процент успеха (%) | Стоимость за задачу (USD) |
| — | — | — |
| Claude Opus 4.5 | 37,4 | 0,36 |
| Gemini-3-Flash | 31,9 | 0,03 |
| GPT-5.2 (High) | 31,8 | Не указано в тексте |
| Claude Sonnet 4.5 | 30,9 | 0,26 |
| GPT-5 | 29,8 | 0,16 |
| DeepSeek-V3.2 (High) | 24,5 | 0,014 |
| GPT-OSS-120B (High) | 23,7 | 0,015 |

Результаты показывают, что даже самые современные модели не могут достичь 40% надёжности в этих структурированных средах. Производительность сильно зависит от домена; модели показали наилучшие результаты в инструментах совместной работы (Email, Teams), но значительно снизились в таких областях, как ITSM (28,5%) и гибридные (30,7%) рабочие процессы.

Планирование против выполнения

Критическим выводом этого исследования является то, что стратегическое планирование, а не вызов инструментов, является основным узким местом производительности.

Исследовательская группа провела эксперименты с «Оракулом», в которых агентам были предоставлены планы, составленные человеком. Это вмешательство улучшило производительность на 14–35 процентных пунктов для всех моделей.

Примечательно, что более мелкие модели, такие как Qwen3-4B, стали конкурентоспособными по сравнению с гораздо более крупными моделями, когда стратегическое рассуждение было вынесено за рамки.

Режимы сбоев и вопросы безопасности

Качественный анализ выявил четыре повторяющихся модели сбоев:

* Отсутствие поиска предварительных условий: создание объектов без запроса необходимых предварительных условий, что приводит к появлению «сиротских» записей.
* Каскадное распространение состояния: неспособность инициировать последующие действия, требуемые политиками системы, после изменения состояния.
* Неправильное разрешение идентификаторов: передача непроверенных или угаданных идентификаторов при вызовах инструментов.
* Галлюцинации преждевременного завершения: объявление задачи выполненной до выполнения всех необходимых шагов.

Кроме того, агенты сталкиваются с трудностями при безопасном отказе. В бенчмарке представлено 30 невыполнимых задач (например, запросы, нарушающие правила доступа или связанные с неактивными пользователями).

Оркестрация и мультиагентные системы (MAS)

Исследовательская группа также оценила, могут ли более сложные архитектуры агентов сократить разрыв в производительности. Хотя настройка Planner+Executor (где одна модель планирует, а другая выполняет) дала скромный прирост, более сложные архитектуры декомпозиции часто приводили к снижению производительности.

Экономические соображения: граница Парето

Для развёртывания бенчмарк устанавливает чёткий компромисс между стоимостью и производительностью:

* Gemini-3-Flash представляет собой наилучший практический компромисс для закрытых моделей, предлагая производительность 31,9% при снижении стоимости на 90% по сравнению с GPT-5 или Claude Sonnet 4.5.
* DeepSeek-V3.2 (High) и GPT-OSS-120B (High) являются доминирующими вариантами с открытым исходным кодом, предлагая примерно 24% производительности при цене примерно 0,015 доллара за задачу.
* Claude Opus 4.5 остаётся эталоном абсолютной надёжности (37,4%), но при этом имеет самую высокую стоимость в 0,36 доллара за задачу.

Ключевые выводы

* Масштаб и сложность бенчмарка: EnterpriseOps-Gym предоставляет высокоточную среду оценки, включающую 164 таблицы реляционных баз данных и 512 функциональных инструментов в восьми корпоративных доменах.
* Значительный разрыв в производительности: текущие передовые модели пока не надёжны для автономного развёртывания; самая эффективная модель, Claude Opus 4.5, достигает лишь 37,4% успеха.
* Планирование как основное узкое место: стратегическое рассуждение является узким местом, а не выполнение инструментов, поскольку предоставление агентам планов, составленных человеком, улучшает производительность на 14–35 процентных пунктов.
* Неадекватный безопасный отказ: модели с трудом определяют и отказываются от невыполнимых или нарушающих политику запросов, причём даже самая эффективная модель чётко воздерживается только в 53,9% случаев.
* Ограничения бюджета мышления: хотя увеличение вычислительных ресурсов во время тестирования даёт прирост в некоторых областях, производительность в других достигает плато, что говорит о том, что большее количество «токенов мышления» не может полностью преодолеть фундаментальные пробелы в понимании политики или предметных знаний.

1. Какие проблемы решает EnterpriseOps-Gym и почему это важно для внедрения больших языковых моделей в корпоративные среды?

EnterpriseOps-Gym решает проблему отсутствия бенчмарков, которые отражают специфику профессиональных задач в корпоративных средах. Это важно, поскольку внедрение больших языковых моделей (LLM) в корпоративные среды ограничено из-за отсутствия таких инструментов.

2. Какие домены и инструменты включены в EnterpriseOps-Gym и как они могут быть полезны для оценки планирования действий?

EnterpriseOps-Gym включает восемь критически важных для бизнеса доменов: операционные (управление обслуживанием клиентов, управление человеческими ресурсами, управление ИТ-услугами), домены совместной работы (электронная почта, календарь, Teams, Drive) и гибридный домен. Эти инструменты могут быть полезны для оценки планирования действий, поскольку они имитируют реальные корпоративные сценарии и позволяют оценить, как модели справляются с планированием в сложных условиях.

3. Какие результаты были получены при оценке 14 передовых моделей с использованием EnterpriseOps-Gym?

При оценке 14 передовых моделей с использованием EnterpriseOps-Gym было обнаружено, что даже самые современные модели не могут достичь 40% надёжности в этих структурированных средах. Производительность сильно зависит от домена; модели показали наилучшие результаты в инструментах совместной работы, но значительно снизились в таких областях, как ITSM и гибридные рабочие процессы.

4. Какие основные выводы можно сделать из исследования, представленного в статье?

Основные выводы из исследования включают:
* Масштаб и сложность бенчмарка: EnterpriseOps-Gym предоставляет высокоточную среду оценки, включающую 164 таблицы реляционных баз данных и 512 функциональных инструментов в восьми корпоративных доменах.
* Значительный разрыв в производительности: текущие передовые модели пока не надёжны для автономного развёртывания.
* Планирование как основное узкое место: стратегическое рассуждение является узким местом, а не выполнение инструментов.
* Неадекватный безопасный отказ: модели с трудом определяют и отказываются от невыполнимых или нарушающих политику запросов.
* Ограничения бюджета мышления: увеличение вычислительных ресурсов во время тестирования даёт прирост в некоторых областях, но производительность в других достигает плато.

5. Какие экономические соображения устанавливает бенчмарк для развёртывания?

Бенчмарк устанавливает чёткий компромисс между стоимостью и производительностью. Например, Gemini-3-Flash представляет собой наилучший практический компромисс для закрытых моделей, предлагая производительность 31,9% при снижении стоимости на 90% по сравнению с GPT-5 или Claude Sonnet 4.5. DeepSeek-V3.2 (High) и GPT-OSS-120B (High) являются доминирующими вариантами с открытым исходным кодом, предлагая примерно 24% производительности при цене примерно 0,015 доллара за задачу. Claude Opus 4.5 остаётся эталоном абсолютной надёжности (37,4%), но при этом имеет самую высокую стоимость в 0,36 доллара за задачу.

Источник