Salesforce AI представляет CRMArena-Pro: первый многоэтапный бенчмарк корпоративного уровня для агентов на базе LLM

Агенты на базе больших языковых моделей (LLM) демонстрируют большие перспективы в решении сложных бизнес-задач, особенно в таких областях, как управление взаимоотношениями с клиентами (CRM). Однако оценить их реальную эффективность сложно из-за отсутствия общедоступных реалистичных бизнес-данных.

Существующие бенчмарки часто фокусируются на простых одноэтапных взаимодействиях или узких приложениях, таких как обслуживание клиентов, упуская из виду более широкие области, включая продажи, процессы CPQ и операции B2B. Они также не проверяют, насколько хорошо агенты справляются с конфиденциальной информацией.

Исследователи из Salesforce AI Research представили CRMArena-Pro — бенчмарк, предназначенный для реалистичной оценки агентов LLM, таких как Gemini 2.5 Pro, в профессиональной бизнес-среде. Он включает в себя задачи, проверенные экспертами, в сфере обслуживания клиентов, продаж и CPQ, охватывающие как B2B, так и B2C контексты.

Особенности CRMArena-Pro

* Многоэтапные диалоги: бенчмарк тестирует многоэтапные диалоги и оценивает осведомлённость о конфиденциальности.
* Экспертная проверка: задачи и среды были проверены экспертами, что обеспечивает реалистичность данных и надёжность тестирования.
* Синтетические данные: CRMArena-Pro использует синтетические, но структурно точные корпоративные данные, созданные с помощью GPT-4 и основанные на схемах Salesforce.
* 19 задач: включает 19 задач, сгруппированных по четырём ключевым навыкам: запросы к базе данных, текстовое рассуждение, выполнение рабочих процессов и соблюдение политик.

Результаты оценки

При оценке сравнивались ведущие агенты LLM по 19 бизнес-задачам, с акцентом на выполнение задач и осведомлённость о конфиденциальности. Метрики варьировались в зависимости от типа задачи — точное соответствие использовалось для структурированных выходных данных, а F1-оценка — для генеративных ответов.

Модели, такие как Gemini-2.5-Pro и o1, с продвинутым рассуждением, явно превосходили более лёгкие или нерассуждающие версии, особенно в сложных задачах. Хотя производительность была схожей в B2B и B2C настройках, появились нюансы, основанные на силе модели.

Выводы

CRMArena-Pro — это новый бенчмарк, разработанный для проверки того, насколько хорошо агенты LLM справляются с реальными бизнес-задачами в управлении взаимоотношениями с клиентами. Хотя ведущие агенты показали достойные результаты в одноэтапных задачах (около 58% успеха), их производительность резко снизилась примерно до 35% в многоэтапных диалогах.

Выполнение рабочих процессов было самой простой областью, но большинство других навыков оказались сложными. Осведомлённость о конфиденциальности была низкой, и её улучшение с помощью подсказок часто снижало точность выполнения задач. Эти результаты выявляют явный разрыв между возможностями LLM и потребностями предприятий.

Источник

Оставьте комментарий