ServiceNow AI Research выпускает DRBench — реалистичный бенчмарк для глубокого исследования на предприятиях

Компания ServiceNow Research выпустила DRBench — бенчмарк и рабочую среду для оценки агентов глубокого исследования в решении открытых задач на предприятиях. Эти задачи требуют синтеза фактов из общедоступных интернет-источников и частных корпоративных данных для подготовки отчётов с соответствующими ссылками.

В отличие от тестов, ориентированных только на веб, DRBench моделирует гетерогенные рабочие процессы в корпоративном стиле — файлы, электронные письма, журналы чата и облачное хранилище — чтобы агенты могли извлекать, фильтровать и атрибутировать идеи в нескольких приложениях перед написанием связного исследовательского отчёта.

Что включает в себя DRBench?

В начальном выпуске представлено 15 задач для глубокого исследования в 10 корпоративных доменах (например, продажи, кибербезопасность, соответствие требованиям). Каждая задача определяет вопрос для глубокого исследования, контекст задачи (компания и персона) и набор подтверждённых данных, охватывающих три класса: общедоступные данные (из датированных, стабильных во времени URL-адресов), внутренние релевантные данные и внутренние отвлекающие данные.

Конвейер построения набора данных сочетает генерацию LLM с проверкой человеком и насчитывает в общей сложности 114 подтверждённых данных по задачам.

Корпоративная среда

Ключевым элементом является контейнеризированная корпоративная среда, которая объединяет обычно используемые сервисы за аутентификацией и API для конкретных приложений. Образ Docker в DRBench управляет:
* Nextcloud (общие документы, WebDAV);
* Mattermost (командный чат, REST API);
* Roundcube с SMTP/IMAP (корпоративная электронная почта);
* FileBrowser (локальная файловая система);
* VNC/NoVNC рабочий стол для взаимодействия с графическим интерфейсом.

Задачи инициализируются путём распределения данных по этим сервисам (документы в Nextcloud и FileBrowser, чаты в каналах Mattermost, электронные письма в системе почты и т. д.). Агенты могут работать через веб-интерфейсы или программные API, предоставляемые каждым сервисом.

Оценка: что оценивается

DRBench оценивает четыре параметра, соответствующие рабочим процессам аналитиков:
* Воспоминание о сведениях (Insight Recall).
* Избегание отвлекающих факторов (Distractor Avoidance).
* Достоверность (Factuality).
* Качество отчёта (Report Quality).

Оценка основана на рубриках, указанных в отчёте.

Базовый агент и исследовательский цикл

Исследовательская группа представляет ориентированного на задачи базового агента — DRBench Agent (DRBA), предназначенного для работы в среде DRBench. DRBA состоит из четырёх компонентов: планирование исследования, планирование действий, исследовательский цикл с адаптивным планированием действий (AAP) и написание отчёта.

Планирование поддерживает два режима:
* Комплексное планирование исследований (CRP), которое определяет области исследования, ожидаемые источники и критерии успеха.
* Простое планирование исследований (SRP), которое создаёт облегчённые подзапросы.

Исследовательский цикл итеративно выбирает инструменты, обрабатывает контент (включая хранение в векторном хранилище), выявляет пробелы и продолжается до завершения или достижения максимального бюджета итераций.

Почему это важно для корпоративных агентов?

Большинство агентов для глубокого исследования выглядят убедительно на наборах вопросов в общедоступном веб-интернете, но их практическое использование зависит от надёжного поиска нужных внутренних данных, игнорирования правдоподобных внутренних отвлекающих факторов и цитирования как общедоступных, так и частных источников в соответствии с корпоративными ограничениями (логин, разрешения, неудобный пользовательский интерфейс).

Дизайн DRBench напрямую нацелен на устранение этого пробела путём:
* Основания задач на реалистичных контекстах компании/персонажа;
* Распределения доказательств по нескольким корпоративным приложениям и интернету;
* Оценки того, действительно ли агент извлёк предполагаемые данные и написал связный, достоверный отчёт.

Ключевые выводы

* DRBench оценивает агентов глубокого исследования по комплексным, открытым задачам на предприятиях, требующим объединения общедоступных веб-данных и частных корпоративных данных.
* Начальный выпуск охватывает 15 задач в 10 доменах, каждая из которых основана на реалистичных пользовательских персонажах и организационном контексте.
* Задачи охватывают разнородные корпоративные артефакты — программное обеспечение для повышения производительности, облачные файловые системы, электронные письма, чаты — а также открытый веб, выходя за рамки веб-ориентированных установок.
* Отчёты оцениваются на предмет запоминания информации, фактической точности и связного, хорошо структурированного составления отчётов с использованием оценки по рубрикам.
* Код и ресурсы бенчмарка с открытым исходным кодом на GitHub для воспроизводимой оценки и расширения.

Проверьте статью и страницу GitHub. Не стесняйтесь посетить нашу страницу GitHub для руководств, кодов и ноутбуков. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему ML SubReddit с более чем 100 тысячами участников и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там!

1. Что такое DRBench и для чего он предназначен?

DRBench — это бенчмарк и рабочая среда для оценки агентов глубокого исследования в решении открытых задач на предприятиях. Он предназначен для оценки способности агентов извлекать, фильтровать и атрибутировать идеи из различных источников (файлы, электронные письма, журналы чата и облачное хранилище) перед написанием связного исследовательского отчёта.

2. Какие параметры оценивает DRBench?

DRBench оценивает четыре параметра:
* Воспоминание о сведениях (Insight Recall).
* Избегание отвлекающих факторов (Distractor Avoidance).
* Достоверность (Factuality).
* Качество отчёта (Report Quality).

3. Какие компоненты включает в себя DRBench Agent (DRBA)?

DRBench Agent (DRBA) состоит из четырёх компонентов:
* Планирование исследования.
* Планирование действий.
* Исследовательский цикл с адаптивным планированием действий (AAP).
* Написание отчёта.

4. Какие задачи включены в начальный выпуск DRBench?

В начальном выпуске DRBench представлено 15 задач для глубокого исследования в 10 корпоративных доменах, например, продажи, кибербезопасность, соответствие требованиям. Каждая задача определяет вопрос для глубокого исследования, контекст задачи (компания и персона) и набор подтверждённых данных, охватывающих три класса: общедоступные данные, внутренние релевантные данные и внутренние отвлекающие данные.

5. Почему DRBench важен для корпоративных агентов?

Большинство агентов для глубокого исследования выглядят убедительно на наборах вопросов в общедоступном веб-интернете, но их практическое использование зависит от надёжного поиска нужных внутренних данных, игнорирования правдоподобных внутренних отвлекающих факторов и цитирования как общедоступных, так и частных источников в соответствии с корпоративными ограничениями. DRBench напрямую нацелен на устранение этого пробела путём основания задач на реалистичных контекстах компании/персонажа, распределения доказательств по нескольким корпоративным приложениям и интернету, а также оценки того, действительно ли агент извлёк предполагаемые данные и написал связный, достоверный отчёт.

Источник