Компания ServiceNow Research выпустила DRBench — бенчмарк и рабочую среду для оценки агентов глубокого исследования в решении открытых задач на предприятиях. Эти задачи требуют синтеза фактов из общедоступных интернет-источников и частных корпоративных данных для подготовки отчётов с соответствующими ссылками.
В отличие от тестов, ориентированных только на веб, DRBench моделирует гетерогенные рабочие процессы в корпоративном стиле — файлы, электронные письма, журналы чата и облачное хранилище — чтобы агенты могли извлекать, фильтровать и атрибутировать идеи в нескольких приложениях перед написанием связного исследовательского отчёта.
Что включает в себя DRBench?
В начальном выпуске представлено 15 задач для глубокого исследования в 10 корпоративных доменах (например, продажи, кибербезопасность, соответствие требованиям). Каждая задача определяет вопрос для глубокого исследования, контекст задачи (компания и персона) и набор подтверждённых данных, охватывающих три класса: общедоступные данные (из датированных, стабильных во времени URL-адресов), внутренние релевантные данные и внутренние отвлекающие данные.
Конвейер построения набора данных сочетает генерацию LLM с проверкой человеком и насчитывает в общей сложности 114 подтверждённых данных по задачам.
Корпоративная среда
Ключевым элементом является контейнеризированная корпоративная среда, которая объединяет обычно используемые сервисы за аутентификацией и API для конкретных приложений. Образ Docker в DRBench управляет:
* Nextcloud (общие документы, WebDAV);
* Mattermost (командный чат, REST API);
* Roundcube с SMTP/IMAP (корпоративная электронная почта);
* FileBrowser (локальная файловая система);
* VNC/NoVNC рабочий стол для взаимодействия с графическим интерфейсом.
Задачи инициализируются путём распределения данных по этим сервисам (документы в Nextcloud и FileBrowser, чаты в каналах Mattermost, электронные письма в системе почты и т. д.). Агенты могут работать через веб-интерфейсы или программные API, предоставляемые каждым сервисом.
Оценка: что оценивается
DRBench оценивает четыре параметра, соответствующие рабочим процессам аналитиков:
* Воспоминание о сведениях (Insight Recall).
* Избегание отвлекающих факторов (Distractor Avoidance).
* Достоверность (Factuality).
* Качество отчёта (Report Quality).
Оценка основана на рубриках, указанных в отчёте.
Базовый агент и исследовательский цикл
Исследовательская группа представляет ориентированного на задачи базового агента — DRBench Agent (DRBA), предназначенного для работы в среде DRBench. DRBA состоит из четырёх компонентов: планирование исследования, планирование действий, исследовательский цикл с адаптивным планированием действий (AAP) и написание отчёта.
Планирование поддерживает два режима:
* Комплексное планирование исследований (CRP), которое определяет области исследования, ожидаемые источники и критерии успеха.
* Простое планирование исследований (SRP), которое создаёт облегчённые подзапросы.
Исследовательский цикл итеративно выбирает инструменты, обрабатывает контент (включая хранение в векторном хранилище), выявляет пробелы и продолжается до завершения или достижения максимального бюджета итераций.
Почему это важно для корпоративных агентов?
Большинство агентов для глубокого исследования выглядят убедительно на наборах вопросов в общедоступном веб-интернете, но их практическое использование зависит от надёжного поиска нужных внутренних данных, игнорирования правдоподобных внутренних отвлекающих факторов и цитирования как общедоступных, так и частных источников в соответствии с корпоративными ограничениями (логин, разрешения, неудобный пользовательский интерфейс).
Дизайн DRBench напрямую нацелен на устранение этого пробела путём:
* Основания задач на реалистичных контекстах компании/персонажа;
* Распределения доказательств по нескольким корпоративным приложениям и интернету;
* Оценки того, действительно ли агент извлёк предполагаемые данные и написал связный, достоверный отчёт.
Ключевые выводы
* DRBench оценивает агентов глубокого исследования по комплексным, открытым задачам на предприятиях, требующим объединения общедоступных веб-данных и частных корпоративных данных.
* Начальный выпуск охватывает 15 задач в 10 доменах, каждая из которых основана на реалистичных пользовательских персонажах и организационном контексте.
* Задачи охватывают разнородные корпоративные артефакты — программное обеспечение для повышения производительности, облачные файловые системы, электронные письма, чаты — а также открытый веб, выходя за рамки веб-ориентированных установок.
* Отчёты оцениваются на предмет запоминания информации, фактической точности и связного, хорошо структурированного составления отчётов с использованием оценки по рубрикам.
* Код и ресурсы бенчмарка с открытым исходным кодом на GitHub для воспроизводимой оценки и расширения.
Проверьте статью и страницу GitHub. Не стесняйтесь посетить нашу страницу GitHub для руководств, кодов и ноутбуков. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему ML SubReddit с более чем 100 тысячами участников и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там!
1. Что такое DRBench и для чего он предназначен?
DRBench — это бенчмарк и рабочая среда для оценки агентов глубокого исследования в решении открытых задач на предприятиях. Он предназначен для оценки способности агентов извлекать, фильтровать и атрибутировать идеи из различных источников (файлы, электронные письма, журналы чата и облачное хранилище) перед написанием связного исследовательского отчёта.
2. Какие параметры оценивает DRBench?
DRBench оценивает четыре параметра:
* Воспоминание о сведениях (Insight Recall).
* Избегание отвлекающих факторов (Distractor Avoidance).
* Достоверность (Factuality).
* Качество отчёта (Report Quality).
3. Какие компоненты включает в себя DRBench Agent (DRBA)?
DRBench Agent (DRBA) состоит из четырёх компонентов:
* Планирование исследования.
* Планирование действий.
* Исследовательский цикл с адаптивным планированием действий (AAP).
* Написание отчёта.
4. Какие задачи включены в начальный выпуск DRBench?
В начальном выпуске DRBench представлено 15 задач для глубокого исследования в 10 корпоративных доменах, например, продажи, кибербезопасность, соответствие требованиям. Каждая задача определяет вопрос для глубокого исследования, контекст задачи (компания и персона) и набор подтверждённых данных, охватывающих три класса: общедоступные данные, внутренние релевантные данные и внутренние отвлекающие данные.
5. Почему DRBench важен для корпоративных агентов?
Большинство агентов для глубокого исследования выглядят убедительно на наборах вопросов в общедоступном веб-интернете, но их практическое использование зависит от надёжного поиска нужных внутренних данных, игнорирования правдоподобных внутренних отвлекающих факторов и цитирования как общедоступных, так и частных источников в соответствии с корпоративными ограничениями. DRBench напрямую нацелен на устранение этого пробела путём основания задач на реалистичных контекстах компании/персонажа, распределения доказательств по нескольким корпоративным приложениям и интернету, а также оценки того, действительно ли агент извлёк предполагаемые данные и написал связный, достоверный отчёт.