Агенты для веб-автоматизации становятся всё более актуальными в искусственном интеллекте, особенно из-за их способности выполнять действия, похожие на человеческие, в цифровых средах. Эти агенты взаимодействуют с веб-сайтами через графические пользовательские интерфейсы (GUI), имитируя поведение человека, такое как клики, набор текста и перемещение по веб-страницам. Такой подход позволяет обойтись без специальных интерфейсов программирования приложений (API), которые часто недоступны или ограничены во многих веб-приложениях. Вместо этого агенты могут работать универсально в разных веб-доменах, что делает их гибкими инструментами для широкого спектра задач.
Развитие больших языковых моделей (LLM) позволило этим агентам не только интерпретировать веб-контент, но и рассуждать, планировать и действовать всё более изощрённо. По мере роста их способностей растёт и необходимость оценивать их не только по простым задачам просмотра. Бенчмарки, которые когда-то были достаточны для ранних моделей, больше не могут измерить весь потенциал современных агентов.
Проблема с текущими бенчмарками
Поскольку агенты развиваются, возникает острая проблема: их компетентность в выполнении рутинных, требующих много памяти и многошаговых цифровых задач остаётся недостаточно измеренной. Многие задачи, которые люди выполняют на веб-сайтах, такие как извлечение данных с разных страниц, выполнение расчётов на основе предыдущих вводов или применение сложных правил, требуют значительных когнитивных усилий.
Большинство бенчмарков фокусируются на упрощённых сценариях, не отражая типы цифровых задач, которые люди часто предпочитают избегать. Кроме того, ограничения этих бенчмарков становятся более очевидными по мере улучшения производительности агентов. Неоднозначность в инструкциях к задачам или несоответствия в ожидаемых результатах начинают искажать оценки. Когда агенты генерируют разумные, но слегка отличающиеся ответы, они неправильно наказываются из-за расплывчатых определений задач. Такие недостатки затрудняют различие между истинными ограничениями модели и недостатками бенчмарка.
WebChoreArena: новый подход
Исследователи из Токийского университета представили WebChoreArena. Эта расширенная структура основана на структуре WebArena, но значительно увеличивает сложность и сложность задач. WebChoreArena включает в себя 532 новых задания, распределённых по тем же четырём смоделированным веб-сайтам. Эти задания разработаны так, чтобы быть более требовательными, отражая сценарии, в которых агенты должны выполнять такие задачи, как агрегация данных, вызов памяти и многошаговые рассуждения.
WebChoreArena классифицирует свои задачи на четыре основных типа:
* Массивные объёмы памяти (Massive Memory): 117 задач, требующих от агентов извлечения и запоминания больших объёмов информации, например, составление всех имён клиентов, связанных с высокоценными транзакциями.
* Расчётные задачи (Calculation): 132 задания, включающие арифметические операции, например, определение месяцев с самыми высокими расходами на основе нескольких точек данных.
* Долгосрочная память (Long-Term Memory): 127 задач, проверяющих способность агента связывать информацию на разных страницах, например, извлечение правил ценообразования с одного сайта и применение их на другом.
* Другие (Others): 65 задач, включая операции, такие как назначение меток в GitLab, которые не соответствуют традиционным форматам задач.
Каждая задача определяет свой тип ввода: 451 задача решаема с любым типом наблюдения, 69 требуют только текстового ввода, а 12 зависят исключительно от ввода изображений.
Оценка бенчмарка
Для оценки бенчмарка исследователи использовали три известные большие языковые модели: GPT-4o, Claude 3.7 Sonnet и Gemini 2.5 Pro. Они были протестированы в сочетании с двумя продвинутыми веб-агентами: AgentOccam и BrowserGym. Результаты показали повышенную сложность WebChoreArena по сравнению с предыдущими бенчмарками. GPT-4o, который достиг 42,8% точности на WebArena, справился только с 6,8% на WebChoreArena. Claude 3.7 Sonnet и Gemini 2.5 Pro показали лучшие результаты, причём Gemini достигла максимальной точности в 44,9%.
Несмотря на то что Gemini оказалась лучшим исполнителем, этот результат всё равно отражал значительные пробелы в возможностях при работе с более сложными задачами WebChoreArena. Бенчмарк также оказался более чувствительным к выявлению различий в производительности между моделями, что делает его ценным инструментом для отслеживания прогресса в технологиях веб-агентов.
Ключевые выводы
* WebChoreArena включает 532 задачи: 117 — массивные объёмы памяти, 132 — расчётные, 127 — долгосрочная память и 65 — другие.
* Задачи распределены по магазинам (117), администрированию магазинов (132), Reddit (91), GitLab (127) и 65 межсайтовым сценариям.
* Типы ввода: 451 задача решаема с любым вводом, 69 требуют текстового ввода и 12 — ввода изображений.
* GPT-4o набрал только 6,8% на WebChoreArena по сравнению с 42,8% на WebArena.
* Gemini 2.5 Pro достигла наивысшего балла в 44,9%, что указывает на текущие ограничения в обработке сложных задач.
* WebChoreArena обеспечивает более чёткую разницу в производительности между моделями, чем WebArena, повышая ценность бенчмаркинга.
* Всего было использовано 117 шаблонов задач для обеспечения разнообразия и воспроизводимости примерно по 4,5 экземпляра на шаблон.
* Бенчмарк потребовал более 300 часов аннотаций и доработки, что отражает его тщательную проработку.
* Оценки используют сопоставление строк, URL-адресов и сравнение структуры HTML для оценки точности.
В заключение, это исследование подчёркивает несоответствие между умением общего просмотра и когнитивными способностями более высокого порядка, необходимыми для веб-задач. Вновь представленная WebChoreArena является надёжным и подробным бенчмарком, разработанным специально для того, чтобы подтолкнуть веб-агентов к территориям, где они должны полагаться на рассуждения, память и логику. Он заменяет неоднозначность стандартизацией, а его задачи имитируют цифровую рутину, которую агенты должны научиться выполнять, если они хотят стать действительно полезными в автоматизации реальных задач.