Почему веб-агенты испытывают трудности с динамическими веб-интерфейсами
Веб-агенты, предназначенные для работы в веб-среде, автоматизируют такие задачи, как навигация по страницам, нажатие кнопок или отправка форм. Они интерпретируют данные браузера и имитируют взаимодействие с пользователем для выполнения заданных задач.
Успех в этой области требует точного понимания динамического контента и способности адаптироваться к различным веб-интерфейсам, которые постоянно меняются. Хотя предварительно обученные языковые модели показали себя в других областях, их производительность в задачах, основанных на графическом интерфейсе (GUI), остаётся ограниченной из-за сложности и изменчивости веб-страниц.
Проблемы сбора данных для веб-агентов в масштабе
Одна из серьёзных проблем — ограниченное понимание агентами среды, в которой они должны работать. Предварительно обученные модели часто дают сбои при взаимодействии с незнакомыми или сложными интерфейсами.
В отличие от статических наборов данных, реальные веб-среды требуют постоянного принятия решений в ответ на различия в макете и изменение потоков пользователей. Это затрудняет выполнение веб-агентами таких задач, как поиск конкретного продукта или заполнение онлайн-формы.
Данные, собранные специалистами, могут помочь, но их сбор требует много времени и не может масштабироваться для удовлетворения разнообразия реальных веб-сценариев.
Обзор прошлых подходов: методы, ориентированные на взаимодействие, и методы, ориентированные на инструкции
Исследователи ранее пытались использовать различные методы для сбора данных для обучения этих агентов. Один из подходов — метод, ориентированный на взаимодействие, — позволяет агенту исследовать веб-сайты на основе общих инструкций, а затем маркирует их действия с помощью другой модели. Хотя это может привести к более глубокому исследованию, часто это приводит к повторяющемуся поведению между сеансами, ограничивая разнообразие данных.
Другой метод — метод, ориентированный на инструкции, — генерирует конкретные задачи для агента на основе содержимого одной веб-страницы. Хотя эти задачи более целенаправленны, они часто привязаны только к видимому содержимому и могут быть невыполнимы, особенно если основаны на вымышленных элементах.
Введение в Go-Browse: структурированное исследование на основе графов
Исследователи из Университета Карнеги-Меллона представили Go-Browse для решения этих ограничений с помощью структурированной стратегии исследования. Вместо того чтобы полагаться на общее исследование или статические задачи, Go-Browse рассматривает сбор данных как задачу обхода графа.
Он итеративно строит граф посещённых URL-адресов, используя эту структуру для исследования как ранее обнаруженных, так и новых страниц. Это позволяет агенту возвращаться к известным страницам и разветвляться, уменьшая избыточность и повышая разнообразие данных.
Каждый этап исследования предлагает и проверяет задачи на выбранной странице, обеспечивая генерацию обучающих данных только для выполнимых задач.
Как работает Go-Browse: модульная архитектура для исследования и проверки
Go-Browse работает через несколько модулей:
* NavExplorer предлагает навигационные задачи, которые соединяют с новыми страницами. Как веб-агент, он динамически взаимодействует с каждой страницей, чтобы определить ссылки, ведущие к неисследованным URL-адресам.
* PageExplorer предлагает локальные задачи для текущей страницы.
* FeasibilityChecker проверяет эти задачи, используя предварительно обученных агентов и модели «видение-язык», чтобы определить, можно ли успешно выполнить предложенные действия. Задачи, прошедшие этот этап, помечаются как выполнимые и добавляются в набор данных.
* Solvers затем выбирает дополнительные завершения задач, как с префиксированными начальными точками, так и с начальными состояниями, используя модели с более низкой стоимостью для максимизации генерации данных при сохранении ресурсов.
Оценка WebArena: Go-Browse превосходит предыдущие базовые показатели
Исследовательская группа оценила Go-Browse на бенчмарке WebArena, который известен своей сложностью при оценке агентов, основанных на GUI. Они собрали набор данных, включающий примерно 10 000 успешных траекторий выполнения задач и 17 000 неудачных траекторий на 100 уникальных URL-адресах.
Тонкая настройка модели Qwen-2.5-7B-Instruct на этом наборе данных обеспечила уровень выполнения задач в 21,7%. Этот показатель превысил GPT-4o-mini на 2,4% и превзошёл предыдущий лучший показатель модели с менее чем 10 миллиардами параметров, NNetNav, на 2,9%. Учитывая базовый уровень успеха для человека в 78%, это всё ещё оставляет возможности для улучшения, но представляет собой значительный прогресс.
Почему структурированное исследование повышает интеллект веб-агентов
Исследование выявляет ключевую проблему — цифровые агенты с трудом понимают сложные веб-среды. Предложенный метод Go-Browse решает эту проблему, реализуя структурированную, но гибкую стратегию, которая сочетает навигацию, планирование задач и проверку траекторий.
Обрабатывая исследование как задачу обхода графа и используя модульную проверку и выборку, подход обеспечивает масштабируемые и разнообразные обучающие данные. Эти вклады обеспечивают измеримый прирост производительности, демонстрируя потенциал структурированного исследования для обучения более интеллектуальных веб-агентов.
TL;DR
В статье представлена система Go-Browse — структурированная система исследования, разработанная исследователями из Карнеги-Меллона для улучшения обучения веб-агентов. В отличие от предыдущих методов, Go-Browse представляет исследование как задачу обхода графа, обеспечивая масштабируемый и разнообразный сбор данных путём систематического исследования и взаимодействия с веб-сайтами.
Используя модульные компоненты, такие как NavExplorer и FeasibilityChecker, система генерирует высококачественные, выполнимые траектории задач. При оценке на бенчмарке WebArena обученные с помощью Go-Browse модели превзошли предыдущие модели с менее чем 10 миллиардами параметров и даже превзошли GPT-4o-mini, демонстрируя эффективность структурированного сбора данных для создания надёжных веб-агентов.
1. Какие проблемы веб-агентов решает система Go-Browse?
Система Go-Browse решает проблему ограниченного понимания веб-агентами среды, в которой они должны работать. Предварительно обученные модели часто дают сбои при взаимодействии с незнакомыми или сложными интерфейсами. Go-Browse использует структурированную стратегию исследования, которая позволяет агенту возвращаться к известным страницам и разветвляться, уменьшая избыточность и повышая разнообразие данных.
2. Какие модули включает в себя система Go-Browse и как они работают?
Go-Browse включает в себя несколько модулей:
* NavExplorer предлагает навигационные задачи, которые соединяют с новыми страницами. Как веб-агент, он динамически взаимодействует с каждой страницей, чтобы определить ссылки, ведущие к неисследованным URL-адресам.
* PageExplorer предлагает локальные задачи для текущей страницы.
* FeasibilityChecker проверяет эти задачи, используя предварительно обученных агентов и модели «видение-язык», чтобы определить, можно ли успешно выполнить предложенные действия. Задачи, прошедшие этот этап, помечаются как выполнимые и добавляются в набор данных.
* Solvers затем выбирает дополнительные завершения задач, как с префиксированными начальными точками, так и с начальными состояниями, используя модели с более низкой стоимостью для максимизации генерации данных при сохранении ресурсов.
3. Как была оценена эффективность системы Go-Browse?
Исследовательская группа оценила Go-Browse на бенчмарке WebArena, который известен своей сложностью при оценке агентов, основанных на GUI. Они собрали набор данных, включающий примерно 10 000 успешных траекторий выполнения задач и 17 000 неудачных траекторий на 100 уникальных URL-адресах. Тонкая настройка модели Qwen-2.5-7B-Instruct на этом наборе данных обеспечила уровень выполнения задач в 21,7%. Этот показатель превысил GPT-4o-mini на 2,4% и превзошёл предыдущий лучший показатель модели с менее чем 10 миллиардами параметров, NNetNav, на 2,9%.
4. Какие преимущества предлагает система Go-Browse по сравнению с предыдущими методами обучения веб-агентов?
Go-Browse предлагает несколько преимуществ по сравнению с предыдущими методами обучения веб-агентов:
* Структурированная стратегия исследования, которая обеспечивает масштабируемый и разнообразный сбор данных.
* Модульная проверка и выборка, которые обеспечивают генерацию высококачественных, выполнимых траекторий задач.
* Повышение производительности веб-агентов за счёт более точного понимания сложных веб-сред.
5. Какие перспективы открывает использование системы Go-Browse для создания более интеллектуальных веб-агентов?
Использование системы Go-Browse открывает перспективы для создания более интеллектуальных веб-агентов, которые смогут более эффективно взаимодействовать со сложными веб-средами. Это может привести к улучшению производительности в различных задачах, таких как поиск информации, заполнение форм и навигация по веб-сайтам.