Исследователи из Карнеги-Меллон представляют Go-Browse: графическую систему для масштабируемого обучения веб-агентов

Почему веб-агенты испытывают трудности с динамическими веб-интерфейсами

Веб-агенты, предназначенные для работы в веб-среде, автоматизируют такие задачи, как навигация по страницам, нажатие кнопок или отправка форм. Они интерпретируют данные браузера и имитируют взаимодействие с пользователем для выполнения заданных задач.

Успех в этой области требует точного понимания динамического контента и способности адаптироваться к различным веб-интерфейсам, которые постоянно меняются. Хотя предварительно обученные языковые модели показали себя в других областях, их производительность в задачах, основанных на графическом интерфейсе (GUI), остаётся ограниченной из-за сложности и изменчивости веб-страниц.

Проблемы сбора данных для веб-агентов в масштабе

Одна из серьёзных проблем — ограниченное понимание агентами среды, в которой они должны работать. Предварительно обученные модели часто дают сбои при взаимодействии с незнакомыми или сложными интерфейсами.

В отличие от статических наборов данных, реальные веб-среды требуют постоянного принятия решений в ответ на различия в макете и изменение потоков пользователей. Это затрудняет выполнение веб-агентами таких задач, как поиск конкретного продукта или заполнение онлайн-формы.

Данные, собранные специалистами, могут помочь, но их сбор требует много времени и не может масштабироваться для удовлетворения разнообразия реальных веб-сценариев.

Обзор прошлых подходов: методы, ориентированные на взаимодействие, и методы, ориентированные на инструкции

Исследователи ранее пытались использовать различные методы для сбора данных для обучения этих агентов. Один из подходов — метод, ориентированный на взаимодействие, — позволяет агенту исследовать веб-сайты на основе общих инструкций, а затем маркирует их действия с помощью другой модели. Хотя это может привести к более глубокому исследованию, часто это приводит к повторяющемуся поведению между сеансами, ограничивая разнообразие данных.

Другой метод — метод, ориентированный на инструкции, — генерирует конкретные задачи для агента на основе содержимого одной веб-страницы. Хотя эти задачи более целенаправленны, они часто привязаны только к видимому содержимому и могут быть невыполнимы, особенно если основаны на вымышленных элементах.

Введение в Go-Browse: структурированное исследование на основе графов

Исследователи из Университета Карнеги-Меллона представили Go-Browse для решения этих ограничений с помощью структурированной стратегии исследования. Вместо того чтобы полагаться на общее исследование или статические задачи, Go-Browse рассматривает сбор данных как задачу обхода графа.

Он итеративно строит граф посещённых URL-адресов, используя эту структуру для исследования как ранее обнаруженных, так и новых страниц. Это позволяет агенту возвращаться к известным страницам и разветвляться, уменьшая избыточность и повышая разнообразие данных.

Каждый этап исследования предлагает и проверяет задачи на выбранной странице, обеспечивая генерацию обучающих данных только для выполнимых задач.

Как работает Go-Browse: модульная архитектура для исследования и проверки

Go-Browse работает через несколько модулей:

* NavExplorer предлагает навигационные задачи, которые соединяют с новыми страницами. Как веб-агент, он динамически взаимодействует с каждой страницей, чтобы определить ссылки, ведущие к неисследованным URL-адресам.
* PageExplorer предлагает локальные задачи для текущей страницы.
* FeasibilityChecker проверяет эти задачи, используя предварительно обученных агентов и модели «видение-язык», чтобы определить, можно ли успешно выполнить предложенные действия. Задачи, прошедшие этот этап, помечаются как выполнимые и добавляются в набор данных.
* Solvers затем выбирает дополнительные завершения задач, как с префиксированными начальными точками, так и с начальными состояниями, используя модели с более низкой стоимостью для максимизации генерации данных при сохранении ресурсов.

Оценка WebArena: Go-Browse превосходит предыдущие базовые показатели

Исследовательская группа оценила Go-Browse на бенчмарке WebArena, который известен своей сложностью при оценке агентов, основанных на GUI. Они собрали набор данных, включающий примерно 10 000 успешных траекторий выполнения задач и 17 000 неудачных траекторий на 100 уникальных URL-адресах.

Тонкая настройка модели Qwen-2.5-7B-Instruct на этом наборе данных обеспечила уровень выполнения задач в 21,7%. Этот показатель превысил GPT-4o-mini на 2,4% и превзошёл предыдущий лучший показатель модели с менее чем 10 миллиардами параметров, NNetNav, на 2,9%. Учитывая базовый уровень успеха для человека в 78%, это всё ещё оставляет возможности для улучшения, но представляет собой значительный прогресс.

Почему структурированное исследование повышает интеллект веб-агентов

Исследование выявляет ключевую проблему — цифровые агенты с трудом понимают сложные веб-среды. Предложенный метод Go-Browse решает эту проблему, реализуя структурированную, но гибкую стратегию, которая сочетает навигацию, планирование задач и проверку траекторий.

Обрабатывая исследование как задачу обхода графа и используя модульную проверку и выборку, подход обеспечивает масштабируемые и разнообразные обучающие данные. Эти вклады обеспечивают измеримый прирост производительности, демонстрируя потенциал структурированного исследования для обучения более интеллектуальных веб-агентов.

TL;DR

В статье представлена система Go-Browse — структурированная система исследования, разработанная исследователями из Карнеги-Меллона для улучшения обучения веб-агентов. В отличие от предыдущих методов, Go-Browse представляет исследование как задачу обхода графа, обеспечивая масштабируемый и разнообразный сбор данных путём систематического исследования и взаимодействия с веб-сайтами.

Используя модульные компоненты, такие как NavExplorer и FeasibilityChecker, система генерирует высококачественные, выполнимые траектории задач. При оценке на бенчмарке WebArena обученные с помощью Go-Browse модели превзошли предыдущие модели с менее чем 10 миллиардами параметров и даже превзошли GPT-4o-mini, демонстрируя эффективность структурированного сбора данных для создания надёжных веб-агентов.

1. Какие проблемы веб-агентов решает система Go-Browse?

Система Go-Browse решает проблему ограниченного понимания веб-агентами среды, в которой они должны работать. Предварительно обученные модели часто дают сбои при взаимодействии с незнакомыми или сложными интерфейсами. Go-Browse использует структурированную стратегию исследования, которая позволяет агенту возвращаться к известным страницам и разветвляться, уменьшая избыточность и повышая разнообразие данных.

2. Какие модули включает в себя система Go-Browse и как они работают?

Go-Browse включает в себя несколько модулей:
* NavExplorer предлагает навигационные задачи, которые соединяют с новыми страницами. Как веб-агент, он динамически взаимодействует с каждой страницей, чтобы определить ссылки, ведущие к неисследованным URL-адресам.
* PageExplorer предлагает локальные задачи для текущей страницы.
* FeasibilityChecker проверяет эти задачи, используя предварительно обученных агентов и модели «видение-язык», чтобы определить, можно ли успешно выполнить предложенные действия. Задачи, прошедшие этот этап, помечаются как выполнимые и добавляются в набор данных.
* Solvers затем выбирает дополнительные завершения задач, как с префиксированными начальными точками, так и с начальными состояниями, используя модели с более низкой стоимостью для максимизации генерации данных при сохранении ресурсов.

3. Как была оценена эффективность системы Go-Browse?

Исследовательская группа оценила Go-Browse на бенчмарке WebArena, который известен своей сложностью при оценке агентов, основанных на GUI. Они собрали набор данных, включающий примерно 10 000 успешных траекторий выполнения задач и 17 000 неудачных траекторий на 100 уникальных URL-адресах. Тонкая настройка модели Qwen-2.5-7B-Instruct на этом наборе данных обеспечила уровень выполнения задач в 21,7%. Этот показатель превысил GPT-4o-mini на 2,4% и превзошёл предыдущий лучший показатель модели с менее чем 10 миллиардами параметров, NNetNav, на 2,9%.

4. Какие преимущества предлагает система Go-Browse по сравнению с предыдущими методами обучения веб-агентов?

Go-Browse предлагает несколько преимуществ по сравнению с предыдущими методами обучения веб-агентов:
* Структурированная стратегия исследования, которая обеспечивает масштабируемый и разнообразный сбор данных.
* Модульная проверка и выборка, которые обеспечивают генерацию высококачественных, выполнимых траекторий задач.
* Повышение производительности веб-агентов за счёт более точного понимания сложных веб-сред.

5. Какие перспективы открывает использование системы Go-Browse для создания более интеллектуальных веб-агентов?

Использование системы Go-Browse открывает перспективы для создания более интеллектуальных веб-агентов, которые смогут более эффективно взаимодействовать со сложными веб-средами. Это может привести к улучшению производительности в различных задачах, таких как поиск информации, заполнение форм и навигация по веб-сайтам.

Источник

Оставьте комментарий