Команда исследователей Salesforce AI представила WALT (Web Agents that Learn Tools) — фреймворк, который преобразует скрытые функции веб-сайтов в повторно используемые инструменты.
Что такое WALT?
Веб-агенты часто сталкиваются с проблемами при изменении макетов или выполнении длинных последовательностей действий. WALT решает эти проблемы, анализируя функциональность сайта в автономном режиме и предоставляя инструменты, которые инкапсулируют навигацию, выборку, извлечение и дополнительные агентские шаги.
Инструменты содержат контракты в виде схем и примеров. Во время выполнения агент составляет короткую программу с несколькими вызовами инструментов для выполнения задачи. Цель дизайна — повысить успешность выполнения задач с меньшим количеством шагов и меньшей зависимостью от рассуждений в свободной форме.
Этапы работы WALT
1. Обнаружение и разработка с валидацией. На этапе обнаружения WALT исследует веб-сайт и предлагает кандидатов в инструменты, которые соответствуют общим целям, таким как обнаружение, управление контентом и общение. На этапе разработки и валидации WALT преобразует трассировки в детерминированные скрипты, стабилизирует селекторы, пытается продвигать URL, когда это возможно, индуцирует схему ввода и регистрирует инструмент только после прохождения сквозных проверок.
2. Результаты на VisualWebArena и WebArena. На VisualWebArena WALT сообщает о среднем уровне успеха в 52,9% с результатами для каждого раздела: 64,1% на Classifieds, 53,4% на Shopping и 39,0% на Reddit. На WebArena WALT достигает среднего уровня успеха в 50,1% на GitLab, Map, Shopping, CMS, Reddit и Multi.
Эффективность и исключения
Инструменты сокращают количество действий в среднем примерно в 1,4 раза по сравнению с соответствующим агентом без инструментов. WALT с GPT 5 mini фиксирует на 7% более высокий успех и на 27% меньше шагов, в то время как стратегия демонстрации человеком обеспечивает 66,0% успеха. Полностью автономный WALT достигает 64,1% с на 5% меньшим количеством шагов, чем в случае демонстрации человеком.
Ключевые выводы
* Подход: WALT обнаруживает и проверяет функции, встроенные в веб-сайты, а затем представляет их в виде вызываемых инструментов со схемами ввода, стабилизацией селекторов и продвижением URL, преобразуя хрупкие последовательности шагов в детерминированные операции.
* Результаты: VisualWebArena — средний уровень успеха 52,9%, с 64,1% на Classifieds, 53,4% на Shopping и 39,0% на Reddit. WebArena — средний уровень успеха 50,1% на GitLab, Map, Shopping, CMS, Reddit и Multi.
* Эффективность и исключения: использование инструментов сокращает количество шагов примерно в 1,4 раза, в среднем на 21,3% меньше действий.
Комментарии редакции
WALT — это полезный переход от агентов с последовательностью шагов к инструментам, основанным на функциональности. Фреймворк преобразует скрытые функции веб-сайтов в повторно используемые инструменты, доступные для обнаружения, управления контентом и общения. Продвигая трассировки пользовательского интерфейса в детерминированные инструменты со схемой проверки и операциями с URL, WALT повышает успешность веб-агентов до 52,9% на VisualWebArena и 50,1% на WebArena, сокращая при этом количество действий примерно на 21,3%.
Проверьте статью и страницу GitHub. Не стесняйтесь заглянуть на нашу страницу GitHub, чтобы ознакомиться с учебными пособиями, кодами и ноутбуками. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему ML SubReddit с более чем 100 тысячами участников и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.
1. Какие проблемы решает WALT при работе с веб-сайтами?
WALT решает проблемы веб-агентов, связанные с изменением макетов и выполнением длинных последовательностей действий. Он анализирует функциональность сайта в автономном режиме и предоставляет инструменты, которые инкапсулируют навигацию, выборку, извлечение и дополнительные агентские шаги.
2. Какие этапы включает в себя работа WALT?
Работа WALT включает в себя этапы обнаружения и разработки с валидацией. На этапе обнаружения WALT исследует веб-сайт и предлагает кандидатов в инструменты, которые соответствуют общим целям. На этапе разработки и валидации WALT преобразует трассировки в детерминированные скрипты, стабилизирует селекторы, пытается продвигать URL, когда это возможно, индуцирует схему ввода и регистрирует инструмент только после прохождения сквозных проверок.
3. Каковы результаты работы WALT на VisualWebArena и WebArena?
На VisualWebArena WALT сообщает о среднем уровне успеха в 52,9% с результатами для каждого раздела: 64,1% на Classifieds, 53,4% на Shopping и 39,0% на Reddit. На WebArena WALT достигает среднего уровня успеха в 50,1% на GitLab, Map, Shopping, CMS, Reddit и Multi.
4. Как WALT влияет на количество действий, необходимых для выполнения задачи?
Использование инструментов WALT сокращает количество действий примерно в 1,4 раза по сравнению с соответствующим агентом без инструментов. WALT с GPT 5 mini фиксирует на 7% более высокий успех и на 27% меньше шагов, в то время как стратегия демонстрации человеком обеспечивает 66,0% успеха. Полностью автономный WALT достигает 64,1% с на 5% меньшим количеством шагов, чем в случае демонстрации человеком.
5. Какие ключевые выводы можно сделать из статьи о WALT?
Ключевые выводы из статьи о WALT включают в себя то, что WALT обнаруживает и проверяет функции, встроенные в веб-сайты, а затем представляет их в виде вызываемых инструментов со схемами ввода, стабилизацией селекторов и продвижением URL. Это преобразует хрупкие последовательности шагов в детерминированные операции и повышает успешность веб-агентов до 52,9% на VisualWebArena и 50,1% на WebArena, сокращая при этом количество действий примерно на 21,3%.