Salesforce AI выпустила GTA1: агент с графическим пользовательским интерфейсом, который превосходит CUA от OpenAI

Компания Salesforce AI Research представила GTA1 — нового агента с графическим пользовательским интерфейсом (GUI), который меняет представление о передовых технологиях в области взаимодействия человека и компьютера.

GTA1 предназначен для автономной работы в реальных средах операционных систем, таких как Linux. Агент решает две критические проблемы в разработке GUI-агентов: неоднозначное планирование задач и неточная привязка действий.

С показателем успешности выполнения задач 45,2% в бенчмарке OSWorld GTA1 превосходит CUA (Computer-Using Agent) от OpenAI, устанавливая новый рекорд среди моделей с открытым исходным кодом.

Основные проблемы в GUI-агентах

GUI-агенты обычно переводят инструкции пользователя высокого уровня в последовательности действий — клики, нажатия клавиш или взаимодействия с пользовательским интерфейсом (UI), — отслеживая обновления пользовательского интерфейса после каждого действия для планирования последующих шагов. Однако две проблемы остаются нерешёнными:

1. Неоднозначность планирования: несколько допустимых последовательностей действий могут выполнить задачу, что приводит к различным по эффективности и надёжности путям выполнения.
2. Точность привязки: перевод абстрактных предложений действий в точные взаимодействия с GUI на уровне координат особенно сложен в динамических интерфейсах с высоким разрешением.

GTA1 предлагает новые механизмы для решения обеих проблем.

Умное планирование с помощью масштабирования во время тестирования

Традиционные планировщики принимают одно предложение действия в каждой точке принятия решения, что ограничивает надёжность. Масштабирование во время тестирования в GTA1 представляет собой простое, но эффективное решение: одновременно выбирать несколько вариантов действий на каждом шаге и использовать мультимодальную модель-судью — обычно большую языковую модель — для оценки и выбора наиболее подходящего.

Этот метод позволяет избежать преждевременного принятия неоптимальных планов и позволяет агенту лучше исследовать пути выполнения без необходимости последующего развёртывания, что невозможно в GUI-средах из-за необратимости действий. Важно отметить, что этот метод может работать с любым планировщиком и хорошо масштабируется с увеличением сложности задачи и размера пространства действий.

Обучение с подкреплением для повышения точности привязки

Для привязки к GUI большинство предыдущих моделей полагаются на контролируемую тонкую настройку для прогнозирования центра целевых элементов пользовательского интерфейса, что ограничивает обобщение. GTA1 использует фреймворк обучения с подкреплением (RL), основанный на групповой относительной оптимизации политики (GRPO).

Модель обучается непосредственно на основе вознаграждений, основанных на кликах: она получает вознаграждение только тогда, когда прогнозируемая координата попадает в правильный элемент пользовательского интерфейса.

Благодаря такой структуре вознаграждений GTA1 достигает современной точности без сложности или накладных расходов, связанных с контролем за цепочкой рассуждений. Примечательно, что исследование методом удаления показывает, что удаление вспомогательных сигналов, таких как «размышления» или вознаграждения на основе IoU, фактически улучшает производительность привязки — особенно в статических средах.

Результаты по различным бенчмаркам

GTA1 устанавливает новый стандарт в нескольких оценках:

* OSWorld (успешность выполнения задач): GTA1-7B достигает 45,2%, превосходя OpenAI CUA (42,9%) и Claude 3.7 (28,0%).
* ScreenSpot-Pro (точность привязки): GTA1-7B набирает 50,1%, опережая такие модели, как UGround-72B (34,5%).
* ScreenSpot-V2 (кроссплатформенная привязка): GTA1-72B достигает 94,8%, почти соответствуя топовым проприетарным моделям.
* OSWorld-G (привязка к Linux GUI): GTA1-7B достигает 67,7%, превосходя все предыдущие подходы с открытым исходным кодом.

Эти результаты подтверждают эффективность как планирования, так и инноваций в области привязки, представленных в GTA1.

Дополнительные особенности дизайна

* Очистка данных: несогласованные аннотации из таких наборов данных, как Aria-UI и OS-Atlas, фильтруются с помощью OmniParser для повышения точности обучающего сигнала.
* Масштабирование модели: подход хорошо масштабируется для моделей от 7B до 72B параметров, причём GTA1-7B предлагает лучший компромисс между производительностью и вычислениями.
* Многозадачность модели-судьи: мультимодальная модель-судья, используемая при масштабировании во время тестирования, может быть той же языковой моделью, которая используется для планирования, что снижает накладные расходы.

Заключение

GTA1 демонстрирует, что надёжных и точных GUI-агентов можно создавать с помощью модульной двухэтапной структуры, усиленной разнообразием планирования во время тестирования и точной привязкой на основе RL. Отказавшись от ненужной сложности, такой как цепочка рассуждений в статических задачах, Salesforce AI представила экономичную и эффективную архитектуру агентов, которая продвигает границы в открытых цифровых взаимодействиях.

1. Какие проблемы в разработке GUI-агентов решает GTA1 и как он это делает?

GTA1 решает две критические проблемы в разработке GUI-агентов: неоднозначное планирование задач и неточная привязка действий. Для решения этих проблем GTA1 использует масштабирование во время тестирования и обучение с подкреплением для повышения точности привязки.

2. Какие результаты показал GTA1 в различных бенчмарках и как они сравниваются с другими моделями?

В бенчмарке OSWorld GTA1 достигает показателя успешности выполнения задач 45,2%, что превосходит CUA от OpenAI (42,9%) и Claude 3.7 (28,0%). В ScreenSpot-Pro GTA1 набирает 50,1%, опережая UGround-72B (34,5%). В ScreenSpot-V2 GTA1-72B достигает 94,8%, почти соответствуя топовым проприетарным моделям. В OSWorld-G GTA1-7B достигает 67,7%, превосходя все предыдущие подходы с открытым исходным кодом.

3. Какие дополнительные особенности дизайна используются в GTA1 для повышения его эффективности?

Дополнительные особенности дизайна GTA1 включают:
* очистку данных с помощью OmniParser для повышения точности обучающего сигнала;
* масштабирование модели от 7B до 72B параметров;
* использование мультимодальной модели-судьи, которая может быть той же языковой моделью, что и используется для планирования, что снижает накладные расходы.

4. Какие преимущества предлагает GTA1 по сравнению с традиционными планировщиками и предыдущими моделями?

GTA1 предлагает несколько преимуществ по сравнению с традиционными планировщиками и предыдущими моделями:
* более надёжное планирование за счёт одновременного выбора нескольких вариантов действий на каждом шаге;
* более высокая точность привязки к GUI за счёт использования обучения с подкреплением;
* возможность масштабирования модели для работы с различными задачами и размерами пространства действий;
* снижение накладных расходов за счёт использования одной и той же модели для планирования и оценки вариантов действий.

5. Какие выводы можно сделать из представленного текста о будущем GUI-агентов и их развитии?

Из представленного текста можно сделать вывод, что будущее GUI-агентов связано с разработкой более надёжных и точных систем, которые могут эффективно решать задачи в реальных средах. GTA1 демонстрирует, что модульные двухэтапные структуры, усиленные разнообразием планирования во время тестирования и точной привязкой на основе RL, могут продвинуть границы в открытых цифровых взаимодействиях. Это указывает на то, что в будущем мы можем ожидать ещё более совершенных и эффективных GUI-агентов.

Источник