UltraCUA: модель для агентов использования компьютера, которая объединяет общие графические пользовательские интерфейсы (GUI) и специализированные агенты на основе API

Агенты, используемые для работы с компьютером, ограничены примитивными действиями: они могут нажимать, вводить текст, прокручивать. Длинные цепочки действий увеличивают количество ошибок и приводят к лишним шагам. Исследователи из Apple представляют UltraCUA — модель, которая создаёт гибридное пространство действий, позволяя агенту чередовать низкоуровневые действия с графическим интерфейсом (GUI) с высокоуровневыми программными вызовами инструментов.

Как работает гибридное действие?

Гибридное действие рассматривает инструменты как действия первого класса. Вызов инструмента объединяет многошаговую операцию в единую функцию с чёткой сигнатурой и документацией. Нажатие клавиши или кнопки по-прежнему существует, когда нет доступного программного пути. Агент учится чередовать оба режима. Цель — уменьшить каскадные ошибки и сократить количество шагов.

Исследовательская группа позиционирует это как мост между агентами, ориентированными только на GUI, и фреймворками, ориентированными на инструменты.

Масштабируемое приобретение инструментов

UltraCUA создаёт свою библиотеку инструментов с помощью автоматизированного конвейера. Система извлекает сочетания клавиш и команды из документации программного обеспечения. Она интегрирует реализации с открытым исходным кодом из наборов инструментов агентов. Также система использует агентов кодирования для синтеза новых инструментов. Каждый инструмент — это вызываемый интерфейс, который скрывает длинную последовательность действий с графическим интерфейсом.

Исследовательская группа сообщает о покрытии 10 настольных доменов с 881 инструментом. Крупнейшие группы включают VS Code (135 инструментов) и LibreOffice Writer (123 инструмента). Thunderbird и GIMP также имеют глубокое покрытие.

Проверяемые синтетические задачи и траектории

Для обучения требуется обоснованный надзор и стабильные вознаграждения. UltraCUA использует двойной синтетический движок. Сначала конвейер-оценщик составляет атомарные верификаторы для браузеров, файлов, изображений и состояния системы, затем генерирует задачи, удовлетворяющие этим проверкам. Затем конвейер с инструкциями исследует ОС и предлагает задачи, соответствующие контексту, которые затем проверяются.

Результатом является 17 864 проверяемых задачи в 10 доменах, таких как Chrome, LibreOffice, GIMP, VS Code, система, Thunderbird, VLC и многозадачные рабочие процессы. В Chrome — 2 826 задач. Набор инструментов LibreOffice составляет 5 885 задач. Многозадачные задачи достигают 2 113.

Многоагентный развёртывание производит успешные гибридные траектории. Планировщик использует OpenAI o3 для принятия решений. Локализатор использует GTA1-7B для точной визуальной локализации. Развёртывание даёт около 26,8 тыс. успешных траекторий, которые показывают, когда использовать инструмент, а когда действовать в GUI. Эти траектории являются основой контролируемой фазы.

Подход к обучению

Обучение состоит из двух этапов. Этап 1 — контролируемая точная настройка. Модели обучаются в течение 3 эпох со скоростью обучения 2e-5 на успешных траекториях. Потери применяются по очереди, чтобы избежать чрезмерного взвешивания ранних шагов. Этап 2 — онлайн-обучение с подкреплением. Модели обучаются в течение 150 шагов со скоростью обучения 1e-6 на проверенных задачах, которые выбираются по сложности.

Эксперименты используют NVIDIA H100 GPU. Контекст поддерживается около 32 тыс. за счёт контроля количества доступных инструментов.

Результаты в OSWorld

UltraCUA улучшает успех как при 7-битной, так и при 32-битной масштабировании. При бюджете в 15 шагов UltraCUA-32B достигает 41% успеха. OpenCUA-32B достигает 29,7% успеха. Абсолютный прирост составляет 11,3 пункта. UltraCUA-7B достигает 28,9% успеха. UI-TARS-1,5-7B достигает 23,4% успеха.

При бюджете в 50 шагов результаты показывают последовательное улучшение по доменам Chrome, Writer, VS Code и задачам с несколькими приложениями. Среднее количество шагов уменьшается по сравнению с базовыми показателями. Эти сдвиги указывают на лучший выбор действий, а не только на большее количество попыток.

Перенос на другие платформы в WindowsAgentArena

UltraCUA обучается только на данных OSWorld, основанных на Ubuntu. Затем модель оценивается в WindowsAgentArena. UltraCUA-7B достигает 21,7% успеха. Это превышает UI-TARS-1,5-7B на 18,1% и базовую линию Qwen2, обученную на данных Windows, на 13,5%.

Результат показывает, что гибридные стратегии действий, изученные на одной платформе, переносятся на другие платформы. В статье это подчёркивается как обобщение платформы без обучения.

Ключевые выводы

UltraCUA формализует гибридное пространство действий, позволяя одному агенту чередовать действия с графическим интерфейсом и программные вызовы инструментов, что сокращает длинные цепочки действий, подверженные ошибкам.

Исследовательская группа масштабирует повторно используемую библиотеку инструментов с помощью автоматизированного конвейера и объединяет её с механизмом синтетических данных, который выдаёт более 17 тыс. проверяемых задач для обучения и оценки.

Обучение состоит из двух этапов: контролируемая точная настройка на успешных гибридных траекториях, затем онлайн-обучение с подкреплением на проверяемых задачах, которое оптимизирует, когда вызывать инструменты и когда действовать в GUI.

В OSWorld UltraCUA сообщает о среднем улучшении на 22% по сравнению с базовыми моделями и на 11% меньше шагов, что указывает на повышение надёжности и эффективности.

Модель 7B достигает 21,7% успеха в WindowsAgentArena без специальной подготовки для Windows, что показывает обобщение политики гибридных действий на других платформах.

Редакционные комментарии

UltraCUA переводит агентов, используемых для работы с компьютером, от хрупких цепочек примитивных действий к гибридной политике действий, интегрируя примитивы GUI с программными вызовами инструментов, что уменьшает распространение ошибок и количество шагов.

1. Какие проблемы решает модель UltraCUA при работе с компьютерными агентами?

UltraCUA решает проблему длинных цепочек действий, которые увеличивают количество ошибок и приводят к лишним шагам при работе с компьютерными агентами. Модель позволяет чередовать низкоуровневые действия с графическим интерфейсом (GUI) с высокоуровневыми программными вызовами инструментов, что сокращает количество шагов и уменьшает вероятность ошибок.

2. Как работает гибридное действие в модели UltraCUA?

Гибридное действие в модели UltraCUA рассматривает инструменты как действия первого класса. Вызов инструмента объединяет многошаговую операцию в единую функцию с чёткой сигнатурой и документацией. Агент учится чередовать низкоуровневые действия с графическим интерфейсом и высокоуровневые программные вызовы инструментов.

3. Какие этапы включает в себя обучение модели UltraCUA?

Обучение модели UltraCUA состоит из двух этапов:
* Контролируемая точная настройка на успешных гибридных траекториях.
* Онлайн-обучение с подкреплением на проверяемых задачах, которое оптимизирует, когда вызывать инструменты и когда действовать в GUI.

4. Какие результаты показывает модель UltraCUA в OSWorld?

В OSWorld UltraCUA показывает среднее улучшение на 22% по сравнению с базовыми моделями и на 11% меньше шагов, что указывает на повышение надёжности и эффективности. При бюджете в 15 шагов UltraCUA-32B достигает 41% успеха, а при бюджете в 50 шагов результаты показывают последовательное улучшение по доменам Chrome, Writer, VS Code и задачам с несколькими приложениями.

5. Как модель UltraCUA справляется с переносом на другие платформы?

Модель UltraCUA обучается только на данных OSWorld, основанных на Ubuntu, а затем оценивается в WindowsAgentArena. UltraCUA-7B достигает 21,7% успеха в WindowsAgentArena без специальной подготовки для Windows, что показывает обобщение политики гибридных действий на других платформах.

Источник