Агенты, используемые для работы с компьютером, ограничены примитивными действиями: они могут нажимать, вводить текст, прокручивать. Длинные цепочки действий увеличивают количество ошибок и приводят к лишним шагам. Исследователи из Apple представляют UltraCUA — модель, которая создаёт гибридное пространство действий, позволяя агенту чередовать низкоуровневые действия с графическим интерфейсом (GUI) с высокоуровневыми программными вызовами инструментов.
Как работает гибридное действие?
Гибридное действие рассматривает инструменты как действия первого класса. Вызов инструмента объединяет многошаговую операцию в единую функцию с чёткой сигнатурой и документацией. Нажатие клавиши или кнопки по-прежнему существует, когда нет доступного программного пути. Агент учится чередовать оба режима. Цель — уменьшить каскадные ошибки и сократить количество шагов.
Исследовательская группа позиционирует это как мост между агентами, ориентированными только на GUI, и фреймворками, ориентированными на инструменты.
Масштабируемое приобретение инструментов
UltraCUA создаёт свою библиотеку инструментов с помощью автоматизированного конвейера. Система извлекает сочетания клавиш и команды из документации программного обеспечения. Она интегрирует реализации с открытым исходным кодом из наборов инструментов агентов. Также система использует агентов кодирования для синтеза новых инструментов. Каждый инструмент — это вызываемый интерфейс, который скрывает длинную последовательность действий с графическим интерфейсом.
Исследовательская группа сообщает о покрытии 10 настольных доменов с 881 инструментом. Крупнейшие группы включают VS Code (135 инструментов) и LibreOffice Writer (123 инструмента). Thunderbird и GIMP также имеют глубокое покрытие.
Проверяемые синтетические задачи и траектории
Для обучения требуется обоснованный надзор и стабильные вознаграждения. UltraCUA использует двойной синтетический движок. Сначала конвейер-оценщик составляет атомарные верификаторы для браузеров, файлов, изображений и состояния системы, затем генерирует задачи, удовлетворяющие этим проверкам. Затем конвейер с инструкциями исследует ОС и предлагает задачи, соответствующие контексту, которые затем проверяются.
Результатом является 17 864 проверяемых задачи в 10 доменах, таких как Chrome, LibreOffice, GIMP, VS Code, система, Thunderbird, VLC и многозадачные рабочие процессы. В Chrome — 2 826 задач. Набор инструментов LibreOffice составляет 5 885 задач. Многозадачные задачи достигают 2 113.
Многоагентный развёртывание производит успешные гибридные траектории. Планировщик использует OpenAI o3 для принятия решений. Локализатор использует GTA1-7B для точной визуальной локализации. Развёртывание даёт около 26,8 тыс. успешных траекторий, которые показывают, когда использовать инструмент, а когда действовать в GUI. Эти траектории являются основой контролируемой фазы.
Подход к обучению
Обучение состоит из двух этапов. Этап 1 — контролируемая точная настройка. Модели обучаются в течение 3 эпох со скоростью обучения 2e-5 на успешных траекториях. Потери применяются по очереди, чтобы избежать чрезмерного взвешивания ранних шагов. Этап 2 — онлайн-обучение с подкреплением. Модели обучаются в течение 150 шагов со скоростью обучения 1e-6 на проверенных задачах, которые выбираются по сложности.
Эксперименты используют NVIDIA H100 GPU. Контекст поддерживается около 32 тыс. за счёт контроля количества доступных инструментов.
Результаты в OSWorld
UltraCUA улучшает успех как при 7-битной, так и при 32-битной масштабировании. При бюджете в 15 шагов UltraCUA-32B достигает 41% успеха. OpenCUA-32B достигает 29,7% успеха. Абсолютный прирост составляет 11,3 пункта. UltraCUA-7B достигает 28,9% успеха. UI-TARS-1,5-7B достигает 23,4% успеха.
При бюджете в 50 шагов результаты показывают последовательное улучшение по доменам Chrome, Writer, VS Code и задачам с несколькими приложениями. Среднее количество шагов уменьшается по сравнению с базовыми показателями. Эти сдвиги указывают на лучший выбор действий, а не только на большее количество попыток.
Перенос на другие платформы в WindowsAgentArena
UltraCUA обучается только на данных OSWorld, основанных на Ubuntu. Затем модель оценивается в WindowsAgentArena. UltraCUA-7B достигает 21,7% успеха. Это превышает UI-TARS-1,5-7B на 18,1% и базовую линию Qwen2, обученную на данных Windows, на 13,5%.
Результат показывает, что гибридные стратегии действий, изученные на одной платформе, переносятся на другие платформы. В статье это подчёркивается как обобщение платформы без обучения.
Ключевые выводы
UltraCUA формализует гибридное пространство действий, позволяя одному агенту чередовать действия с графическим интерфейсом и программные вызовы инструментов, что сокращает длинные цепочки действий, подверженные ошибкам.
Исследовательская группа масштабирует повторно используемую библиотеку инструментов с помощью автоматизированного конвейера и объединяет её с механизмом синтетических данных, который выдаёт более 17 тыс. проверяемых задач для обучения и оценки.
Обучение состоит из двух этапов: контролируемая точная настройка на успешных гибридных траекториях, затем онлайн-обучение с подкреплением на проверяемых задачах, которое оптимизирует, когда вызывать инструменты и когда действовать в GUI.
В OSWorld UltraCUA сообщает о среднем улучшении на 22% по сравнению с базовыми моделями и на 11% меньше шагов, что указывает на повышение надёжности и эффективности.
Модель 7B достигает 21,7% успеха в WindowsAgentArena без специальной подготовки для Windows, что показывает обобщение политики гибридных действий на других платформах.
Редакционные комментарии
UltraCUA переводит агентов, используемых для работы с компьютером, от хрупких цепочек примитивных действий к гибридной политике действий, интегрируя примитивы GUI с программными вызовами инструментов, что уменьшает распространение ошибок и количество шагов.
1. Какие проблемы решает модель UltraCUA при работе с компьютерными агентами?
UltraCUA решает проблему длинных цепочек действий, которые увеличивают количество ошибок и приводят к лишним шагам при работе с компьютерными агентами. Модель позволяет чередовать низкоуровневые действия с графическим интерфейсом (GUI) с высокоуровневыми программными вызовами инструментов, что сокращает количество шагов и уменьшает вероятность ошибок.
2. Как работает гибридное действие в модели UltraCUA?
Гибридное действие в модели UltraCUA рассматривает инструменты как действия первого класса. Вызов инструмента объединяет многошаговую операцию в единую функцию с чёткой сигнатурой и документацией. Агент учится чередовать низкоуровневые действия с графическим интерфейсом и высокоуровневые программные вызовы инструментов.
3. Какие этапы включает в себя обучение модели UltraCUA?
Обучение модели UltraCUA состоит из двух этапов:
* Контролируемая точная настройка на успешных гибридных траекториях.
* Онлайн-обучение с подкреплением на проверяемых задачах, которое оптимизирует, когда вызывать инструменты и когда действовать в GUI.
4. Какие результаты показывает модель UltraCUA в OSWorld?
В OSWorld UltraCUA показывает среднее улучшение на 22% по сравнению с базовыми моделями и на 11% меньше шагов, что указывает на повышение надёжности и эффективности. При бюджете в 15 шагов UltraCUA-32B достигает 41% успеха, а при бюджете в 50 шагов результаты показывают последовательное улучшение по доменам Chrome, Writer, VS Code и задачам с несколькими приложениями.
5. Как модель UltraCUA справляется с переносом на другие платформы?
Модель UltraCUA обучается только на данных OSWorld, основанных на Ubuntu, а затем оценивается в WindowsAgentArena. UltraCUA-7B достигает 21,7% успеха в WindowsAgentArena без специальной подготовки для Windows, что показывает обобщение политики гибридных действий на других платформах.