Alibaba Qwen Team выпускает Mobile-Agent-v3 и GUI-Owl: мультиагентная платформа нового поколения для автоматизации графического интерфейса пользователя

Введение: рост популярности агентов GUI

В современных вычислениях графические интерфейсы пользователя (GUI) доминируют на всех устройствах — мобильных, настольных и веб-приложениях. Традиционно автоматизация задач в этих средах ограничивалась скриптами-макросами или хрупкими, вручную созданными правилами.

Недавние достижения в области моделей, работающих с визуальной информацией и языком, открывают заманчивую возможность создания агентов, которые могут понимать экраны, планировать задачи и выполнять действия так же, как люди. Однако большинство подходов либо опирались на закрытые модели «чёрного ящика», либо сталкивались с проблемами обобщаемости, точности рассуждений и кроссплатформенной надёжности.

Команда исследователей из Alibaba Qwen представляет GUI-Owl и Mobile-Agent-v3, которые решают эти задачи.

GUI-Owl: основополагающая модель

GUI-Owl разработана с нуля для работы с неоднородностью и динамикой реальных сред GUI. Она инициализирована на основе Qwen2.5-VL, современной модели, работающей с визуальной информацией и языком, но прошла дополнительную обширную подготовку на специализированных наборах данных GUI.

Ключевые инновации в GUI-Owl:
* Единая сетевая политика. В отличие от предыдущих исследований, которые разделяли восприятие, планирование и выполнение на отдельные модули, GUI-Owl объединяет эти возможности в единую нейронную сеть. Это обеспечивает плавное принятие решений в несколько этапов и явные промежуточные рассуждения — решающие факторы для работы с неоднозначностью и изменчивостью реальных GUI.
* Масштабируемая инфраструктура обучения. Команда создала облачную виртуальную среду, охватывающую Android, Ubuntu, macOS и Windows. Этот конвейер «самоэволюционирующегося производства траекторий GUI» генерирует высококачественные данные для взаимодействия, а затем строго оценивает правильность траекторий.
* Разнообразный синтез данных. Чтобы научить модель надёжному обоснованию и рассуждениям, исследовательская группа использует различные стратегии синтеза данных: синтез задач по обоснованию элементов пользовательского интерфейса из деревьев доступности и просканированных скриншотов, дистилляция знаний по планированию задач из исторических траекторий и больших предварительно обученных LLM, генерация данных о семантике действий путём прогнозирования эффекта действий с учётом скриншотов до и после.
* Согласование с обучением с подкреплением. GUI-Owl дополнительно усовершенствована с помощью масштабируемой системы RL, которая поддерживает полностью асинхронное обучение и новый метод «Оптимизация политики с учётом траектории» (TRPO).

Mobile-Agent-v3: координация мультиагентов

Mobile-Agent-v3 — это фреймворк общего назначения, предназначенный для решения сложных, многошаговых и кроссплатформенных рабочих процессов. Он разбивает задачи на подцели, динамически обновляет планы на основе обратной связи от выполнения и поддерживает постоянную контекстуальную память.

Тренировка и конвейер данных

Основным узким местом в разработке агентов GUI является отсутствие высококачественных масштабируемых обучающих данных. Традиционные подходы полагаются на дорогостоящую ручную аннотацию, которая не масштабируется до разнообразия и динамики реальных GUI.

Команда GUI-Owl решает эту проблему с помощью самоэволюционирующегося конвейера производства данных:
* Генерация запросов. Для мобильных приложений направленный ациклический граф (DAG) с аннотацией человеком моделирует реалистичные потоки навигации и пары «слот-значение» для пользовательских входов. LLM синтезируют естественные инструкции на основе этих путей, которые дополнительно уточняются и проверяются на соответствие реальным интерфейсам приложений.
* Генерация траектории. Учитывая запрос, GUI-Owl или Mobile-Agent-v3 взаимодействуют с виртуальной средой для создания траектории — последовательности действий и переходов состояний.
* Оценка правильности траектории. Двухуровневая система критики оценивает каждый шаг (имело ли действие предполагаемый эффект?) и всю траекторию в целом (удалось ли выполнить задачу?).
* Синтез руководства. Для сложных запросов система синтезирует пошаговые инструкции на основе успешных (человеческих или модельных) траекторий, помогая агенту учиться на положительных примерах.
* Итеративное обучение. Недавно сгенерированные успешные траектории добавляются в обучающий набор, и модель переобучается, замыкая цикл самосовершенствования.

Бенчмаркинг и производительность

GUI-Owl и Mobile-Agent-v3 прошли тщательную оценку на ряде тестов автоматизации GUI, охватывающих обоснование, принятие решений в один шаг, ответы на вопросы и выполнение задач «от начала до конца».

Заключение: на пути к универсальным агентам GUI

GUI-Owl и Mobile-Agent-v3 представляют собой значительный шаг вперёд на пути к созданию универсальных автономных агентов GUI. Объединив восприятие, обоснование и действия в единую модель и создав масштабируемый самосовершенствующийся конвейер обучения, исследовательская группа достигла передовых показателей в мобильных и настольных средах, превзойдя даже крупнейшие проприетарные модели в ключевых тестах.

1. Какие ключевые инновации в GUI-Owl отличают её от предыдущих исследований в области автоматизации GUI?

GUI-Owl отличается от предыдущих исследований благодаря единой сетевой политике, которая объединяет восприятие, планирование и выполнение в единую нейронную сеть. Это обеспечивает плавное принятие решений в несколько этапов и явные промежуточные рассуждения. Кроме того, GUI-Owl использует масштабируемую инфраструктуру обучения, разнообразный синтез данных и согласование с обучением с подкреплением.

2. Какие проблемы решает Mobile-Agent-v3 в контексте автоматизации GUI?

Mobile-Agent-v3 решает проблемы координации мультиагентов для решения сложных, многошаговых и кроссплатформенных рабочих процессов. Он разбивает задачи на подцели, динамически обновляет планы на основе обратной связи от выполнения и поддерживает постоянную контекстуальную память.

3. Какие методы используются для генерации обучающих данных в системе GUI-Owl?

Для генерации обучающих данных в системе GUI-Owl используются следующие методы:
* генерация запросов с помощью LLM на основе направленных ациклических графов (DAG) с аннотацией человеком;
* генерация траектории с учётом запроса, где GUI-Owl или Mobile-Agent-v3 взаимодействуют с виртуальной средой;
* оценка правильности траектории с помощью двухуровневой системы критики;
* синтез руководства для сложных запросов на основе успешных траекторий.

4. Какие этапы включает в себя процесс обучения GUI-Owl и Mobile-Agent-v3?

Процесс обучения GUI-Owl и Mobile-Agent-v3 включает в себя следующие этапы:
* генерация запросов;
* генерация траектории;
* оценка правильности траектории;
* синтез руководства;
* итеративное обучение, где недавно сгенерированные успешные траектории добавляются в обучающий набор, и модель переобучается.

5. Какие тесты были проведены для оценки производительности GUI-Owl и Mobile-Agent-v3?

Источник