Alibaba Tongyi Lab выпускает MAI-UI: семейство базовых агентов GUI, превосходящее Gemini 2.5 Pro, Seed1.8 и UI-Tars-2 в AndroidWorld

Alibaba Tongyi Lab выпустила MAI-UI — семейство базовых агентов GUI. Оно изначально интегрирует использование инструментов MCP, взаимодействие пользователя с агентом, сотрудничество между устройствами и облаком, а также онлайн-обучение с подкреплением (RL), устанавливая современные результаты в общем обосновании GUI и навигации по мобильному GUI, превосходя Gemini-2.5-Pro, Seed1.8 и UI-Tars-2 в AndroidWorld.

Система нацелена на три конкретных пробела, которые часто игнорируют ранние агенты GUI:
* взаимодействие пользователя с агентом;
* интеграция инструментов MCP;
* архитектура сотрудничества между устройствами и облаком, которая сохраняет конфиденциальную работу на устройстве, но при необходимости использует крупные облачные модели.

Что такое MAI-UI?

MAI-UI — это семейство мультимодальных агентов GUI, построенных на Qwen3 VL, с размерами моделей 2B, 8B, 32B и 235B A22B. Эти модели принимают инструкции на естественном языке и скриншоты пользовательского интерфейса в качестве входных данных, а затем выводят структурированные действия для живой среды Android.

Пространство действий охватывает стандартные операции, такие как нажатие на элементы, пролистывание, ввод текста и нажатие системных кнопок. Кроме того, MAI-UI вводит явные действия для ответа на вопросы пользователя, запроса у пользователя уточнений, когда цель неоднозначна, и вызова внешних инструментов через вызовы MCP. Это позволяет агенту смешивать шаги GUI, прямые языковые ответы и операции на уровне API в одной траектории.

С точки зрения моделирования MAI UI объединяет три компонента:
* самоэволюционирующий конвейер навигационных данных, который включает взаимодействие с пользователем и случаи MCP;
* онлайн-фреймворк RL, который масштабируется до сотен параллельных экземпляров Android и длинных контекстов;
* нативная система сотрудничества между устройствами и облаком, которая маршрутизирует выполнение на основе состояния задачи и ограничений конфиденциальности.

Обоснование GUI с помощью инструкций

Основным требованием для любого агента GUI является обоснование, сопоставление языка в свободной форме, например, «открыть настройки ежемесячного биллинга», с правильным элементом на экране. MAI-UI использует стратегию обоснования пользовательского интерфейса, вдохновлённую более ранней работой UI-Ins над многоперспективными описаниями инструкций.

Для каждого элемента пользовательского интерфейса обучающий конвейер не полагается на одну подпись. Вместо этого он генерирует несколько представлений одного и того же элемента, например, внешний вид, функцию, пространственное расположение и намерение пользователя. Эти множественные инструкции рассматриваются как доказательства рассуждений для модели, которая должна выбрать точку внутри правильной ограничивающей рамки. Это снижает влияние ошибочных или недостаточно точных инструкций — проблему, которую UI Ins количественно определил в существующих наборах данных.

Поля с истинными значениями собираются из набора тщательно отобранных данных GUI и крупномасштабного исследования виртуализированных операционных систем в контейнеризированных средах. Деревья доступности или синтаксические анализаторы на основе OCR используются для выравнивания текстовых метаданных с расположением пикселей.

Цель обучения сочетает в себе контролируемую тонкую настройку с простым сигналом подкрепления, который вознаграждает за правильные предсказания внутри ограничивающей рамки и за допустимый формат вывода.

На общедоступных бенчмарках по обоснованию GUI модели MAI-UI достигают 73,5% точности на ScreenSpot Pro с адаптивным масштабированием, 91,3% на MMBench GUI L2, 70,9% на OSWorld G и 49,2% на UI Vision. Эти показатели превосходят Gemini 3 Pro и Seed1.8 на ScreenSpot Pro и значительно превосходят более ранние открытые модели на UI Vision.

Самоэволюционирующийся навигационный поток данных и MobileWorld

Навигация сложнее обоснования, потому что агент должен поддерживать контекст на протяжении многих шагов, возможно, между приложениями, взаимодействуя с пользователем и инструментами. Для построения надёжного навигационного поведения Tongyi Lab использует самоэволюционирующийся поток данных.

Исходные задачи берутся из руководств по приложениям, специально разработанных сценариев и отфильтрованных открытых данных. Такие параметры, как даты, ограничения и значения фильтров, изменяются для расширения охвата, а замены на уровне объектов применяются в рамках одного и того же варианта использования.

Несколько агентов вместе с людьми-аннотаторами выполняют эти задачи в средах Android для создания траекторий. Модель-судья затем оценивает эти траектории, сохраняет самые длинные правильные префиксы и отфильтровывает низкокачественные сегменты. Следующий раунд контролируемого обучения использует объединение свежих человеческих следов и высококачественных развёртываний модели, так что распределение данных постепенно соответствует текущей политике.

MAI UI оценивается на MobileWorld — бенчмарке, который включает 201 задачу в 20 приложениях. MobileWorld явно смешивает три категории:
* чистые задачи GUI;
* задачи взаимодействия пользователя с агентом, требующие естественного языкового взаимодействия с пользователем;
* задачи, дополненные MCP, которые требуют вызова инструментов.

На MobileWorld MAI UI достигает 41,7% общего успеха, что примерно на 20,8 пунктов больше, чем у самых сильных базовых линий GUI, и конкурирует с агентскими фреймворками, которые используют более крупные проприетарные планировщики, такие как Gemini 3 Pro.

Онлайн-RL в контейнеризированных средах Android

Статических данных недостаточно для надёжности в динамических мобильных приложениях. Поэтому MAI-UI использует онлайн-фреймворк RL, где агент взаимодействует напрямую с контейнеризированными виртуальными устройствами Android.

Стек среды упаковывает корневые образы AVD и серверные службы в контейнеры Docker, предоставляет стандартные операции сброса и шага через слой служб и поддерживает более 35 размещённых приложений из категорий электронной коммерции, социальных сетей, производительности и предприятий.

Настройка RL использует асинхронный метод on policy, GRPO, реализованный поверх verl. Он сочетает тензорный, конвейерный и контекстный параллелизм, аналогичный обучению в стиле Megatron, так что модель может учиться на траекториях с количеством шагов до 50 и очень длинными последовательностями токенов.

Награда поступает от верификаторов на основе правил или судей моделей, которые обнаруживают завершение задачи, а также штрафы за очевидное циклическое поведение. Только недавние успешные траектории сохраняются в буферах для задач, чтобы стабилизировать обучение.

Масштабирование этой среды RL имеет практическое значение. Исследовательская группа показывает, что увеличение количества параллельных GUI-сред с 32 до 512 даёт примерно 5,2 процентных пункта улучшения в успехе навигации, а увеличение количества шагов в среде с 15 до 50 добавляет ещё 4,3 пункта.

На бенчмарке AndroidWorld, который оценивает онлайн-навигацию в стандартном наборе приложений Android, крупнейший вариант MAI UI достигает 76,7% успеха, превосходя UI-Tars-2, Gemini 2.5 Pro и Seed1.8.

Ключевые выводы

* Объединённое семейство агентов GUI для мобильных устройств: MAI-UI — это семейство агентов GUI на основе Qwen3 VL от 2B до 235B A22B, разработанное специально для реального развёртывания на мобильных устройствах с учётом взаимодействия пользователя с агентом, вызовов инструментов MCP и маршрутизации между устройствами и облаком.
* Современное обоснование GUI и навигация: модели достигают 73,5% на ScreenSpot Pro, 91,3% на MMBench GUI L2, 70,9% на OSWorld G и 49,2% на UI Vision, а также устанавливают новый рекорд 76,7% на AndroidWorld мобильной навигации, превосходя UI Tars 2, Gemini 2.5 Pro и Seed1.8.
* Реалистичная производительность в MobileWorld с учётом взаимодействия и инструментов: на бенчмарке MobileWorld с 201 задачей в 20 приложениях MAI UI 235B A22B достигает 41,7% общего успеха, с 39,7% по чистым задачам GUI, 51,1% по задачам взаимодействия пользователя с агентом и 37,5% по задачам, дополненным MCP, превосходя лучший базовый уровень GUI Doubao 1.5 UI TARS на 20,9%.
* Масштабируемое онлайн-RL в контейнеризированных средах Android: MAI-UI использует онлайн-фреймворк RL на основе GRPO в контейнеризированных средах Android, где масштабирование с 32 до 512 параллельных сред даёт около 5,2 пункта в успехе навигации, а увеличение бюджета шагов в среде с 15 до 50 даёт ещё 4,3 пункта.

1. Какие основные проблемы решают агенты GUI, и как MAI-UI подходит к их решению?

Ответ: агенты GUI часто игнорируют взаимодействие пользователя с агентом, интеграцию инструментов MCP и архитектуру сотрудничества между устройствами и облаком. MAI-UI решает эти проблемы путём интеграции использования инструментов MCP, взаимодействия пользователя с агентом и сотрудничества между устройствами и облаком, а также онлайн-обучения с подкреплением (RL).

2. Какие компоненты включает в себя моделирование MAI-UI?

Ответ: моделирование MAI-UI включает в себя три компонента: самоэволюционирующийся конвейер навигационных данных, онлайн-фреймворк RL и нативную систему сотрудничества между устройствами и облаком.

3. Какие показатели точности достигают модели MAI-UI на различных бенчмарках?

Ответ: модели MAI-UI достигают 73,5% точности на ScreenSpot Pro с адаптивным масштабированием, 91,3% на MMBench GUI L2, 70,9% на OSWorld G и 49,2% на UI Vision. На бенчмарке AndroidWorld крупнейший вариант MAI UI достигает 76,7% успеха.

4. Как MAI-UI использует онлайн-RL в контейнеризированных средах Android?

Ответ: MAI-UI использует онлайн-фреймворк RL, где агент взаимодействует напрямую с контейнеризированными виртуальными устройствами Android. Это позволяет агенту учиться на траекториях с количеством шагов до 50 и очень длинными последовательностями токенов.

5. Какие преимущества даёт использование MAI-UI в сравнении с другими моделями?

Ответ: MAI-UI превосходит Gemini 2.5 Pro, Seed1.8 и UI-Tars-2 в AndroidWorld, устанавливая современные результаты в общем обосновании GUI и навигации по мобильному GUI. Это достигается за счёт интеграции использования инструментов MCP, взаимодействия пользователя с агентом, сотрудничества между устройствами и облаком, а также онлайн-обучения с подкреплением (RL).

Источник