Google AI представляет Gemini 2.5 «Computer Use» (предварительный просмотр): модель управления браузером для взаимодействия ИИ-агентов с пользовательскими интерфейсами

Что такое Gemini 2.5 «Computer Use»?

Это специализированная версия Gemini 2.5, которая планирует и выполняет реальные действия с пользовательским интерфейсом в работающем браузере через ограниченный API действий. Модель доступна в виде предварительной версии через Google AI Studio и Vertex AI. Она нацелена на автоматизацию веб-процессов и тестирование пользовательских интерфейсов.

Какие возможности предоставляет модель?

Разработчики вызывают новый инструмент computeruse, который возвращает вызовы функций, таких как clickat, typetextat или draganddrop. Клиентский код выполняет действие (например, Playwright/Browserbase), захватывает новый скриншот/URL и зацикливается до завершения задачи или пока правило безопасности не заблокирует её.

Поддерживаемое пространство действий включает 13 предопределённых действий с пользовательским интерфейсом — openwebbrowser, wait5seconds, goback, goforward, search, navigate, clickat, hoverat, typetextat, keycombination, scrolldocument, scrollat, draganddrop — и может быть расширено с помощью пользовательских функций (например, openapp, longpressat, go_home) для поверхностей, отличных от браузера.

Каковы ограничения модели?

Модель оптимизирована для веб-браузеров. Google заявляет, что она ещё не оптимизирована для управления на уровне настольных ОС; мобильные сценарии работают путём замены пользовательских действий в том же цикле. Встроенный монитор безопасности может блокировать запрещённые действия или требовать подтверждения пользователя перед выполнением операций с высокими ставками (платежи, отправка сообщений, доступ к конфиденциальным записям).

Результаты тестирования производительности

* Online-Mind2Web (официальный): 69,0% pass@1 (оценки, сделанные людьми), подтверждённые организаторами бенчмарка.
* Browserbase matched harness: лидирует среди конкурирующих API для использования компьютеров как по точности, так и по задержке в Online-Mind2Web и WebVoyager в идентичных условиях.
* AndroidWorld (мобильная генерализация): 69,7% по данным Google; достигнуто через тот же цикл API с пользовательскими мобильными действиями и без учёта действий в браузере.

Ранние производственные сигналы

* Автоматизированный ремонт тестов пользовательского интерфейса: команда платёжной платформы Google сообщает, что модель восстанавливает >60% ранее неудачных автоматических тестов пользовательского интерфейса.
* Оперативная скорость: Poke.com (ранний внешний тестер) сообщает, что рабочие процессы часто примерно на 50% быстрее по сравнению с их лучшим альтернативным вариантом.

Комментарии редакции

Gemini 2.5 «Computer Use» находится в открытом предварительном просмотре через Google AI Studio и Vertex AI; он предоставляет ограниченный API с 13 документированными действиями с пользовательским интерфейсом и требует исполнителя на стороне клиента. Материалы Google и карточка модели сообщают о результатах, соответствующих уровню техники в тестах управления веб- и мобильными устройствами, а согласованный механизм Browserbase показывает ~65,7% pass@1 в Online-Mind2Web с минимальной задержкой в идентичных условиях.

Ознакомьтесь с подробностями на странице GitHub и техническими деталями. Не стесняйтесь посетить нашу страницу GitHub для ознакомления с учебными пособиями, кодами и ноутбуками. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.

1. Какие возможности предоставляет модель Gemini 2.5 «Computer Use» для разработчиков?

Модель предоставляет разработчикам инструмент computer_use, который возвращает вызовы функций для взаимодействия с пользовательским интерфейсом в браузере. Среди поддерживаемых действий — открытие веб-браузера, ожидание, переход назад и вперёд, поиск, навигация, клик, наведение курсора, ввод текста, комбинация клавиш, прокрутка документа и другие. Клиентский код выполняет действие, захватывает новый скриншот или URL и зацикливается до завершения задачи.

2. Какие ограничения существуют у модели Gemini 2.5 «Computer Use»?

Модель оптимизирована для веб-браузеров и пока не оптимизирована для управления на уровне настольных ОС. Мобильные сценарии работают путём замены пользовательских действий в том же цикле. Встроенный монитор безопасности может блокировать запрещённые действия или требовать подтверждения пользователя перед выполнением операций с высокими ставками.

3. Каковы результаты тестирования производительности модели Gemini 2.5 «Computer Use»?

Результаты тестирования производительности модели Gemini 2.5 «Computer Use» включают:
* Online-Mind2Web (официальный): 69,0% pass@1 (оценки, сделанные людьми), подтверждённые организаторами бенчмарка.
* Browserbase matched harness: лидирует среди конкурирующих API для использования компьютеров как по точности, так и по задержке в Online-Mind2Web и WebVoyager в идентичных условиях.
* AndroidWorld (мобильная генерализация): 69,7% по данным Google.

4. Как модель Gemini 2.5 «Computer Use» может быть использована для автоматизации тестирования пользовательских интерфейсов?

Команда платёжной платформы Google сообщает, что модель восстанавливает более 60% ранее неудачных автоматических тестов пользовательского интерфейса. Это свидетельствует о том, что модель может быть использована для автоматизации тестирования пользовательских интерфейсов и повышения их качества.

5. Какие инструменты и ресурсы доступны для ознакомления с моделью Gemini 2.5 «Computer Use»?

Для ознакомления с моделью Gemini 2.5 «Computer Use» доступны следующие инструменты и ресурсы:
* Страница GitHub с учебными пособиями, кодами и ноутбуками.
* Подписка на рассылку.
* Сообщество в ML SubReddit (более 100 тысяч участников).

Источник