Gemini Robotics 1.5: технология DeepMind выводит агентских роботов в реальный мир

Может ли один стек ИИ планировать как исследователь, рассуждать о сценах и передавать движения между разными роботами — без переобучения с нуля? Компания Google DeepMind утверждает, что может, благодаря разделению телесного интеллекта на две модели: Gemini Robotics-ER 1.5 для высокоуровневого телесного рассуждения (пространственное понимание, планирование, оценка прогресса/успеха, использование инструментов) и Gemini Robotics 1.5 для низкоуровневого зрительно-моторного контроля.

Система ориентирована на долгосрочные задачи в реальных условиях (например, многошаговая упаковка, сортировка отходов с учётом местных правил) и вводит передачу движений для повторного использования данных на разных платформах.

Что такое стек?

* Gemini Robotics-ER 1.5 (рассуждающий/организатор): мультимодальный планировщик, который обрабатывает изображения/видео (и, при необходимости, аудио), определяет ссылки через 2D-точки, отслеживает прогресс и вызывает внешние инструменты (например, веб-поиск или локальные API) для получения ограничений перед постановкой подзадач. Доступен через Gemini API в Google AI Studio.
* Gemini Robotics 1.5 (контроллер VLA): модель, преобразующая инструкции и восприятия в моторные команды, создавая явные следы «подумай, прежде чем действовать», чтобы разложить длинные задачи на краткосрочные навыки. Доступность ограничена для некоторых партнёров на начальном этапе внедрения.

Почему разделение познания и контроля?

Более ранние комплексные системы VLA (Vision-Language-Action) с трудом планируют устойчиво, проверяют успех и обобщают опыт на разных воплощениях. Gemini Robotics 1.5 изолирует эти проблемы: Gemini Robotics-ER 1.5 занимается обдумыванием (сценарное рассуждение, постановка подзадач, обнаружение успеха), а VLA специализируется на исполнении (замкнутый контур зрительно-моторного контроля).

Модульная структура улучшает интерпретируемость (видимые внутренние следы), восстановление ошибок и надёжность в долгосрочной перспективе.

Передача движений между воплощениями

Ключевым вкладом является передача движений (MT): обучение VLA на унифицированном представлении движений, построенном на основе разнородных данных роботов (ALOHA, двурукий Franka и Apptronik Apollo), чтобы навыки, полученные на одной платформе, можно было перенести на другую без дополнительного обучения. Это сокращает сбор данных для каждого робота и сокращает разрыв между симуляцией и реальностью за счёт повторного использования предварительных знаний.

Количественные сигналы

Исследовательская группа продемонстрировала контролируемые сравнения A/B на реальном оборудовании и согласованных сценах MuJoCo. Это включает в себя:
* Обобщение: Robotics 1.5 превосходит предыдущие базовые показатели Gemini Robotics в следовании инструкциям, обобщении действий, визуальном обобщении и обобщении задач на трёх платформах.
* Навыки кросс-роботизированной передачи без единого выстрела: MT обеспечивает измеримый прогресс в достижении успеха при передаче навыков между воплощениями (например, Franka → ALOHA, ALOHA → Apollo), а не просто улучшает частичный прогресс.
* «Мышление» улучшает действие: включение мыслительных следов VLA увеличивает выполнение задач в долгосрочной перспективе и стабилизирует внесение изменений в план в середине выполнения.
* Конечные улучшения агента: сочетание Gemini Robotics-ER 1.5 с агентом VLA существенно улучшает прогресс в выполнении многошаговых задач (например, организация рабочего стола, последовательности в стиле приготовления пищи) по сравнению с базовым уровнем Gemini-2.5-Flash.

Безопасность и оценка

Исследовательская группа DeepMind подчёркивает многоуровневый контроль: согласованное с политикой планирование диалога, безопасное заземление (например, отсутствие указания на опасные объекты), низкоуровневые физические ограничения и расширенные наборы инструментов оценки (например, тестирование по сценарию ASIMOV/ASIMOV-style и автоматическая красная команда для выявления отказов в крайних случаях).

Цель — выявить галлюцинации или несуществующие объекты до их активации.

Конкурентоспособность/отраслевой контекст

Gemini Robotics 1.5 — это переход от робототехники с «единой инструкцией» к агентской, многоступенчатой автономности с явным использованием веб-инструментов и межплатформенным обучением, набором возможностей, актуальным для потребительской и промышленной робототехники.

Ключевые выводы

* Двухмодельный архитектура (ER VLA): Gemini Robotics-ER 1.5 занимается телесным рассуждением — пространственной привязкой, планированием, оценкой успеха/прогресса, вызовами инструментов — в то время как Robotics 1.5 является исполнителем зрительно-языково-моторных действий, выдающим моторные команды.
* «Подумай, прежде чем действовать»: VLA создаёт явные промежуточные рассуждения/следы во время выполнения, улучшая декомпозицию в долгосрочной перспективе и адаптацию в середине задачи.
* Передача движений между воплощениями: одна контрольная точка VLA повторно использует навыки на разных роботах (ALOHA, двурукий Franka, Apptronik Apollo), обеспечивая выполнение кросс-роботизированных задач без дополнительного обучения.
* Планирование с использованием инструментов: ER 1.5 может вызывать внешние инструменты (например, веб-поиск) для получения ограничений, а затем формировать планы — например, упаковку после проверки погоды или применения правил переработки, действующих в городе.
* Количественные улучшения по сравнению с предыдущими базовыми показателями: в техническом отчёте задокументированы более высокие показатели обобщения инструкций/действий/визуальных данных/задач и лучший прогресс/успех на реальном оборудовании и согласованных симуляторах; результаты охватывают передачу между воплощениями и задачи в долгосрочной перспективе.
* Доступность и доступ: ER 1.5 доступен через Gemini API (Google AI Studio) с документами, примерами и элементами управления предварительным просмотром; Robotics 1.5 (VLA) ограничен для некоторых партнёров с общедоступной очередью ожидания.
* Безопасность и оценка: DeepMind подчёркивает многоуровневые гарантии безопасности (планирование, согласованное с политикой, безопасное заземление, физические ограничения) и обновлённый бенчмарк ASIMOV плюс состязательные оценки для выявления рискованного поведения и галлюцинаций.

1. Какие две модели используются в системе Gemini Robotics 1.5 и какие функции они выполняют?

В системе Gemini Robotics 1.5 используются две модели:
* Gemini Robotics-ER 1.5 (рассуждающий/организатор) — мультимодальный планировщик, который обрабатывает изображения/видео (и, при необходимости, аудио), определяет ссылки через 2D-точки, отслеживает прогресс и вызывает внешние инструменты (например, веб-поиск или локальные API) для получения ограничений перед постановкой подзадач.
* Gemini Robotics 1.5 (контроллер VLA) — модель, преобразующая инструкции и восприятия в моторные команды, создавая явные следы «подумай, прежде чем действовать», чтобы разложить длинные задачи на краткосрочные навыки.

2. Какие проблемы решает разделение познания и контроля в системе Gemini Robotics 1.5?

Разделение познания и контроля в системе Gemini Robotics 1.5 решает следующие проблемы:
* Устойчивость планирования.
* Проверка успеха.
* Обобщение опыта на разных воплощениях.

Модульная структура улучшает интерпретируемость (видимые внутренние следы), восстановление ошибок и надёжность в долгосрочной перспективе.

3. Что такое передача движений (MT) и как она используется в системе Gemini Robotics 1.5?

Передача движений (MT) — это обучение VLA на унифицированном представлении движений, построенном на основе разнородных данных роботов (ALOHA, двурукий Franka и Apptronik Apollo), чтобы навыки, полученные на одной платформе, можно было перенести на другую без дополнительного обучения.

Это сокращает сбор данных для каждого робота и сокращает разрыв между симуляцией и реальностью за счёт повторного использования предварительных знаний.

4. Какие количественные улучшения демонстрирует система Gemini Robotics 1.5 по сравнению с предыдущими базовыми показателями?

Исследовательская группа продемонстрировала контролируемые сравнения A/B на реальном оборудовании и согласованных сценах MuJoCo. В результате были сделаны следующие выводы:
* Robotics 1.5 превосходит предыдущие базовые показатели Gemini Robotics в следовании инструкциям, обобщении действий, визуальном обобщении и обобщении задач на трёх платформах.
* MT обеспечивает измеримый прогресс в достижении успеха при передаче навыков между воплощениями (например, Franka → ALOHA, ALOHA → Apollo), а не просто улучшает частичный прогресс.
* Включение мыслительных следов VLA увеличивает выполнение задач в долгосрочной перспективе и стабилизирует внесение изменений в план в середине выполнения.
* Сочетание Gemini Robotics-ER 1.5 с агентом VLA существенно улучшает прогресс в выполнении многошаговых задач (например, организация рабочего стола, последовательности в стиле приготовления пищи) по сравнению с базовым уровнем Gemini-2.5-Flash.

5. Какие гарантии безопасности и оценки предоставляет компания DeepMind для системы Gemini Robotics 1.5?

DeepMind подчёркивает многоуровневые гарантии безопасности, включая:
* Согласованное с политикой планирование диалога.
* Безопасное заземление (например, отсутствие указания на опасные объекты).
* Низкоуровневые физические ограничения.
* Расширенные наборы инструментов оценки (например, тестирование по сценарию ASIMOV/ASIMOV-style и автоматическая красная команда для выявления отказов в крайних случаях).

Цель — выявить галлюцинации или несуществующие объекты до их активации.

Источник