Google DeepMind выпускает локальную модель искусственного интеллекта Gemini Robotics On-Device для роботизированной ловкости в реальном времени

Google DeepMind представила Gemini Robotics On-Device — компактную локальную версию своей мощной модели Vision-Language-Action (VLA), которая привносит передовой роботизированный интеллект непосредственно на устройства. Это ключевой шаг вперёд в области воплощённого искусственного интеллекта, поскольку устраняет необходимость в постоянном подключении к облаку, сохраняя при этом гибкость, универсальность и высокую точность, присущие семейству моделей Gemini.

Локальный искусственный интеллект для роботизированной ловкости в реальных условиях

Традиционно модели с высокой пропускной способностью VLA использовали облачную обработку из-за ограничений по вычислительным ресурсам и памяти. С Gemini Robotics On-Device DeepMind представляет архитектуру, которая работает полностью на локальных графических процессорах (GPU), встроенных в роботов, поддерживая сценарии с чувствительностью к задержкам и ограниченным объёмом данных, такие как дома, больницы и производственные цеха.

Модель на устройстве сохраняет основные сильные стороны Gemini Robotics: способность понимать инструкции человека, воспринимать мультимодальный ввод (визуальный и текстовый) и генерировать моторные действия в режиме реального времени. Она также отличается высокой эффективностью использования примеров, требуя всего 50–100 демонстраций для обобщения новых навыков, что делает её практичной для реального применения в различных условиях.

Основные характеристики Gemini Robotics On-Device

Полностью локальное выполнение: модель работает непосредственно на встроенном в робота GPU, обеспечивая замкнутый цикл управления без зависимости от интернета.

Двуручная ловкость: может выполнять сложные координированные манипуляции двумя руками благодаря предварительному обучению на наборе данных ALOHA и последующей тонкой настройке.

Совместимость с несколькими воплощениями: несмотря на обучение на конкретных роботах, модель применяется на разных платформах, включая гуманоидов и промышленных двуруких манипуляторов.

Адаптация с несколькими демонстрациями: модель поддерживает быстрое обучение новым задачам на основе нескольких демонстраций, значительно сокращая время разработки.

Возможности в реальных условиях и приложения

Задачи, требующие ловкости, такие как складывание одежды, сборка компонентов или открывание банок, требуют детального управления моторикой и интеграции обратной связи в реальном времени. Gemini Robotics On-Device обеспечивает эти возможности, одновременно уменьшая задержки при обмене данными и повышая скорость реагирования. Это особенно важно для периферийных развёртываний, где подключение ненадёжно или важна конфиденциальность данных.

Потенциальные приложения включают:

Роботы-помощники по дому, способные выполнять повседневные задачи.

Медицинские роботы, помогающие в реабилитации или уходе за пожилыми людьми.

Системы промышленной автоматизации, требующие адаптивных работников сборочных линий.

SDK и интеграция MuJoCo для разработчиков

Помимо модели, DeepMind выпустила Gemini Robotics SDK, который предоставляет инструменты для тестирования, тонкой настройки и интеграции модели на устройстве в пользовательские рабочие процессы. SDK поддерживает:

Обучающие конвейеры для настройки под конкретные задачи.

Совместимость с различными типами роботов и настройками камер.

Оценку в физическом симуляторе MuJoCo, который был открыт с новыми бенчмарками, специально разработанными для оценки задач двуручной ловкости.

Сочетание локального вывода, инструментов разработчика и надёжных сред моделирования позиционирует Gemini Robotics On-Device как модульное, расширяемое решение для исследователей и разработчиков в области робототехники.

Gemini Robotics и будущее локального воплощённого искусственного интеллекта

Инициатива Gemini Robotics направлена на объединение восприятия, рассуждений и действий в физической среде. Этот выпуск на устройстве устраняет разрыв между фундаментальными исследованиями в области искусственного интеллекта и развёртываемыми системами, которые могут функционировать автономно в реальном мире.

Более широкие последствия для робототехники и развёртывания искусственного интеллекта

Отделяя мощные модели искусственного интеллекта от облака, Gemini Robotics On-Device прокладывает путь для масштабируемой робототехники, обеспечивающей конфиденциальность. Это соответствует растущей тенденции к периферийному искусственному интеллекту, где вычислительные нагрузки переносятся ближе к источникам данных. Это не только повышает безопасность и скорость реагирования, но и гарантирует, что роботизированные агенты смогут работать в средах со строгими требованиями к задержкам или конфиденциальности данных.

По мере того как DeepMind продолжает расширять доступ к своему стеку робототехники, включая открытие своей платформы моделирования и выпуск контрольных показателей, исследователи по всему миру теперь имеют больше возможностей для экспериментов, итераций и создания надёжных роботизированных систем реального времени.

1. Какие ключевые особенности отличают модель Gemini Robotics On-Device от традиционных моделей VLA?

Ответ: модель Gemini Robotics On-Device отличается от традиционных моделей VLA тем, что работает полностью на локальных графических процессорах (GPU), встроенных в роботов. Это устраняет необходимость в постоянном подключении к облаку и обеспечивает гибкость, универсальность и высокую точность, присущие семейству моделей Gemini.

2. Какие задачи может выполнять модель Gemini Robotics On-Device в реальных условиях?

Ответ: модель Gemini Robotics On-Device может выполнять задачи, требующие ловкости, такие как складывание одежды, сборка компонентов или открывание банок. Она обеспечивает детальное управление моторикой и интеграцию обратной связи в реальном времени, что особенно важно для периферийных развёртываний, где подключение ненадёжно или важна конфиденциальность данных.

3. Какие потенциальные приложения имеет модель Gemini Robotics On-Device?

Ответ: потенциальные приложения модели Gemini Robotics On-Device включают:
* роботы-помощники по дому, способные выполнять повседневные задачи;
* медицинские роботы, помогающие в реабилитации или уходе за пожилыми людьми;
* системы промышленной автоматизации, требующие адаптивных работников сборочных линий.

4. Какие инструменты предоставляет DeepMind для разработчиков, работающих с Gemini Robotics On-Device?

Ответ: DeepMind выпустила Gemini Robotics SDK, который предоставляет инструменты для тестирования, тонкой настройки и интеграции модели на устройстве в пользовательские рабочие процессы. SDK поддерживает:
* обучающие конвейеры для настройки под конкретные задачи;
* совместимость с различными типами роботов и настройками камер;
* оценку в физическом симуляторе MuJoCo, который был открыт с новыми бенчмарками, специально разработанными для оценки задач двуручной ловкости.

5. Как инициатива Gemini Robotics влияет на будущее локального воплощённого искусственного интеллекта?

Ответ: инициатива Gemini Robotics направлена на объединение восприятия, рассуждений и действий в физической среде. Выпуск модели Gemini Robotics On-Device на устройстве устраняет разрыв между фундаментальными исследованиями в области искусственного интеллекта и развёртываемыми системами, которые могут функционировать автономно в реальном мире. Это способствует развитию масштабируемой робототехники, обеспечивающей конфиденциальность, и соответствует растущей тенденции к периферийному искусственному интеллекту.

Источник