Агенты искусственного интеллекта, способные воспринимать, мыслить и действовать в реальном мире, знаменуют собой ключевой шаг к будущему робототехники. Главная задача — создание масштабируемой и надёжной роботизированной манипуляции, то есть умения целенаправленно взаимодействовать с объектами и управлять ими через выборочный контакт.
Прогресс в этой области охватывает аналитические методы, модельные подходы и масштабное обучение на основе данных. Однако большинство систем по-прежнему работают на разрозненных этапах сбора данных, обучения и оценки. Эти этапы часто требуют специальных настроек, ручного курирования и настроек для конкретных задач, что создаёт препятствия, замедляющие прогресс, скрывающие закономерности отказов и препятствующие воспроизводимости. Это подчёркивает необходимость единой платформы для оптимизации обучения и оценки.
Развитие исследований в области роботизированной манипуляции
Исследования в области роботизированной манипуляции перешли от аналитических моделей к нейронным мировым моделям, которые изучают динамику непосредственно на основе сенсорных данных, используя пиксельное и скрытое пространства.
Крупномасштабные модели генерации видео могут создавать реалистичные визуальные образы, но им часто не хватает условности действий, долгосрочной временной согласованности и многовидового рассуждения, необходимых для управления. Модели «видение-язык-действие» следуют инструкциям, но ограничены обучением на основе имитации, что препятствует восстановлению ошибок и планированию.
Оценка политики остаётся сложной задачей, поскольку физические симуляторы требуют тщательной настройки, а тестирование в реальных условиях требует значительных ресурсов. Существующие показатели оценки часто делают упор на визуальное качество, а не на успех выполнения задачи, что подчёркивает необходимость создания эталонных тестов, которые лучше отражают производительность роботизированной манипуляции в реальных условиях.
Genie Envisioner (GE)
Genie Envisioner (GE), разработанная исследователями из AgiBot Genie Team, NUS LV-Lab и BUAA, представляет собой унифицированную платформу для роботизированной манипуляции, которая объединяет обучение политике, моделирование и оценку в рамках видеогенеративной системы.
Её ядро, GE-Base, представляет собой крупномасштабную видеодиффузионную модель, управляемую инструкциями, которая улавливает пространственные, временные и семантические закономерности задач в реальном мире. GE-Act преобразует эти представления в точные траектории действий, а GE-Sim предлагает быструю симуляцию на основе действий с учётом видео.
Основные компоненты Genie Envisioner
* GE-Base — это многовидовая видеодиффузионная модель, управляемая инструкциями, обученная на более чем 1 миллионе эпизодов роботизированной манипуляции. Она изучает скрытые траектории, отражающие эволюцию сцен под действием заданных команд.
* GE-Act переводит эти скрытые видеопредставления в реальные сигналы управления через лёгкий декодер, соответствующий потоку, обеспечивая быстрое и точное управление движением даже на роботах, не участвовавших в обучении.
* GE-Sim использует генеративные возможности GE-Base для создания нейронного симулятора, управляемого действиями, что позволяет проводить закрытые циклы видеомоделирования на скоростях, значительно превышающих возможности реального оборудования.
Результаты тестирования
В ходе тестирования Genie Envisioner продемонстрировал высокие показатели в реальных и смоделированных условиях при выполнении различных задач роботизированной манипуляции. GE-Act обеспечил быструю генерацию управления (траектории из 54 шагов за 200 мс) и последовательно превосходил ведущие базовые модели «видение-язык-действие» как по пошаговым, так и по сквозным показателям успешности.
Он адаптировался к новым типам роботов, таким как Agilex Cobot Magic и Dual Franka, используя только час данных, специфичных для задачи, и превосходно справлялся со сложными задачами с деформируемыми объектами. GE-Sim обеспечивал высокоточную симуляцию действий для масштабируемого тестирования политики в замкнутом цикле.
Заключение
Genie Envisioner — это унифицированная масштабируемая платформа для роботизированной манипуляции с двумя руками, которая объединяет обучение политике, моделирование и оценку в рамках одной видеогенеративной системы. Её ядро, GE-Base, представляет собой управляемую инструкциями видеодиффузионную модель, улавливающую пространственные, временные и семантические закономерности взаимодействий роботов в реальном мире.
GE-Act использует эти представления для преобразования их в точные, адаптируемые планы действий даже для новых типов роботов с минимальной переподготовкой. GE-Sim предлагает высокоточную симуляцию действий для уточнения политики в замкнутом цикле, а EWMBench обеспечивает строгую оценку реализма, согласованности и согласованности.
Обширные тесты в реальных условиях подчёркивают превосходную производительность системы, что делает её прочной основой для общего назначения, основанного на инструкциях, воплощённого интеллекта.
1. Какие проблемы в области роботизированной манипуляции решает Genie Envisioner?
Genie Envisioner решает проблему разрозненности этапов сбора данных, обучения и оценки в системах роботизированной манипуляции. Платформа объединяет эти этапы в рамках видеогенеративной системы, что позволяет оптимизировать обучение и оценку.
2. Какие компоненты включает в себя Genie Envisioner и какие функции они выполняют?
Основные компоненты Genie Envisioner:
* GE-Base — многовидовая видеодиффузионная модель, управляемая инструкциями, обученная на более чем 1 миллионе эпизодов роботизированной манипуляции. Она изучает скрытые траектории, отражающие эволюцию сцен под действием заданных команд.
* GE-Act — переводит скрытые видеопредставления в реальные сигналы управления, обеспечивая быстрое и точное управление движением.
* GE-Sim — использует генеративные возможности GE-Base для создания нейронного симулятора, управляемого действиями, что позволяет проводить закрытые циклы видеомоделирования на высоких скоростях.
3. Какие результаты были получены при тестировании Genie Envisioner?
В ходе тестирования Genie Envisioner продемонстрировал высокие показатели в реальных и смоделированных условиях при выполнении различных задач роботизированной манипуляции. GE-Act обеспечил быструю генерацию управления и последовательно превосходил ведущие базовые модели «видение-язык-действие». GE-Sim обеспечивал высокоточную симуляцию действий для масштабируемого тестирования политики в замкнутом цикле.
4. Какие типы роботов были адаптированы с помощью Genie Envisioner?
Genie Envisioner был адаптирован для работы с новыми типами роботов, такими как Agilex Cobot Magic и Dual Franka. Система использовала только час данных, специфичных для задачи, и превосходно справлялась со сложными задачами с деформируемыми объектами.
5. Какие преимущества предоставляет Genie Envisioner для общего назначения, основанного на инструкциях, воплощённого интеллекта?
Genie Envisioner предоставляет следующие преимущества:
* Объединение обучения политике, моделирования и оценки в рамках одной видеогенеративной системы.
* Быстрая генерация управления для новых типов роботов с минимальной переподготовкой.
* Высокоточная симуляция действий для уточнения политики в замкнутом цикле.
* Строгая оценка реализма, согласованности и согласованности.
Это делает Genie Envisioner прочной основой для общего назначения, основанного на инструкциях, воплощённого интеллекта.