Создание симуляторов для роботов было долгосрочной задачей. Традиционные движки требуют ручного кодирования физики и идеальных 3D-моделей. Компания NVIDIA меняет это с помощью DreamDojo — модели мира роботов с полностью открытым исходным кодом. Вместо использования физического движка DreamDojo «прогнозирует» результаты действий робота прямо в пикселях.
Масштабирование робототехники с помощью 44 тысяч часов человеческого опыта
Самым большим препятствием для ИИ в робототехнике являются данные. Сбор данных, специфичных для роботов, стоит дорого и занимает много времени. DreamDojo решает эту проблему, обучаясь на 44 тысячах часов эгоцентрических видео с участием человека. Этот набор данных, называемый DreamDojo-HV, является крупнейшим в своём роде для предварительного обучения модели мира.
Он включает 6 015 уникальных задач по более чем 1 миллиону траекторий. Данные охватывают 9 869 уникальных сцен и 43 237 уникальных объектов. Для предварительного обучения было использовано 100 000 часов работы графических процессоров NVIDIA H100 для создания вариантов моделей 2B и 14B.
Люди уже освоили сложную физику, например, наливание жидкостей или складывание одежды. DreamDojo использует эти данные, чтобы дать роботам понимание того, как устроен мир, на уровне «здравого смысла».
Преодоление разрыва с помощью скрытых действий
Видеозаписи с участием человека не содержат команд управления роботом. Чтобы сделать эти видео «читаемыми» для роботов, исследовательская группа NVIDIA ввела непрерывные скрытые действия. Эта система использует пространственно-временной Transformer VAE для извлечения действий непосредственно из пикселей.
Кодировщик VAE принимает 2 последовательных кадра и выводит 32-мерный скрытый вектор. Этот вектор представляет наиболее важное движение между кадрами. Такая структура создаёт информационное узкое место, которое отделяет действие от визуального контекста. Это позволяет модели изучать физику на основе данных, полученных от человека, и применять их к различным телам роботов.
Улучшение физики с помощью архитектуры
DreamDojo основана на модели скрытой видеодиффузии Cosmos-Predict2.5. Она использует токенизатор WAN2.2, который имеет временное сжатие в 4 раза. Команда улучшила архитектуру с помощью трёх ключевых функций:
* Относительные действия: модель использует совместные дельты вместо абсолютных поз. Это упрощает обобщение модели на разных траекториях.
* Инъекция фрагментированных действий: в каждый скрытый кадр внедряются 4 последовательных действия. Это согласуется с коэффициентом сжатия токенизатора и устраняет путаницу с причинно-следственными связями.
* Временная согласованность потерь: новая функция потерь сопоставляет прогнозируемые скорости кадров с истинными переходами. Это уменьшает визуальные артефакты и обеспечивает физическую согласованность объектов.
Дистилляция для взаимодействия в реальном времени со скоростью 10,81 FPS
Симулятор полезен только в том случае, если он работает быстро. Стандартные диффузионные модели требуют слишком много шагов по удалению шума для использования в реальном времени. Команда NVIDIA использовала конвейер дистилляции Self Forcing, чтобы решить эту проблему.
Обучение по дистилляции проводилось на 64 графических процессорах NVIDIA H100. Модель «ученика» сокращает количество шагов по удалению шума с 35 до 4. Конечная модель достигает скорости в реальном времени 10,81 FPS. Она стабильна при непрерывном выводе данных в течение 60 секунд (600 кадров).
Открытие новых приложений
Скорость и точность DreamDojo позволяют использовать несколько передовых приложений для инженеров-разработчиков ИИ:
1. Надёжная оценка политики. Тестирование роботов в реальном мире сопряжено с риском. DreamDojo действует как высокоточный симулятор для бенчмаркинга. Его моделируемые показатели успешности демонстрируют корреляцию Пирсона (𝑟=0,995) с результатами в реальном мире. Среднее максимальное нарушение ранжирования (MMRV) составляет всего 0,003.
2. Планирование на основе модели. Роботы могут использовать DreamDojo для «заглядывания вперёд». Робот может смоделировать несколько последовательностей действий и выбрать наилучшую. В задаче по упаковке фруктов это повысило показатели успешности в реальном мире на 17 %. По сравнению со случайным выбором это обеспечило двукратное увеличение успеха.
3. Прямая телеоперация. Разработчики могут управлять виртуальными роботами в реальном времени. Команда NVIDIA продемонстрировала это с помощью контроллера PICO VR и локального рабочего стола с NVIDIA RTX 5090. Это позволяет безопасно и быстро собирать данные.
Резюме производительности модели
| Метрика | DREAMDOJO-2B | DREAMDOJO-14B |
| — | — | — |
| Физическая корректность | 62,50 % | 73,50 % |
| Следование действию | 63,45 % | 72,55 % |
| FPS (дистиллированный) | 10,81 | N/A |
NVIDIA выпустила все веса, код для обучения и критерии оценки. Этот выпуск с открытым исходным кодом позволяет вам сегодня провести пост-обучение DreamDojo на собственных данных о роботах.
Ключевые выводы
* Масштаб и разнообразие: DreamDojo предварительно обучен на DreamDojo-HV — крупнейшем на сегодняшний день наборе данных эгоцентрических видео с участием человека, включающем 44 711 часов отснятого материала по 6 015 уникальным задачам и 9 869 сценам.
* Единый прокси-сервер для скрытых действий: чтобы преодолеть отсутствие меток действий на видео с участием человека, модель использует непрерывные скрытые действия, извлечённые с помощью пространственно-временного Transformer VAE, который служит аппаратно-независимым интерфейсом управления.
* Оптимизированная тренировка и архитектура: модель достигает высокой точности физики и управляемости за счёт использования относительных преобразований действий, фрагментированной инъекции действий и специализированной потери временной согласованности.
* Производительность в реальном времени за счёт дистилляции: через конвейер дистилляции Self Forcing модель ускоряется до 10,81 FPS, что позволяет использовать интерактивные приложения, такие как прямая телеоперация, и проводить стабильное долгосрочное моделирование более 1 минуты.
* Надёжность для последующих задач: DreamDojo функционирует как точный симулятор для оценки политики, демонстрируя корреляцию Пирсона 0,995 с показателями успешности в реальном мире, и может повысить производительность в реальном мире на 17 %, когда используется для планирования на основе модели.
1. Какие основные проблемы в робототехнике решает модель DreamDojo от NVIDIA?
Ответ: модель DreamDojo решает проблему сбора данных, специфичных для роботов. Она обучается на 44 тысячах часов эгоцентрических видео с участием человека, что позволяет ей «прогнозировать» результаты действий робота прямо в пикселях и даёт роботам понимание того, как устроен мир, на уровне «здравого смысла».
2. Какие ключевые функции были добавлены в архитектуру модели DreamDojo для улучшения её производительности?
Ответ: в архитектуру модели DreamDojo были добавлены три ключевые функции: относительные действия (модель использует совместные дельты вместо абсолютных поз), инъекция фрагментированных действий (в каждый скрытый кадр внедряются 4 последовательных действия) и временная согласованность потерь (новая функция потерь сопоставляет прогнозируемые скорости кадров с истинными переходами).
3. Какие приложения могут использовать разработчики ИИ благодаря скорости и точности DreamDojo?
Ответ: благодаря скорости и точности DreamDojo разработчики ИИ могут использовать несколько передовых приложений, таких как надёжная оценка политики (высокоточный симулятор для бенчмаркинга), планирование на основе модели (роботы могут смоделировать несколько последовательностей действий и выбрать наилучшую) и прямая телеоперация (разработчики могут управлять виртуальными роботами в реальном времени).
4. Какие метрики используются для оценки производительности модели DreamDojo?
Ответ: для оценки производительности модели DreamDojo используются следующие метрики: физическая корректность, следование действию и FPS (кадры в секунду).
5. Какие преимущества предоставляет выпуск модели DreamDojo с открытым исходным кодом?
Ответ: выпуск модели DreamDojo с открытым исходным кодом позволяет разработчикам провести пост-обучение модели на собственных данных о роботах. Это даёт возможность адаптировать модель под конкретные задачи и условия.