Проблема масштабирования 3D-сред в области воплощённого ИИ
Создание реалистичных и точно масштабированных 3D-сред необходимо для обучения и оценки воплощённого ИИ. Однако современные методы всё ещё основаны на ручной разработке 3D-графики, которая дорогостоящая и недостаточно реалистичная, что ограничивает масштабируемость и обобщающую способность.
В отличие от данных интернет-масштаба, используемых в таких моделях, как GPT и CLIP, данные для воплощённого ИИ стоят дорого, зависят от контекста и их трудно использовать повторно. Для достижения общего искусственного интеллекта в физических условиях требуются реалистичные симуляции, обучение с подкреплением и разнообразные 3D-ресурсы.
Хотя недавние диффузионные модели и методы генерации 3D-контента показывают многообещающие результаты, многим из них не хватает таких ключевых особенностей, как физическая точность, водонепроницаемая геометрия и правильный масштаб, что делает их непригодными для тренировочных сред роботов.
Ограничения существующих методов генерации 3D-контента
Генерация 3D-объектов обычно следует трём основным подходам:
* прямая генерация для быстрого результата;
* методы, основанные на оптимизации, для высокого качества;
* реконструкция вида по нескольким изображениям.
Хотя недавние методы улучшили реалистичность за счёт разделения создания геометрии и текстуры, многие модели по-прежнему отдают приоритет визуальному внешнему виду, а не физике реального мира. Это делает их менее подходящими для симуляций, требующих точного масштабирования и водонепроницаемой геометрии.
Для 3D-сцен панорамные методы позволили рендеринг полного обзора, но им всё ещё не хватает интерактивности. Хотя некоторые инструменты пытаются улучшить симуляционные среды с помощью сгенерированных ресурсов, качество и разнообразие остаются ограниченными, что не соответствует потребностям исследований в области сложного воплощённого интеллекта.
Знакомство с EmbodiedGen: открытый исходный код, модульность и готовность к симуляции
EmbodiedGen — это фреймворк с открытым исходным кодом, разработанный совместно исследователями из Horizon Robotics, Китайского университета Гонконга, Шанхайского института Ци Чжи и Университета Цинхуа. Он предназначен для генерации реалистичных, масштабируемых 3D-ресурсов, адаптированных для задач воплощённого ИИ.
Платформа выводит физически точные, водонепроницаемые 3D-объекты в формате URDF, дополненные метаданными для совместимости с симуляцией. Платформа включает шесть модульных компонентов, в том числе преобразование изображений в 3D, преобразование текста в 3D, генерацию макетов и перестановку объектов, что позволяет осуществлять контролируемое и эффективное создание сцен.
Благодаря объединению традиционной 3D-графики и ресурсов, готовых к использованию в робототехнике, EmbodiedGen облегчает масштабируемую и экономически эффективную разработку интерактивных сред для исследований в области воплощённого интеллекта.
Ключевые особенности: мультимодальная генерация для создания богатого 3D-контента
EmbodiedGen — это универсальный инструментарий, предназначенный для создания реалистичных и интерактивных 3D-сред, адаптированных для задач воплощённого ИИ. Он сочетает в себе несколько модулей генерации: преобразование изображений или текста в детальные 3D-объекты, создание шарнирных элементов с подвижными частями и генерацию разнообразных текстур для улучшения визуального качества.
Платформа поддерживает полное построение сцены путём размещения этих ресурсов таким образом, чтобы они соответствовали реальным физическим свойствам и масштабу. Вывод напрямую совместим с платформами симуляции, что упрощает и делает более доступным создание реалистичных виртуальных миров.
Интеграция симуляции и физическая точность в реальном мире
EmbodiedGen — это мощная и доступная платформа, которая позволяет создавать разнообразные высококачественные 3D-ресурсы, предназначенные для исследований в области воплощённого интеллекта. Платформа поддерживает интеграцию с популярными средами симуляции, включая OpenAI Gym, MuJoCo, Isaac Lab и SAPIEN, что позволяет исследователям эффективно моделировать такие задачи, как навигация, манипулирование объектами и обход препятствий при низких затратах.
RoboSplatter: рендеринг высокой точности 3DGS для симуляции
Примечательной особенностью является RoboSplatter, который внедряет расширенную визуализацию 3D Gaussian Splatting (3DGS) в физические симуляции. В отличие от традиционных графических конвейеров, RoboSplatter повышает визуальную точность при одновременном снижении вычислительных затрат.
Благодаря таким модулям, как генерация текстур и преобразование реального в симуляцию, пользователи могут редактировать внешний вид 3D-ресурсов или воссоздавать реальные сцены с высокой реалистичностью.
В целом, EmbodiedGen упрощает создание масштабируемых, интерактивных 3D-миров, устраняя разрыв между реальной робототехникой и цифровым моделированием. Он доступен как удобный инструментарий с открытым исходным кодом, что способствует более широкому внедрению и инновациям в исследованиях в области воплощённого ИИ.
Почему это исследование важно?
Это исследование устраняет узкое место в области воплощённого ИИ: отсутствие масштабируемых, реалистичных и совместимых с физикой 3D-сред для обучения и оценки. В то время как данные интернет-масштаба способствовали прогрессу в области моделей зрения и языка, воплощённый интеллект требует симуляционных ресурсов с точным масштабом, геометрией и интерактивностью — качествами, которых часто не хватает в традиционных конвейерах генерации 3D-контента.
EmbodiedGen заполняет этот пробел, предлагая модульную платформу с открытым исходным кодом, способную создавать высококачественные, управляемые 3D-объекты и сцены, совместимые с основными симуляторами робототехники. Его способность преобразовывать текст и изображения в физически правдоподобные 3D-среды в масштабе делает его основополагающим инструментом для продвижения исследований в области воплощённого ИИ, цифровых двойников и обучения на основе перехода от реального к симуляции.