Использование генеративного искусственного интеллекта для разнообразия виртуальных тренировочных площадок для роботов

Чат-боты вроде ChatGPT и Claude за последние три года стали невероятно популярными, поскольку могут помочь вам в решении широкого спектра задач. От написания шекспировских сонетов до отладки кода или поиска ответа на каверзный вопрос — системы искусственного интеллекта, похоже, готовы прийти на помощь. Источник такой универсальности — миллиарды или даже триллионы текстовых данных из интернета.

Однако этих данных недостаточно, чтобы научить робота быть полезным помощником по дому или на производстве. Чтобы понять, как обращаться с предметами, складывать их и размещать в различных условиях, роботам нужны демонстрации. Можно представить тренировочные данные для роботов как коллекцию обучающих видеороликов, в которых системы пошагово выполняют каждое движение в рамках задачи.

Сбор таких демонстраций на реальных роботах занимает много времени и не всегда повторяется с абсолютной точностью, поэтому инженеры создали тренировочные данные, генерируя симуляции с помощью ИИ (которые не всегда отражают физику реального мира), или кропотливо создавая каждую цифровую среду с нуля вручную.

Исследователи из лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) и Исследовательского института Toyota нашли способ создать разнообразные и реалистичные тренировочные площадки, необходимые роботам. Их подход «управляемой генерации сцен» создаёт цифровые сцены, такие как кухни, гостиные и рестораны, которые инженеры могут использовать для моделирования множества взаимодействий и сценариев в реальных условиях.

Инструмент обучен на более чем 44 миллионах трёхмерных комнат, заполненных моделями таких объектов, как столы и тарелки. Он размещает существующие объекты в новых сценах, а затем дорабатывает каждую из них, превращая в физически точную и реалистичную среду.

Управляемая генерация сцен создаёт эти трёхмерные миры, «направляя» модель диффузии — систему искусственного интеллекта, которая генерирует изображение из случайного шума — к сцене, которую можно найти в повседневной жизни. Исследователи использовали эту генеративную систему для «врисовывания» среды, заполняя отдельные элементы по всей сцене.

Вы можете представить себе пустой холст, который внезапно превращается в кухню, усеянную трёхмерными объектами, которые постепенно перестраиваются в сцену, имитирующую физику реального мира. Например, система следит за тем, чтобы вилка не проходила сквозь миску на столе — распространённый сбой в трёхмерной графике, известный как «клипинг», когда модели перекрывают друг друга или пересекаются.

Точная стратегия, с помощью которой управляемая генерация сцен направляет своё создание к реализму, зависит от выбранной вами стратегии. Основная стратегия — «поиск по дереву Монте-Карло» (MCTS), где модель создаёт серию альтернативных сцен, заполняя их по-разному для достижения определённой цели (например, сделать сцену более физически реалистичной или включить как можно больше съедобных предметов).

«Мы первые, кто применил MCTS для генерации сцен, представив задачу генерации сцен как последовательный процесс принятия решений», — говорит аспирант кафедры электротехники и компьютерных наук MIT (EECS) Николас Пфафф, исследователь CSAIL и ведущий автор статьи, представляющей работу. «Мы продолжаем создавать поверх частичных сцен, чтобы со временем создавать более качественные или желаемые сцены. В результате MCTS создаёт сцены, более сложные, чем те, на которых обучалась модель диффузии».

В одном из экспериментов MCTS добавил максимальное количество объектов в простую сцену ресторана. На столе было размещено до 34 предметов, включая массивные стопки блюд дим-сам, после обучения на сценах, где в среднем было только 17 объектов.

Управляемая генерация сцен также позволяет создавать разнообразные тренировочные сценарии с помощью обучения с подкреплением — по сути, обучения диффузионной модели для выполнения задачи методом проб и ошибок. После обучения на начальных данных ваша система проходит второй этап обучения, где вы определяете вознаграждение (по сути, желаемый результат с оценкой, показывающей, насколько вы близки к этой цели). Модель автоматически учится создавать сцены с более высокими оценками, часто создавая сценарии, которые сильно отличаются от тех, на которых она была обучена.

Пользователи также могут напрямую запрашивать систему, вводя конкретные визуальные описания (например, «кухня с четырьмя яблоками и миской на столе»). Затем управляемая генерация сцен может воплотить ваши запросы в жизнь с высокой точностью.

Согласно исследователям, сила их проекта заключается в способности создавать множество сцен, которые робототехники могут реально использовать. «Ключевой вывод из наших исследований заключается в том, что сцены, на которых мы предварительно обучались, не обязательно должны точно напоминать сцены, которые мы хотим на самом деле», — говорит Пфафф. «Используя наши методы управления, мы можем выйти за рамки этого широкого распределения и выбрать из «лучшего». Другими словами, создание разнообразных, реалистичных и ориентированных на задачи сцен, на которых мы действительно хотим обучать наших роботов».

Такие обширные сцены стали испытательными площадками, где они могли записывать взаимодействие виртуального робота с различными предметами. Машина аккуратно складывала вилки и ножи в подставку для столовых приборов, например, и перекладывала хлеб на тарелки в различных трёхмерных настройках. Каждая симуляция выглядела плавной и реалистичной, напоминая реальных роботов, которых можно обучить с помощью управляемой генерации сцен.

Хотя система может стать обнадеживающим шагом вперёд в создании большого количества разнообразных тренировочных данных для роботов, исследователи говорят, что их работа — это скорее доказательство концепции. В будущем они хотели бы использовать генеративный ИИ для создания совершенно новых объектов и сцен, а не использовать фиксированную библиотеку ассетов. Они также планируют включить в сцены шарнирные объекты, которые робот мог бы открывать или поворачивать (например, шкафы или банки с едой), чтобы сделать сцены ещё более интерактивными.

Чтобы сделать свои виртуальные среды ещё более реалистичными, Пфафф и его коллеги могут использовать реальные объекты, используя библиотеку объектов и сцен, взятых из изображений в интернете, и используя свою предыдущую работу над «Scalable Real2Sim». Расширяя возможности создания разнообразных и реалистичных сцен для тестирования роботов с помощью ИИ, команда надеется создать сообщество пользователей, которые будут создавать большие объёмы данных, которые затем можно будет использовать в качестве массивного набора данных для обучения роботов различным навыкам.

1. Какие проблемы решает использование генеративного искусственного интеллекта для создания тренировочных площадок для роботов?

Использование генеративного искусственного интеллекта позволяет создавать разнообразные и реалистичные тренировочные площадки для роботов, что экономит время и ресурсы, которые ранее тратились на ручное создание каждой цифровой среды. Это особенно полезно для обучения роботов взаимодействию с предметами в различных условиях.

2. Какие методы и подходы используются для создания тренировочных площадок с помощью генеративного ИИ?

Для создания тренировочных площадок используется метод «управляемой генерации сцен». Этот подход включает в себя использование модели диффузии, которая генерирует изображение из случайного шума, и направляет её к созданию сцен, которые можно найти в повседневной жизни. Также применяется «поиск по дереву Монте-Карло» (MCTS) для создания альтернативных сцен и обучения с подкреплением для выполнения задач методом проб и ошибок.

3. Какие преимущества предоставляет использование управляемой генерации сцен для создания тренировочных сценариев?

Управляемая генерация сцен позволяет создавать разнообразные тренировочные сценарии с помощью обучения с подкреплением. Это означает, что система может автоматически учиться создавать сцены с более высокими оценками, часто создавая сценарии, которые сильно отличаются от тех, на которых она была обучена. Это обеспечивает более широкий спектр сценариев для обучения роботов.

4. Какие перспективы развития исследований в области использования генеративного ИИ для создания тренировочных данных для роботов?

Исследователи планируют использовать генеративный ИИ для создания совершенно новых объектов и сцен, а не только для работы с фиксированной библиотекой ассетов. Они также хотят включить в сцены шарнирные объекты, которые робот мог бы открывать или поворачивать, чтобы сделать сцены ещё более интерактивными. Это может привести к созданию более сложных и разнообразных тренировочных сценариев для роботов.

5. Как использование генеративного ИИ для создания тренировочных площадок может повлиять на будущее робототехники?

Создание разнообразных, реалистичных и ориентированных на задачи сцен с помощью генеративного ИИ может значительно ускорить процесс обучения роботов и сделать их более адаптивными к различным условиям. Это может привести к более широкому использованию роботов в различных областях, таких как домашнее хозяйство, производство и обслуживание.

Источник