Ant Group выпускает модель LingBot-VLA — базовую модель для обработки языковых и визуальных данных для манипулирования роботами в реальном мире

Как создать единую модель обработки языковых и визуальных данных, которая сможет управлять множеством различных роботов с двумя манипуляторами в реальном мире? LingBot-VLA — это новая базовая модель Ant Group Robbyant для обработки языковых и визуальных данных, ориентированная на практическое манипулирование роботами в реальном мире.

LingBot-VLA обучен на примерно 20 000 часах данных телеуправления двуручными системами, собранных с 9 различных робототехнических воплощений, и оценён на большом бенчмарке GM-100 на трёх платформах. Модель разработана для обеспечения обобщения между морфологиями, эффективного использования данных после обучения и высокой производительности при обучении на обычных кластерах GPU.

Этапы создания модели

Модель LingBot-VLA объединяет мощную мультимодальную основу с экспертом по действиям с помощью архитектуры Mixture of Transformers. Языковая основа для обработки визуальных данных — Qwen2.5-VL. Она кодирует многовидовые рабочие изображения и инструкции на естественном языке в последовательность мультимодальных токенов.

В параллель эксперт по действиям получает проприоцептивное состояние робота и фрагменты прошлых действий. Оба ответвления имеют модуль самовнимания, который выполняет уровневое совместное моделирование последовательностей по наблюдениям и токенам действий.

На каждом шаге модель формирует последовательность наблюдений, объединяя токены с трёх камер, инструкцию по задаче и состояние робота. Последовательность действий — это фрагмент будущих действий с временным горизонтом, установленным на 50 во время предварительного обучения.

Оценка модели

Основная оценка использует GM-100 — реальный бенчмарк с 100 задачами по манипулированию и 130 отфильтрованными траекториями телеуправления на каждую задачу на каждой из трёх аппаратных платформ. Эксперименты сравнивают LingBot-VLA с π0.5, GR00T N1.6 и WALL-OSS по общему протоколу после обучения.

На GM-100 LingBot-VLA с функцией глубины достигает передовых средних показателей на трёх платформах. Средний показатель успешности составляет 17,30%, а средний показатель прогресса — 35,41%.

В симуляции RoboTwin 2.0 с 50 задачами модели обучаются на 50 демонстрациях на задачу в чистых сценах и на 500 демонстрациях на задачу в рандомизированных сценах. LingBot-VLA с функцией глубины достигает 88,56% среднего показателя успешности в чистых сценах и 86,68% в рандомизированных сценах.

Ключевые выводы

  • LingBot-VLA — это базовая модель для обработки языковых и визуальных данных, основанная на Qwen2.5-VL, обученная на примерно 20 000 часах реальных данных двуручного телеуправления различными робототехническими воплощениями.

  • Модель интегрирует LingBot Depth через дистилляцию признаков, что значительно улучшает пространственное понимание 3D для вставки, укладки, складывания и других задач, чувствительных к геометрии.

  • На реальном бенчмарке GM-100 LingBot-VLA с функцией глубины достигает среднего показателя успешности около 17,30% и среднего показателя прогресса 35,41%, что выше, чем у π0.5, GR00T N1.6 и WALL OSS при одинаковом протоколе после обучения.

  • LingBot-VLA демонстрирует высокую эффективность использования данных после обучения, поскольку на AgiBot G1 может превзойти π0.5, использующий 130 демонстраций на задачу, используя всего около 80 демонстраций на задачу.

1. Какие ключевые особенности модели LingBot-VLA делают её эффективной для обработки языковых и визуальных данных в робототехнике?

Ответ: модель LingBot-VLA объединяет мощную мультимодальную основу с экспертом по действиям с помощью архитектуры Mixture of Transformers. Она обучена на примерно 20 000 часах данных телеуправления двуручными системами, собранных с 9 различных робототехнических воплощений. Модель разработана для обеспечения обобщения между морфологиями, эффективного использования данных после обучения и высокой производительности при обучении на обычных кластерах GPU.

2. Какие этапы включает в себя создание модели LingBot-VLA?

Ответ: создание модели LingBot-VLA включает в себя объединение мощной мультимодальной основы с экспертом по действиям с помощью архитектуры Mixture of Transformers. Языковая основа для обработки визуальных данных — Qwen2.5-VL. Она кодирует многовидовые рабочие изображения и инструкции на естественном языке в последовательность мультимодальных токенов. В параллель эксперт по действиям получает проприоцептивное состояние робота и фрагменты прошлых действий. Оба ответвления имеют модуль самовнимания, который выполняет уровневое совместное моделирование последовательностей по наблюдениям и токенам действий.

3. Как оценивается эффективность модели LingBot-VLA?

Ответ: основная оценка использует GM-100 — реальный бенчмарк с 100 задачами по манипулированию и 130 отфильтрованными траекториями телеуправления на каждую задачу на каждой из трёх аппаратных платформ. Эксперименты сравнивают LingBot-VLA с π0.5, GR00T N1.6 и WALL-OSS по общему протоколу после обучения. На GM-100 LingBot-VLA с функцией глубины достигает передовых средних показателей на трёх платформах. Средний показатель успешности составляет 17,30%, а средний показатель прогресса — 35,41%.

4. Какие преимущества демонстрирует модель LingBot-VLA по сравнению с другими моделями в аналогичных задачах?

Ответ: на реальном бенчмарке GM-100 LingBot-VLA с функцией глубины достигает среднего показателя успешности около 17,30% и среднего показателя прогресса 35,41%, что выше, чем у π0.5, GR00T N1.6 и WALL OSS при одинаковом протоколе после обучения. Кроме того, LingBot-VLA демонстрирует высокую эффективность использования данных после обучения, поскольку на AgiBot G1 может превзойти π0.5, использующий 130 демонстраций на задачу, используя всего около 80 демонстраций на задачу.

5. Какие задачи может решать модель LingBot-VLA в робототехнике?

Ответ: модель LingBot-VLA может решать задачи по манипулированию объектами, такие как вставка, укладка, складывание и другие задачи, чувствительные к геометрии. Она также может использоваться для выполнения других задач, требующих обработки языковых и визуальных данных в реальном мире.

Источник