VeBrain: единая мультимодальная платформа искусственного интеллекта для визуального рассуждения и управления роботами в реальных условиях

Объединение восприятия и действия в робототехнике

Мультимодальные большие языковые модели (MLLMs) обещают позволить машинам, таким как роботизированные манипуляторы и шагающие роботы, воспринимать окружающую среду, интерпретировать сценарии и предпринимать осмысленные действия. Интеграция такого интеллекта в физические системы продвигает робототехнику, приближая её к созданию автономных машин, которые не просто видят и описывают, но и планируют и перемещаются в окружающей среде, основываясь на контекстуальном понимании.

Несмотря на растущие возможности MLLMs, одной из постоянных проблем является их неспособность объединить зрение, рассуждение и физическое взаимодействие в одну согласованную систему. Модели, обученные понимать изображения или текст, часто оказываются неэффективными, когда их просят управлять роботами в реальных пространствах.

Ограничения предыдущих моделей VLA

Предыдущие инструменты, предназначенные для управления роботами, в значительной степени полагаются на модели vision-language-action (VLA). Эти модели обучаются на обширных наборах данных для преобразования визуальных наблюдений в управляющие сигналы. Хотя некоторые решения пытаются сохранить способность MLLMs к рассуждению, переводя команды в текстовые действия, они сталкиваются с трудностями в поддержании точности и адаптивности во время выполнения задач управления.

Например, VLAs часто снижают производительность при применении к разнообразным или долгосрочным роботизированным операциям. Кроме того, из-за разрыва между пониманием на основе изображений и управлением движением эти инструменты обычно не могут обобщаться в различных средах или типах роботов.

Введение VeBrain: единая мультимодальная платформа

Исследователи из Shanghai AI Laboratory, Tsinghua University и SenseTime Research совместно с другими институтами представили унифицированную платформу под названием Visual Embodied Brain (VeBrain). VeBrain переосмысливает управление роботами как текстовую задачу в 2D-пространстве, приближая её к тому, как функционируют MLLMs. Платформа объединяет мультимодальное понимание, пространственное рассуждение и управление роботами в единую структуру.

Специально разработанный роботизированный адаптер преобразует выходные данные MLLM в исполняемые политики движения, позволяя одной модели управлять восприятием, рассуждением и контролем. VeBrain также поддерживается высококачественным набором инструкций под названием VeBrain-600k, который объединяет более 600 000 образцов мультимодальных задач, включая движение робота и этапы рассуждения.

Технические компоненты: архитектура и роботизированный адаптер

Для выполнения своих функций VeBrain использует архитектуру, основанную на Qwen2.5-VL, дополненную компонентами, которые обеспечивают управление в реальных условиях. Роботизированный адаптер содержит четыре ключевых модуля:

* Точечный трекер обновляет 2D-ключевые точки по мере изменения обзора робота, обеспечивая точное наведение.
* Контроллер движения преобразует 2D-ключевые точки в 3D-движения путём объединения данных изображения с картами глубины.
* Исполнитель навыков сопоставляет прогнозируемые действия, такие как «поворот» или «схватывание», с предварительно обученными навыками робота.
* Модуль динамического перехвата отслеживает сбои или аномалии, возвращая контроль MLLM при необходимости.

Эти модули образуют замкнутую систему, которая принимает решения, действует и самокорректируется, позволяя роботам эффективно работать в различных ситуациях.

Оценка производительности на мультимодальных и роботизированных тестах

VeBrain был оценён по 13 мультимодальным и 5 пространственным тестам. На MMVet он показал улучшение на 5,6% по сравнению с Qwen2.5-VL. Он набрал 101,5 балла по метрике CIDEr для ScanQA и 83,7 балла по MMBench. На бенчмарке VSI он показал средний результат 39,9, превзойдя Qwen2.5-VL с результатом 35,9.

В роботизированных оценках VeBrain показал 86,4% успеха в задачах с семиногом, значительно превзойдя такие модели, как VLA и π0, которые набрали 32,1% и 31,4% соответственно. В задачах с роботизированной рукой он достиг показателя успешности 74,3%, превзойдя другие модели на 80%.

Эти результаты демонстрируют способность VeBrain справляться с долгосрочными и пространственно сложными задачами управления с высокой надёжностью.

Заключение

Исследование представляет собой перспективное направление для воплощённого ИИ. Исследователям удалось переопределить управление роботами как языковую задачу, позволяя сосуществовать высокоуровневому рассуждению и низкоуровневому действию. Метод устраняет разрыв между пониманием изображений и выполнением задач роботом функциональным и масштабируемым способом.

Благодаря надёжной конструкции и высокой производительности, VeBrain сигнализирует о сдвиге в сторону более унифицированных интеллектуальных робототехнических систем, способных автономно работать в разнообразных задачах и средах.

Источник

Ограничения предыдущих моделей VLA

Введение VeBrain: единая мультимодальная платформа

Технические компоненты: архитектура и роботизированный адаптер

Оценка производительности на мультимодальных и роботизированных тестах

Заключение

Оставьте комментарий Отменить ответ