Объединение восприятия и действия в робототехнике
Мультимодальные большие языковые модели (MLLMs) обещают позволить машинам, таким как роботизированные манипуляторы и шагающие роботы, воспринимать окружающую среду, интерпретировать сценарии и предпринимать осмысленные действия. Интеграция такого интеллекта в физические системы продвигает робототехнику, приближая её к созданию автономных машин, которые не просто видят и описывают, но и планируют и перемещаются в окружающей среде, основываясь на контекстуальном понимании.
Несмотря на растущие возможности MLLMs, одной из постоянных проблем является их неспособность объединить зрение, рассуждение и физическое взаимодействие в одну согласованную систему. Модели, обученные понимать изображения или текст, часто оказываются неэффективными, когда их просят управлять роботами в реальных пространствах.
Ограничения предыдущих моделей VLA
Предыдущие инструменты, предназначенные для управления роботами, в значительной степени полагаются на модели vision-language-action (VLA). Эти модели обучаются на обширных наборах данных для преобразования визуальных наблюдений в управляющие сигналы. Хотя некоторые решения пытаются сохранить способность MLLMs к рассуждению, переводя команды в текстовые действия, они сталкиваются с трудностями в поддержании точности и адаптивности во время выполнения задач управления.
Например, VLAs часто снижают производительность при применении к разнообразным или долгосрочным роботизированным операциям. Кроме того, из-за разрыва между пониманием на основе изображений и управлением движением эти инструменты обычно не могут обобщаться в различных средах или типах роботов.
Введение VeBrain: единая мультимодальная платформа
Исследователи из Shanghai AI Laboratory, Tsinghua University и SenseTime Research совместно с другими институтами представили унифицированную платформу под названием Visual Embodied Brain (VeBrain). VeBrain переосмысливает управление роботами как текстовую задачу в 2D-пространстве, приближая её к тому, как функционируют MLLMs. Платформа объединяет мультимодальное понимание, пространственное рассуждение и управление роботами в единую структуру.
Специально разработанный роботизированный адаптер преобразует выходные данные MLLM в исполняемые политики движения, позволяя одной модели управлять восприятием, рассуждением и контролем. VeBrain также поддерживается высококачественным набором инструкций под названием VeBrain-600k, который объединяет более 600 000 образцов мультимодальных задач, включая движение робота и этапы рассуждения.
Технические компоненты: архитектура и роботизированный адаптер
Для выполнения своих функций VeBrain использует архитектуру, основанную на Qwen2.5-VL, дополненную компонентами, которые обеспечивают управление в реальных условиях. Роботизированный адаптер содержит четыре ключевых модуля:
* Точечный трекер обновляет 2D-ключевые точки по мере изменения обзора робота, обеспечивая точное наведение.
* Контроллер движения преобразует 2D-ключевые точки в 3D-движения путём объединения данных изображения с картами глубины.
* Исполнитель навыков сопоставляет прогнозируемые действия, такие как «поворот» или «схватывание», с предварительно обученными навыками робота.
* Модуль динамического перехвата отслеживает сбои или аномалии, возвращая контроль MLLM при необходимости.
Эти модули образуют замкнутую систему, которая принимает решения, действует и самокорректируется, позволяя роботам эффективно работать в различных ситуациях.
Оценка производительности на мультимодальных и роботизированных тестах
VeBrain был оценён по 13 мультимодальным и 5 пространственным тестам. На MMVet он показал улучшение на 5,6% по сравнению с Qwen2.5-VL. Он набрал 101,5 балла по метрике CIDEr для ScanQA и 83,7 балла по MMBench. На бенчмарке VSI он показал средний результат 39,9, превзойдя Qwen2.5-VL с результатом 35,9.
В роботизированных оценках VeBrain показал 86,4% успеха в задачах с семиногом, значительно превзойдя такие модели, как VLA и π0, которые набрали 32,1% и 31,4% соответственно. В задачах с роботизированной рукой он достиг показателя успешности 74,3%, превзойдя другие модели на 80%.
Эти результаты демонстрируют способность VeBrain справляться с долгосрочными и пространственно сложными задачами управления с высокой надёжностью.
Заключение
Исследование представляет собой перспективное направление для воплощённого ИИ. Исследователям удалось переопределить управление роботами как языковую задачу, позволяя сосуществовать высокоуровневому рассуждению и низкоуровневому действию. Метод устраняет разрыв между пониманием изображений и выполнением задач роботом функциональным и масштабируемым способом.
Благодаря надёжной конструкции и высокой производительности, VeBrain сигнализирует о сдвиге в сторону более унифицированных интеллектуальных робототехнических систем, способных автономно работать в разнообразных задачах и средах.