NVIDIA представляет ThinkAct: обоснование действий на основе зрения и языка через усиленное визуальное латентное планирование

Введение

Агенты искусственного интеллекта (ИИ) всё чаще используются для интерпретации сложных мультимодальных инструкций и надёжного выполнения действий в динамических средах. ThinkAct, представленный исследователями из NVIDIA и Национального тайваньского университета, предлагает прорыв в области обоснования действий на основе зрения и языка (VLA), внедряя усиленное визуальное латентное планирование для соединения высокоуровневого мультимодального обоснования и низкоуровневого управления роботом.

Типичные модели VLA напрямую сопоставляют необработанные визуальные и языковые входные данные с действиями посредством сквозного обучения, что ограничивает рассуждения, долгосрочное планирование и адаптивность. Недавние методы начали включать промежуточное обоснование цепочки мыслей (CoT) или пытаются оптимизировать на основе RL, но столкнулись с проблемами масштабируемости, обоснования или обобщения при выполнении высоко вариативных и долгосрочных задач роботизированной манипуляции.

Структура ThinkAct

Архитектура с двумя системами

ThinkAct состоит из двух тесно интегрированных компонентов:
* Мультимодальная LLM (MLLM) для рассуждений: выполняет структурированные пошаговые рассуждения над визуальными сценами и языковыми инструкциями, выводя латентный визуальный план, который кодирует высокоуровневое намерение и контекст планирования.
* Модель действий: модель на основе преобразователя, обусловленная латентным визуальным планом, выполняет декодированную траекторию в виде действий робота в среде.

Такая конструкция позволяет асинхронную работу: LLM «думает» и генерирует планы в медленном темпе, в то время как модуль действий выполняет детальный контроль на более высокой частоте.

Усиленное визуальное латентное планирование

Ключевым нововведением является подход к обучению с подкреплением (RL), использующий визуальные вознаграждения, согласованные с действиями:
* Цель вознаграждения: побуждает модель согласовывать начальные и конечные позиции, предсказанные в плане, с позициями в демонстрационных траекториях, обеспечивая завершение цели.
* Вознаграждение за траекторию: регулирует прогнозируемую визуальную траекторию так, чтобы она соответствовала свойствам распределения экспертных демонстраций, используя расстояние динамического времени (DTW).

Общее вознаграждение объединяет эти визуальные вознаграждения с оценкой правильности формата, побуждая LLM не только давать точные ответы, но и планы, которые переводятся в физически осуществимые действия робота.

Этапы обучения

Многоэтапная процедура обучения включает:
* Супервизированное точное обучение (SFT): холодный старт с вручную аннотированной визуальной траекторией и данными QA для обучения прогнозированию траектории, рассуждениям и форматированию ответов.
* Усиленное точное обучение: оптимизация RL (с использованием групповой относительной оптимизации политики, GRPO) дополнительно стимулирует качественное рассуждение, максимизируя вновь определённые вознаграждения, согласованные с действиями.
* Адаптация действий: политика действий обучается с помощью имитационного обучения, используя выходные данные латентного плана замороженной LLM для управления в различных средах.

Вывод

Во время вывода, учитывая наблюдаемую сцену и языковую инструкцию, модуль рассуждений генерирует латентный визуальный план, который затем обусловливает модуль действий для выполнения полной траектории, что обеспечивает надёжную работу даже в новых, ранее не встречавшихся условиях.

Экспериментальные результаты

Бенчмарк манипулирования роботами

Эксперименты на SimplerEnv и LIBERO демонстрируют превосходство ThinkAct:
* SimplerEnv: превосходит сильные базовые показатели (например, OpenVLA, DiT-Policy, TraceVLA) на 11–17% в различных условиях, особенно в задачах с длинным горизонтом и визуально разнообразными задачами.
* LIBERO: достигает наивысшего общего показателя успешности (84,4%), превосходя в пространственных, объектных, целевых и долгосрочных задачах, подтверждая свою способность обобщать и адаптироваться к новым навыкам и макетам.

Бенчмарк обоснованного рассуждения

На EgoPlan-Bench2, RoboVQA и OpenEQA ThinkAct демонстрирует:
* превосходную точность планирования на несколько шагов и с длинным горизонтом;
* современные показатели BLEU и оценки на основе LLM, отражающие улучшенное семантическое понимание и обоснование для задач визуального ответа на вопросы.

Few-Shot адаптация

ThinkAct обеспечивает эффективную адаптацию few-shot: всего с 10 демонстрациями он достигает существенного прироста в показателях успешности по сравнению с другими методами, подчёркивая силу планирования, основанного на рассуждениях, для быстрого изучения новых навыков или сред.

Саморефлексия и коррекция

Помимо успеха в выполнении задач, ThinkAct демонстрирует эмерджентное поведение:
* Обнаружение сбоев: распознаёт ошибки выполнения (например, упавшие предметы).
* Перепланирование: автоматически пересматривает планы для восстановления и завершения задачи благодаря рассуждению на основе недавних последовательностей визуальных входных данных.

Анализ исследований и модели

Аблационные исследования

* Вознаграждения: как целевое, так и траекторное вознаграждения необходимы для структурированного планирования и обобщения. Удаление любого из них значительно снижает производительность, а опора только на вознаграждения в стиле QA ограничивает возможности многошагового рассуждения.
* Снижение частоты обновлений: ThinkAct достигает баланса между рассуждениями (медленными, планирующими) и действиями (быстрыми, управляющими), обеспечивая надёжную работу без чрезмерных вычислительных затрат.
* Меньшие модели: подход распространяется на меньшие LLM, поддерживая сильные возможности рассуждения и действий.

Детали реализации

* Основная магистраль: Qwen2.5-VL 7B MLLM.
* Наборы данных: разнообразные видеоролики с демонстрацией роботов и людей (Open X-Embodiment, Something-Something V2), а также мультимодальные наборы QA (RoboVQA, EgoPlan-Bench, Video-R1-CoT и т. д.).
* Использует кодировщик изображений (DINOv2), текстовый кодировщик (CLIP) и Q-Former для соединения выходных данных рассуждений с входными данными политики действий.

Обширные эксперименты в реальных и смоделированных условиях подтверждают масштабируемость и надёжность.

Заключение

NVIDIA ThinkAct устанавливает новый стандарт для агентов искусственного интеллекта, доказывая, что усиленное визуальное латентное планирование, где агенты «думают, прежде чем действовать», обеспечивает надёжную, масштабируемую и адаптивную производительность в сложных задачах реального мира, связанных с рассуждениями и манипуляциями роботами. Его двухсистемная конструкция, формирование вознаграждения и убедительные эмпирические результаты открывают путь для создания интеллектуальных универсальных роботов, способных к долгосрочному планированию, адаптации в few-shot и самокоррекции в разнообразных средах.

1. Какие основные компоненты включает в себя архитектура ThinkAct и как они взаимодействуют между собой?

Ответ: архитектура ThinkAct состоит из двух тесно интегрированных компонентов: мультимодальной LLM (MLLM) для рассуждений и модели действий. MLLM выполняет структурированные пошаговые рассуждения над визуальными сценами и языковыми инструкциями, выводя латентный визуальный план, который кодирует высокоуровневое намерение и контекст планирования. Модель действий, основанная на преобразователе, выполняет декодированную траекторию в виде действий робота в среде, обусловленную латентным визуальным планом.

2. Какие проблемы решают исследователи с помощью подхода усиленного визуального латентного планирования в ThinkAct?

Ответ: исследователи решают проблемы масштабируемости, обоснования и обобщения при выполнении высоко вариативных и долгосрочных задач роботизированной манипуляции. Традиционные модели VLA ограничивают рассуждения, долгосрочное планирование и адаптивность, поэтому внедрение усиленного визуального латентного планирования позволяет преодолеть эти ограничения.

3. Какие этапы включает в себя многоэтапная процедура обучения ThinkAct?

Ответ: многоэтапная процедура обучения ThinkAct включает:
* супервизированное точное обучение (SFT) — холодный старт с вручную аннотированной визуальной траекторией и данными QA для обучения прогнозированию траектории, рассуждениям и форматированию ответов;
* усиленное точное обучение — оптимизация RL (с использованием групповой относительной оптимизации политики, GRPO) дополнительно стимулирует качественное рассуждение, максимизируя вновь определённые вознаграждения, согласованные с действиями;
* адаптация действий — политика действий обучается с помощью имитационного обучения, используя выходные данные латентного плана замороженной LLM для управления в различных средах.

4. Какие экспериментальные результаты демонстрируют превосходство ThinkAct над другими методами?

Ответ: эксперименты на SimplerEnv и LIBERO демонстрируют превосходство ThinkAct. На SimplerEnv он превосходит сильные базовые показатели (например, OpenVLA, DiT-Policy, TraceVLA) на 11–17% в различных условиях, особенно в задачах с длинным горизонтом и визуально разнообразными задачами. На LIBERO он достигает наивысшего общего показателя успешности (84,4%), превосходя в пространственных, объектных, целевых и долгосрочных задачах.

5. Какие дополнительные возможности демонстрирует ThinkAct помимо успешного выполнения задач?

Ответ: помимо успешного выполнения задач, ThinkAct демонстрирует эмерджентное поведение, включая обнаружение сбоев и перепланирование. Он распознаёт ошибки выполнения (например, упавшие предметы) и автоматически пересматривает планы для восстановления и завершения задачи благодаря рассуждению на основе недавних последовательностей визуальных входных данных.

Источник