Роботы вступают в свою эру, подобную GPT-3. Годами исследователи пытались обучать роботов, используя те же авторегрессионные (AR) модели, которые лежат в основе больших языковых моделей (LLM). Если модель может предсказать следующее слово в предложении, она должна уметь предсказывать следующее движение роботизированной руки. Однако на пути этого прогресса стояла техническая преграда: непрерывные движения роботов трудно превратить в дискретные токены.
Команда исследователей из Гарвардского университета и Стэнфордского университета выпустила новый фреймворк под названием Ordered Action Tokenization (OAT), чтобы преодолеть этот разрыв.
Шумный реализм действий роботов
Токенизация превращает сложные данные в последовательность дискретных чисел (токенов). Для роботов эти действия представляют собой непрерывные сигналы, такие как углы суставов. Предыдущие стратегии имели фатальные недостатки:
* Биннинг: превращает каждое измерение действия в «ячейку». Хотя это просто, такой подход создаёт массивные последовательности, которые замедляют обучение и вывод.
* FAST (Frequency-space Action Sequence Tokenization): использует математику для сжатия движений в частотные коэффициенты. Это быстро, но часто приводит к появлению «недекодируемых» последовательностей, где небольшие ошибки заставляют робота останавливаться или двигаться непредсказуемо.
* Learned Latent Tokenizers: используют изученный «словарь» движений. Они безопасны, но не имеют определённого порядка, а это значит, что модель рассматривает ранние и поздние токены как одинаково важные.
Три золотых правила OAT
Исследовательская группа определила три основных свойства — десидерата — для функционального токенизатора роботов:
1. Высокая степень сжатия (P.1): последовательности токенов должны быть короткими, чтобы модели были эффективными.
2. Полная декодируемость (P.2): декодер должен быть тотальной функцией, гарантирующей, что каждая возможная последовательность токенов соответствует действительному движению.
3. Причинно-следственная упорядоченность (P.3): токены должны иметь левостороннюю структуру, где ранние токены фиксируют глобальное движение, а более поздние — уточняют детали.
Секрет успеха: вложенный дропаут и регистры
OAT использует трансформер-энкодер с регистрационными токенами для суммирования фрагментов действий. Чтобы заставить модель сначала изучить «важные» вещи, исследовательская группа использовала инновационный подход под названием Nested Dropout.
Преодоление бенчмарков
Исследовательская группа протестировала OAT на более чем 20 задачах в четырёх основных симуляционных бенчмарках. OAT последовательно превосходил отраслевой стандарт Diffusion Policy (DP) и предыдущие токенизаторы.
| Бенчмарк | Уровень успеха OAT | Уровень успеха DP | Количество токенов для бина | Количество токенов OAT |
| — | — | — | — | — |
| LIBERO | 56,3% | 36,6% | 224 | 8 |
| RoboMimic | 73,1% | 67,1% | 224 | 8 |
| MetaWorld | 24,4% | 19,3% | 128 | 8 |
| RoboCasa | 54,6% | 54,0% | 384 | 8 |
«В любое время» вывод: скорость против точности
Наиболее практичным преимуществом OAT является детокенизация на основе префиксов. Поскольку токены упорядочены по важности, вы можете остановить модель раньше.
* Грубые действия: декодирование всего 1–2 токенов быстро задаёт роботу общее направление, что полезно для задач с низкой задержкой.
* Точные действия: генерация всех 8 токенов обеспечивает высокоточную детализацию, необходимую для сложных вставок.
Это позволяет плавно находить баланс между стоимостью вычислений и точностью действий, чего не могли предложить предыдущие токенизаторы фиксированной длины.
Ключевые выводы
* Решение проблемы токенизации: OAT устраняет фундаментальное ограничение в применении авторегрессионных моделей в робототехнике, внедряя изученный токенизатор, который одновременно обеспечивает высокую степень сжатия, полную декодируемость и причинно-следственную упорядоченность.
* Упорядоченное представление с помощью вложенного дропаута: используя вложенный дропаут во время обучения, OAT заставляет модель расставлять приоритеты в глобальных, грубых моделях движения в ранних токенах, сохраняя более поздние токены для тонко настроенных уточнений.
* Полная декодируемость и надёжность: в отличие от предыдущих методов в частотной области, таких как FAST, OAT гарантирует, что детокенизатор является тотальной функцией, а это значит, что каждая возможная последовательность токенов генерирует допустимый фрагмент действия, предотвращая сбои при выполнении во время выполнения.
* Гибкий «в любое время» вывод: упорядоченная структура позволяет выполнять декодирование на основе префиксов, позволяя роботам выполнять грубые действия всего с одним или двумя токенами для экономии вычислений или использовать полные восьми-токеновые последовательности для задач с высокой точностью.
* Превосходная производительность в бенчмарках: авторегрессионные политики, оснащённые OAT, последовательно превосходят диффузионные базовые показатели и другие схемы токенизации, достигая совокупного уровня успеха в 52,3% и превосходные результаты в реальных задачах «Pick & Place» и «Stack Cups».
Ознакомьтесь с [статьёй](https://arxiv.org/pdf/2602.04215), [репозиторием](https://arxiv.org/pdf/2602.04215) и [страницей проекта](https://arxiv.org/pdf/2602.04215). Также подписывайтесь на нас в [Twitter](https://arxiv.org/pdf/2602.04215) и присоединяйтесь к нашему [ML SubReddit](https://arxiv.org/pdf/2602.04215) с более чем 100 тысячами участников и подписывайтесь на [наш информационный бюллетень](https://arxiv.org/pdf/2602.04215). А ещё присоединяйтесь к нам в [Telegram](https://arxiv.org/pdf/2602.04215).
1. Какие проблемы решает новый фреймворк OAT в контексте обучения роботов?
В статье указано, что OAT решает проблему токенизации непрерывных движений роботов в дискретные токены. Предыдущие стратегии, такие как биннинг, FAST и Learned Latent Tokenizers, имели недостатки, которые замедляли обучение и вывод. OAT использует трансформер-энкодер с регистрационными токенами для суммирования фрагментов действий и обеспечивает высокую степень сжатия, полную декодируемость и причинно-следственную упорядоченность.
2. Какие основные свойства — десидерата — определены для функционального токенизатора роботов?
В статье перечислены три основных свойства для функционального токенизатора роботов:
* Высокая степень сжатия (P.1): последовательности токенов должны быть короткими, чтобы модели были эффективными.
* Полная декодируемость (P.2): декодер должен быть тотальной функцией, гарантирующей, что каждая возможная последовательность токенов соответствует действительному движению.
* Причинно-следственная упорядоченность (P.3): токены должны иметь левостороннюю структуру, где ранние токены фиксируют глобальное движение, а более поздние — уточняют детали.
3. Какие преимущества предлагает OAT по сравнению с другими токенизаторами?
OAT предлагает несколько преимуществ по сравнению с другими токенизаторами:
* Высокая степень сжатия: последовательности токенов короткие, что делает модели более эффективными.
* Полная декодируемость: декодер является тотальной функцией, что гарантирует, что каждая последовательность токенов соответствует действительному движению.
* Причинно-следственная упорядоченность: ранние токены фиксируют глобальное движение, а более поздние уточняют детали.
* Гибкий «в любое время» вывод: упорядоченная структура позволяет выполнять декодирование на основе префиксов, что позволяет роботам выполнять грубые действия с одним или двумя токенами или использовать полные восьми-токеновые последовательности для задач с высокой точностью.
* Превосходная производительность в бенчмарках: авторегрессионные политики, оснащённые OAT, последовательно превосходят диффузионные базовые показатели и другие схемы токенизации.
4. Как OAT обеспечивает баланс между стоимостью вычислений и точностью действий?
OAT обеспечивает баланс между стоимостью вычислений и точностью действий за счёт упорядоченной структуры токенов. Грубые действия могут быть выполнены с использованием всего 1–2 токенов, что экономит вычисления. Точные действия могут быть выполнены с использованием всех 8 токенов, что обеспечивает высокоточную детализацию. Это позволяет плавно находить баланс между стоимостью вычислений и точностью действий.
5. Какие ключевые выводы можно сделать из статьи о OAT?
Ключевые выводы из статьи:
* OAT устраняет фундаментальное ограничение в применении авторегрессионных моделей в робототехнике.
* OAT обеспечивает высокую степень сжатия, полную декодируемость и причинно-следственную упорядоченность.
* OAT гарантирует, что детокенизатор является тотальной функцией, предотвращая сбои при выполнении во время выполнения.
* OAT предлагает гибкий «в любое время» вывод, позволяя роботам выполнять грубые или точные действия в зависимости от задачи.
* Авторегрессионные политики, оснащённые OAT, последовательно превосходят диффузионные базовые показатели и другие схемы токенизации.