Команда Physical Intelligence представляет систему MEM для роботов: многоуровневая система памяти, обеспечивающая Gemma 3-4B VLA 15-минутным контекстом для сложных задач

Современные комплексные политики для роботов, в частности модели Vision-Language-Action (VLA), обычно работают с одним наблюдением или очень короткой историей. Из-за «отсутствия памяти» долгосрочные задачи, такие как уборка кухни или следование сложному рецепту, становятся вычислительно неосуществимыми или склонны к сбоям.

Для решения этой проблемы исследователи из Physical Intelligence, Стэнфорда, Калифорнийского университета в Беркли и Массачусетского технологического института представили многоуровневую воплощённую память (Multi-Scale Embodied Memory, MEM).

Архитектура памяти с двумя масштабами

MEM разделяет память робота на два отдельных масштаба, чтобы сбалансировать семантический контекст с ограничениями управления в реальном времени.

1. Краткосрочная видеопамять

Для задач, требующих детального пространственного осознания, например, для устранения самозатенений или адаптации захвата, требуются плотные визуальные данные. MEM использует эффективный видеокодек, который расширяет стандартные Vision Transformers (ViTs).

Чтобы поддерживать вывод в реальном времени (380 мс «барьер реального времени»), архитектура избегает совместного внимания ко всем участкам. Вместо этого используется пространственно-временное раздельное внимание, чередующее пространственное внимание внутри кадров с причинно-временным вниманием между кадрами каждые четыре слоя.

Вычислительная сложность снижается с O(n²K²) до O(Kn² + nK²), где n — количество пространственных участков, а K — количество временных шагов.

2. Долгосрочная языковая память

Чтобы справиться с задачами, охватывающими до 15 минут, MEM использует языковое представление для семантических событий. Система разлагает прогнозирование действий следующим образом:

$$\pi(a{t:t+H}, l{t+1}, m{t+1} | o{t-T:t}, m{t}, g) \approx \pi{LL}(a{t:t+H} | o{t-K:t}, l{t+1}, g) \pi{HL}(l{t+1}, m{t+1} | o{t}, m{t}, g)$$

Здесь высокоуровневая политика (πHL) поддерживает текущее языковое резюме (mt) прошлых событий и генерирует инструкции для низкоуровневой политики (πLL).

Реализация и производительность

Исследовательская группа интегрировала MEM в π0.6 VLA, которая инициализирована из предварительно обученной модели Gemma 3-4B. Модель была предварительно обучена на разнообразной смеси демонстраций роботов, визуально-языковых задачах и данных из интернета.

Ключевые результаты:

* Адаптация в контексте: MEM позволяет роботам адаптировать стратегии манипулирования на основе недавних неудач. В ходе оценки это привело к увеличению на 62% коэффициента успешности при открытии холодильников с неизвестными направлениями петель и увеличению на 11% при подборе палочек для еды на разной высоте.
* Долгосрочные задачи: модель успешно выполнила 15-минутные задачи, такие как «Настройка рецепта» (извлечение ингредиентов из разных мест) и «Уборка кухни» (мытьё посуды и вытирание столешниц). Модели без памяти (VLA) значительно чаще терпели неудачу при выполнении этих задач.
* Эффективность: видеокодек позволяет модели обрабатывать до 16 кадров наблюдения (~1 минута), оставаясь при этом ниже критических порогов вывода в реальном времени на одном графическом процессоре NVIDIA H100.

MEM демонстрирует, что сочетание плотных краткосрочных визуальных токенов с сжатыми долгосрочными языковыми сводками позволяет VLA масштабировать свою «рабочую память» без непомерных вычислительных затрат.

1. Какие проблемы решает система MEM в контексте работы роботов?

Система MEM решает проблему «отсутствия памяти» у роботов, оснащённых моделями Vision-Language-Action (VLA). Это позволяет роботам эффективно выполнять долгосрочные задачи, такие как уборка кухни или следование сложному рецепту, которые ранее были вычислительно неосуществимыми или склонны к сбоям из-за ограниченного контекста.

2. Какие два масштаба памяти включает в себя система MEM?

Система MEM включает в себя два масштаба памяти: краткосрочную видеопамять для задач, требующих детального пространственного осознания, и долгосрочную языковую память для задач, охватывающих до 15 минут.

3. Какие ключевые результаты были получены при использовании системы MEM?

Ключевые результаты включают адаптацию в контексте, что привело к увеличению коэффициента успешности при открытии холодильников и подборе палочек для еды; успешное выполнение 15-минутных задач, таких как «Настройка рецепта» и «Уборка кухни»; и эффективность обработки до 16 кадров наблюдения (~1 минута) на одном графическом процессоре NVIDIA H100.

4. Как система MEM влияет на производительность роботов при выполнении долгосрочных задач?

Система MEM значительно улучшает производительность роботов при выполнении долгосрочных задач. Она позволяет роботам успешно выполнять задачи, такие как уборка кухни и настройка рецепта, которые ранее были невыполнимы для моделей без памяти (VLA).

5. Какие вычислительные преимущества предоставляет система MEM?

Система MEM снижает вычислительную сложность с O(n²K²) до O(Kn² + nK²), где n — количество пространственных участков, а K — количество временных шагов. Это позволяет модели обрабатывать до 16 кадров наблюдения (~1 минута), оставаясь при этом ниже критических порогов вывода в реальном времени на одном графическом процессоре NVIDIA H100.

Источник