Исследователи из MBZUAI представили PAN: общую модель мира для интерактивного моделирования на длительном горизонте

Большинство моделей преобразования текста в видео генерируют один клип по запросу и останавливаются. Они не сохраняют внутреннее состояние мира, которое сохранялось бы при поступлении действий с течением времени. PAN, новая модель из Института фундаментальных моделей MBZUAI, призвана восполнить этот пробел, действуя как общая модель мира, которая предсказывает будущие состояния мира в виде видео, обусловленные историей и действиями на естественном языке.

Описание модели PAN

PAN определяется как общая, интерактивная модель мира с длинным горизонтом. Она поддерживает внутреннее скрытое состояние, которое представляет текущий мир, а затем обновляет это состояние, когда получает действие на естественном языке, например, «поверните налево и ускорьте» или «переместите руку робота к красному блоку». Модель декодирует обновлённое состояние в короткий сегмент видео, который показывает следствие этого действия. Этот цикл повторяется, так что одно и то же состояние мира развивается на протяжении многих шагов.

Такая конструкция позволяет PAN поддерживать моделирование в открытой предметной области, обусловленное действиями. Она может моделировать контрфактические варианты будущего для различных последовательностей действий. Внешний агент может запрашивать у PAN данные в качестве симулятора, сравнивать предсказанные варианты будущего и выбирать действия на основе этих прогнозов.

Архитектура GLP

Основой PAN является архитектура генеративного латентного прогнозирования (GLP). GLP отделяет динамику мира от визуального рендеринга.

1. Видеонакодер преобразует изображения или видеофрагменты в скрытое состояние мира.
2. Авторегрессионная основа латентной динамики на базе большой языковой модели предсказывает следующее скрытое состояние с учётом истории и текущего действия.
3. Декодер диффузионного видео восстанавливает соответствующий сегмент видео из этого скрытого состояния.

В PAN видеонакодер и основа построены на Qwen2.5-VL-7B-Instruct. Видеобашня токенизирует кадры на патчи и создаёт структурированные вложения. Языковая основа обрабатывает историю состояний мира и действий, а также изученные токены запросов и выводит скрытое представление следующего состояния мира.

Тренировка и данные

PAN обучается в два этапа. На первом этапе исследовательская группа адаптирует Wan2.1 T2V 14B в архитектуру Causal Swin DPM. Они обучают декодер в BFloat16 с AdamW, косинусным расписанием, градиентным клиппингом, FlashAttention3 и ядрами FlexAttention, а также гибридной схемой параллельной обработки данных на 960 NVIDIA H200 GPU.

На втором этапе они интегрируют замороженную основу Qwen2.5 VL 7B Instruct с декодером диффузионного видео под целью GLP. Языковая модель остаётся замороженной. Модель изучает встраивание запросов и декодер, чтобы предсказанные латенты и реконструированные видео оставались согласованными.

Данные для обучения поступают из общедоступных видеоисточников, которые охватывают повседневную деятельность, взаимодействие человека с объектами, природную среду и сценарии с несколькими агентами. Длинные видео разбиваются на согласованные клипы с помощью детектора границ кадров. Фильтрационный конвейер удаляет статические или чрезмерно динамические клипы, низкое эстетическое качество, тяжёлые текстовые наложения и записи экрана с помощью метрик на основе правил, предварительно обученных детекторов и специального фильтра VLM.

Ключевые выводы

* PAN реализует архитектуру генеративного латентного прогнозирования, сочетая основу латентной динамики Qwen2.5-VL-7B с декодером диффузионного видео Wan2.1-T2V-14B, чтобы объединить латентное обоснование мира и реалистичную генерацию видео.
* Механизм Causal Swin DPM вводит скользящее окно, процесс пошаговой причинной деноизации, который учитывает частично зашумленные прошлые фрагменты, что стабилизирует видеовыходы на длительном горизонте и уменьшает временной дрейф по сравнению с наивным условием по последнему кадру.
* PAN обучается в два этапа, сначала адаптируя декодер Wan2.1 к Causal Swin DPM на 960 NVIDIA H200 GPU с целью сопоставления потока, а затем совместно обучая стек GLP с замороженной основой Qwen2.5-VL и изученными вложениями запросов плюс декодер.
* Обучающий корпус состоит из крупномасштабных пар видеодействий из различных областей, обработанных с помощью сегментации, фильтрации и плотного временного пересказа, что позволяет PAN изучать динамику, обусловленную действиями, на большом расстоянии, вместо изолированных коротких клипов.

PAN достигает современных результатов в открытых источниках по точности моделирования действий, прогнозированию на длительном горизонте и симулятивному планированию.

Сравнение с другими моделями

| Характеристика | PAN | Cosmos video2world WFMWan2.1 T2V 14B | V JEPA 2 |
| — | — | — | — |
| Организация | MBZUAI Institute of Foundation Models | NVIDIA Research | Wan AI and Open Laboratory |
| Основная роль | Общая модель мира для интерактивного моделирования на длительном горизонте с действиями на естественном языке | Платформа фундаментальных моделей мира для физического ИИ с генерацией видео для управления и навигации | Высококачественный генератор текста в видео и изображения в видео для общего создания и редактирования контента |
| Модель мира | Явная модель GLP, определённая скрытым состоянием, действием и следующим наблюдением, фокусируется на симулятивном мышлении и планировании | Описана как фундаментальная модель мира, которая генерирует будущие видеомиры из прошлых видео и управляющих подсказок, ориентированных на физический ИИ, робототехнику, вождение, навигацию | Сформулирована как модель генерации видео, а не в первую очередь как модель мира, без постоянного внутреннего состояния мира, описанного в документах |
| Архитектура | Стек GLP, видеоэнкодер из Qwen2.5 VL 7B, основа латентной динамики на базе LLM, декодер диффузионного видео с Causal Swin DPM | Семейство диффузионных и авторегрессионных моделей мира, с генерацией video2world, плюс декодер диффузии и апсемплер на основе языка | Сpatio-temporal variational autoencoder и диффузионный трансформатор T2V на 14 миллиардов параметров, поддерживает несколько генеративных задач и разрешений |
| Ядро и скрытое пространство | Многомодальное скрытое пространство из Qwen2.5 VL 7B, используемое как для кодирования наблюдений, так и для авторегрессивного латентного прогнозирования при действиях | Токовая модель video2world с текстовой подсказкой и опциональным декодером диффузии для уточнения | Скрытое пространство из VAE плюс диффузионный трансформатор, управляемое в основном текстовыми или графическими подсказками |
| Действие или управление | Действия на естественном языке в диалоговом формате, применяемые на каждом шаге моделирования | Управление через текстовые подсказки и, при необходимости, позу камеры для навигации и последующих задач, таких как управление гуманоидами и автономное вождение | Текстовые подсказки и графические входные данные для управления контентом |
| Длительный горизонт | Causal Swin DPM скользящее окно диффузии, пошаговое причинное внимание, обусловленное слегка зашумленным последним кадром для уменьшения дрейфа и поддержания стабильного моделирования на длительном горизонте | Модель video2world генерирует будущее видео, учитывая прошлое окно и подсказку, поддерживает навигацию и длинные последовательности | Может генерировать несколько секунд при 480 P и 720 P, фокусируется на визуальном качестве и движении |
| Данные для обучения | Крупномасштабные пары видеодействий в различных физических и воплощённых областях | Смешанные проприетарные и общедоступные интернет-видео, ориентированные на категории физического ИИ, такие как вождение, манипулирование, человеческая активность, навигация и динамика природы | Крупномасштабные открытые видео- и графические корпуса для общей визуальной генерации |

Редакционные комментарии

PAN — важный шаг, поскольку он реализует генеративное латентное прогнозирование с компонентами производственного масштаба, такими как Qwen2.5-VL-7B и Wan2.1-T2V-14B, а затем проверяет этот стек на чётко определённых контрольных показателях для моделирования действий, прогнозирования на длительном горизонте и симулятивного планирования.

1. Какие уникальные особенности модели PAN выделяют её среди других моделей преобразования текста в видео?

Ответ: PAN отличается от других моделей тем, что она поддерживает внутреннее скрытое состояние, представляющее текущий мир, и обновляет это состояние при получении действий на естественном языке. Это позволяет модели предсказывать будущие состояния мира в виде видео, обусловленные историей и действиями.

2. Какие этапы включает в себя процесс обучения модели PAN?

Ответ: процесс обучения модели PAN включает в себя два этапа. На первом этапе исследовательская группа адаптирует Wan2.1 T2V 14B в архитектуру Causal Swin DPM. Они обучают декодер в BFloat16 с AdamW, косинусным расписанием, градиентным клиппингом, FlashAttention3 и ядрами FlexAttention, а также гибридной схемой параллельной обработки данных на 960 NVIDIA H200 GPU. На втором этапе они интегрируют замороженную основу Qwen2.5 VL 7B Instruct с декодером диффузионного видео под целью GLP.

3. Какие данные используются для обучения модели PAN?

Ответ: данные для обучения модели PAN поступают из общедоступных видеоисточников, которые охватывают повседневную деятельность, взаимодействие человека с объектами, природную среду и сценарии с несколькими агентами. Длинные видео разбиваются на согласованные клипы с помощью детектора границ кадров. Фильтрационный конвейер удаляет статические или чрезмерно динамические клипы, низкое эстетическое качество, тяжёлые текстовые наложения и записи экрана с помощью метрик на основе правил, предварительно обученных детекторов и специального фильтра VLM.

4. Какие ключевые выводы можно сделать о модели PAN на основе представленного текста?

Ответ: ключевые выводы о модели PAN включают в себя то, что она реализует архитектуру генеративного латентного прогнозирования, сочетая основу латентной динамики Qwen2.5-VL-7B с декодером диффузионного видео Wan2.1-T2V-14B. Механизм Causal Swin DPM вводит скользящее окно, процесс пошаговой причинной деноизации, который учитывает частично зашумлённые прошлые фрагменты, что стабилизирует видеовыходы на длительном горизонте и уменьшает временной дрейф по сравнению с наивным условием по последнему кадру. PAN обучается в два этапа, сначала адаптируя декодер Wan2.1 к Causal Swin DPM на 960 NVIDIA H200 GPU с целью сопоставления потока, а затем совместно обучая стек GLP с замороженной основой Qwen2.5-VL и изученными вложениями запросов плюс декодер.

5. В чём заключается основная роль модели PAN в контексте интерактивного моделирования на длительном горизонте?

Ответ: основная роль модели PAN заключается в том, что она является общей моделью мира для интерактивного моделирования на длительном горизонте с действиями на естественном языке. Она поддерживает моделирование в открытой предметной области, обусловленное действиями, и может моделировать контрфактические варианты будущего для различных последовательностей действий.

Источник