LingBot World: модель реального мира для интерактивного моделирования и воплощённого ИИ от Robbyant Open Sources

Описание

Robbyant, подразделение Ant Group, занимающееся разработкой воплощённого ИИ, выпустило в открытый доступ LingBot World — крупномасштабную модель мира, которая превращает генерацию видео в интерактивный симулятор для воплощённых агентов, автономного вождения и игр.

Система предназначена для визуализации управляемой среды с высокой визуальной точностью, сильной динамикой и долгосрочными временными горизонтами, при этом оставаясь достаточно быстрой для управления в реальном времени.

От текста к видео и обратно

Большинство моделей преобразования текста в видео генерируют короткие клипы, которые выглядят реалистично, но ведут себя как пассивные фильмы. Они не моделируют, как действия изменяют окружающую среду с течением времени. LingBot-World построена как модель мира, обусловленная действиями. Она изучает динамику перехода виртуального мира, так что ввод с клавиатуры и мыши вместе с движением камеры определяют эволюцию будущих кадров.

Формально модель изучает условное распределение будущих видео-токенов с учётом прошлых кадров, языковых подсказок и дискретных действий. Во время обучения она прогнозирует последовательности длительностью около 60 секунд. Во время вывода она может авторегрессивно развёртывать согласованные видеопотоки длительностью до 10 минут, сохраняя при этом стабильность структуры сцены.

Механизм данных: от веб-видео до интерактивных траекторий

Ключевой особенностью LingBot-World является унифицированный механизм данных. Он обеспечивает богатое, согласованное управление тем, как действия изменяют мир, охватывая при этом разнообразные реальные сцены.

Конвейер сбора данных объединяет 3 источника:
* крупномасштабные веб-видео с людьми, животными и транспортными средствами, снятые как от первого, так и от третьего лица;
* игровые данные, где кадры RGB строго сопоставлены с элементами управления пользователем, такими как W, A, S, D, и параметрами камеры;
* синтетические траектории, визуализированные в Unreal Engine, где известны чистые кадры, внутренние и внешние параметры камеры и расположение объектов.

После сбора данных этап профилирования стандартизирует этот разнородный корпус. Он фильтрует по разрешению и длительности, сегментирует видео на клипы и оценивает недостающие параметры камеры с помощью геометрических моделей и моделей поз. Модель языка зрения оценивает клипы по качеству, величине движения и типу обзора, затем выбирает тщательно отобранное подмножество.

На основе этого иерархический модуль создания подписей создаёт 3 уровня текстового контроля:
* повествовательные подписи для целых траекторий, включая движение камеры;
* статические подписи сцен, описывающие расположение объектов без движения;
* плотные временные подписи для коротких временных окон, фокусирующиеся на локальной динамике.

Это разделение позволяет модели отделить статическую структуру от моделей движения, что важно для обеспечения согласованности на длинных горизонтах.

Архитектура, MoE видео-бэкбон и кондиционирование действий

LingBot-World начинается с Wan2.2, диффузионного трансформера изображений в видео с 14 миллиардами параметров. Эта основа уже учитывает сильные априорные знания в открытой области видео. Команда Robbyant расширяет её до смеси экспертов DiT с двумя экспертами. Каждый эксперт имеет около 14 миллиардов параметров, таким образом, общее количество параметров составляет 28 миллиардов, но на каждом этапе шумоподавления активен только один эксперт. Это позволяет поддерживать стоимость вывода аналогичной плотной модели с 14 миллиардами параметров, расширяя при этом возможности.

Для обучения используются как задачи преобразования изображения в видео, так и задачи продолжения видео. Учитывая одно изображение, модель может синтезировать будущие кадры. Учитывая частичный клип, она может продлить последовательность. Это приводит к внутренней функции перехода, которая может начинаться с произвольных временных точек.

LingBot World Fast: дистилляция для использования в реальном времени

Модель LingBot-World Base, обученная в середине, всё ещё полагается на многоступенчатое диффузионное и полное временное внимание, что дорого для взаимодействия в реальном времени. Команда Robbyant представляет LingBot-World-Fast как ускоренный вариант.

Быстрая модель инициализируется с помощью эксперта с высоким уровнем шума и заменяет полное временное внимание блочно-причинным вниманием. Внутри каждого временного блока внимание является двунаправленным. Между блоками оно является причинно-следственным. Такая конструкция поддерживает кэширование ключевых значений, поэтому модель может потоково транслировать кадры с более низкими затратами.

Появление памяти и поведение на длинных горизонтах

Одним из наиболее интересных свойств LingBot-World является появление памяти. Модель поддерживает глобальную согласованность без явных трёхмерных представлений, таких как гауссовское разбрызгивание. Когда камера удаляется от ориентира, такого как Стоунхендж, и возвращается примерно через 60 секунд, структура вновь появляется с согласованной геометрией. Когда машина покидает кадр, а затем снова входит, она появляется в физически правдоподобном месте, а не замороженной или сброшенной.

Модель также может поддерживать сверхдлинные последовательности. Исследовательская группа демонстрирует согласованное создание видео продолжительностью до 10 минут со стабильной структурой макета и повествования.

Результаты VBench и сравнение с другими моделями мира

Для количественной оценки исследовательская группа использовала VBench на тщательно отобранном наборе из 100 сгенерированных видео, каждое продолжительностью более 30 секунд. LingBot-World сравнивалась с двумя недавними моделями мира — Yume-1.5 и HY-World-1.5.

На VBench LingBot World сообщает: [ссылка на arxiv].

Эти оценки выше, чем у обеих базовых моделей по качеству изображения, эстетическому качеству и степени динамичности. Разница в динамичности значительная — 0,8857 по сравнению с 0,7612 и 0,7217, что указывает на более богатые переходы сцен и более сложное движение, реагирующее на действия пользователя. Плавность движения и отсутствие временных мерцаний сопоставимы с лучшим базовым уровнем, а метод достигает наилучшего общего показателя согласованности среди трёх моделей.

Приложения, управляемые текстом миры, агенты и 3D-реконструкция

Помимо синтеза видео, LingBot-World позиционируется как тестовая площадка для воплощённого ИИ. Модель поддерживает управляемые текстом мировые события, где текстовые инструкции изменяют погоду, освещение, стиль или внедряют локальные события, такие как фейерверки или движущиеся животные с течением времени, сохраняя при этом пространственную структуру.

Она также может обучать агентов, выполняющих действия, например, с помощью небольшой модели языка действий, такой как Qwen3-VL-2B, предсказывающей политику управления по изображениям. Поскольку сгенерированные видеопотоки геометрически согласованы, они могут использоваться в качестве входных данных для конвейеров 3D-реконструкции, которые создают стабильные облака точек для внутренних, внешних и синтетических сцен.

Ключевые выводы

LingBot-World — это модель мира, обусловленная действиями, которая расширяет возможности преобразования текста в видео в симуляцию текста в мире, где действия с клавиатуры и движение камеры напрямую управляют долгосрочными видеоразвёртками длительностью около 10 минут.

Система обучена на унифицированном механизме данных, который объединяет веб-видео, игровые журналы с метками действий и траектории Unreal Engine, а также иерархические повествовательные, статические сценарные и плотные временные подписи для отделения макета от движения.

Основной основой является диффузионный трансформер со смесью экспертов с 28 миллиардами параметров, построенный на основе Wan2.2, с двумя экспертами по 14 миллиардов каждый, и адаптерами действий, которые настраиваются, пока визуальная основа остаётся замороженной.

LingBot-World-Fast — это дистиллированный вариант, в котором используется блочно-причинное внимание, диффузионное форсирование и дистилляция соответствия распределению для достижения примерно 16 кадров в секунду при 480p на одном узле GPU с заявленной сквозной задержкой менее 1 секунды для интерактивного использования.

На VBench с 100 сгенерированными видео продолжительностью более 30 секунд LingBot-World демонстрирует высочайшее качество изображения, эстетическое качество и степень динамичности среди Yume-1.5 и HY-World-1.5, а модель демонстрирует появление памяти и стабильную структуру дальнего действия, подходящую для воплощённых агентов и 3D-реконструкции.

1. Какие ключевые особенности отличают модель LingBot World от других моделей преобразования текста в видео?

LingBot World отличается от других моделей преобразования текста в видео тем, что она построена как модель мира, обусловленная действиями. Она изучает динамику перехода виртуального мира, так что ввод с клавиатуры и мыши вместе с движением камеры определяют эволюцию будущих кадров. Это позволяет модели генерировать согласованные видеопотоки длительностью до 10 минут, сохраняя при этом стабильность структуры сцены.

2. Какие источники данных используются для обучения модели LingBot World?

Для обучения модели LingBot World используются три источника данных:
* крупномасштабные веб-видео с людьми, животными и транспортными средствами, снятые как от первого, так и от третьего лица;
* игровые данные, где кадры RGB строго сопоставлены с элементами управления пользователем, такими как W, A, S, D, и параметрами камеры;
* синтетические траектории, визуализированные в Unreal Engine, где известны чистые кадры, внутренние и внешние параметры камеры и расположение объектов.

3. Какие преимущества предоставляет модель LingBot World для приложений, управляемых текстом?

Модель LingBot World предоставляет несколько преимуществ для приложений, управляемых текстом:
* поддержка управляемых текстом мировых событий, где текстовые инструкции изменяют погоду, освещение, стиль или внедряют локальные события, такие как фейерверки или движущиеся животные с течением времени, сохраняя при этом пространственную структуру;
* возможность обучения агентов, выполняющих действия, например, с помощью небольшой модели языка действий, такой как Qwen3-VL-2B, предсказывающей политику управления по изображениям;
* использование сгенерированных видеопотоков в качестве входных данных для конвейеров 3D-реконструкции, которые создают стабильные облака точек для внутренних, внешних и синтетических сцен.

4. Как модель LingBot World поддерживает согласованность на длинных горизонтах?

Одним из наиболее интересных свойств LingBot-World является появление памяти. Модель поддерживает глобальную согласованность без явных трёхмерных представлений, таких как гауссовское разбрызгивание. Когда камера удаляется от ориентира и возвращается примерно через 60 секунд, структура вновь появляется с согласованной геометрией. Это позволяет модели поддерживать согласованность на длинных горизонтах.

5. Какие результаты были получены при сравнении LingBot World с другими моделями мира на VBench?

При сравнении LingBot World с двумя недавними моделями мира — Yume-1.5 и HY-World-1.5 — на VBench LingBot World продемонстрировала более высокие оценки по качеству изображения, эстетическому качеству и степени динамичности. Разница в динамичности значительная, что указывает на более богатые переходы сцен и более сложное движение, реагирующее на действия пользователя. Плавность движения и отсутствие временных мерцаний также сопоставимы с лучшим базовым уровнем.

Источник