Alibaba представила Lumos-1: унифицированный авторегрессионный генератор видео

Введение в Lumos-1

Исследовательская группа из Alibaba Group’s DAMO Academy, Hupan Lab и Zhejiang University представила Lumos-1 — унифицированную модель для авторегрессионного генерации видео, которая соответствует архитектуре больших языковых моделей (LLM).

Проблема и решение

Генерация видео с помощью авторегрессионных моделей — быстро развивающаяся область исследований. Она фокусируется на синтезе видео кадр за кадром с использованием изученных закономерностей как пространственного расположения, так и временной динамики.

Основная проблема в этой области — точное отражение и моделирование внутренних пространственно-временных зависимостей в видео.

Lumos-1 использует MM-RoPE (Multi-Modal Rotary Position Embeddings) для решения задачи моделирования трёхмерной структуры видео. Модель также использует подход с зависимостью токенов. Это сохраняет двунаправленность внутри кадра и временную причинность между кадрами, что более естественно соответствует поведению видеоданных.

Для решения проблемы дисбаланса потерь при обучении по кадрам Lumos-1 вводит AR-DF (Autoregressive Discrete Diffusion Forcing). Он использует временное маскирование при обучении, чтобы модель не слишком полагалась на нескрытую пространственную информацию. Это обеспечивает равномерное обучение по всей видеопоследовательности.

Обучение и результаты

Lumos-1 был обучен с нуля на 60 миллионах изображений и 10 миллионах видео с использованием только 48 GPU. Это считается эффективным с точки зрения памяти, учитывая масштаб обучения.

Модель достигла результатов, сравнимых с топовыми моделями в этой области. Она соответствовала результатам EMU3 на бенчмарках GenEval, показала эквивалентные результаты с COSMOS-Video2World на тесте VBench-I2V и конкурировала с выводами OpenSoraPlan на бенчмарке VBench-T2V.

Эти сравнения показывают, что лёгкое обучение Lumos-1 не снижает конкурентоспособность. Модель поддерживает генерацию текста в видео, изображения в видео и текста в изображении, что демонстрирует сильную генерализацию по модальностям.

Заключение

Это исследование не только выявляет и решает основные проблемы в пространственно-временном моделировании для генерации видео, но и демонстрирует, как Lumos-1 устанавливает новый стандарт для объединения эффективности и результативности в авторегрессионных фреймворках.

Успешное сочетание передовых архитектур с инновационным обучением открывает путь для следующего поколения масштабируемых высококачественных моделей генерации видео и открывает новые возможности для будущих мультимодальных исследований.

1. Какие основные проблемы решает модель Lumos-1 в области генерации видео?

Ответ: основная проблема в генерации видео с помощью авторегрессионных моделей — точное отражение и моделирование внутренних пространственно-временных зависимостей в видео. Lumos-1 использует MM-RoPE (Multi-Modal Rotary Position Embeddings) и подход с зависимостью токенов для решения этой задачи.

2. Какие методы использует Lumos-1 для обучения и как они помогают в решении проблемы дисбаланса потерь при обучении по кадрам?

Ответ: для решения проблемы дисбаланса потерь при обучении по кадрам Lumos-1 вводит AR-DF (Autoregressive Discrete Diffusion Forcing). Он использует временное маскирование при обучении, чтобы модель не слишком полагалась на нескрытую пространственную информацию. Это обеспечивает равномерное обучение по всей видеопоследовательности.

3. Какие результаты показал Lumos-1 в сравнении с другими моделями?

Ответ: Lumos-1 был обучен с нуля на 60 миллионах изображений и 10 миллионах видео и достиг результатов, сравнимых с топовыми моделями в этой области. Он соответствовал результатам EMU3 на бенчмарках GenEval, показал эквивалентные результаты с COSMOS-Video2World на тесте VBench-I2V и конкурировал с выводами OpenSoraPlan на бенчмарке VBench-T2V.

4. Какие возможности демонстрирует модель Lumos-1 в плане генерализации по модальностям?

Ответ: модель поддерживает генерацию текста в видео, изображения в видео и текста в изображении, что демонстрирует сильную генерализацию по модальностям.

5. Какие перспективы открывает успешное сочетание передовых архитектур с инновационным обучением в области генерации видео?

Ответ: успешное сочетание передовых архитектур с инновационным обучением открывает путь для следующего поколения масштабируемых высококачественных моделей генерации видео и открывает новые возможности для будущих мультимодальных исследований.

Источник

Оставьте комментарий