На конференции CVPR 2025 представлена работа Google DeepMind: технология «Motion Prompting» открывает новые возможности для управления видео

Основные выводы

Исследователи из Google DeepMind, Мичиганского университета и Университета Брауна разработали технологию «Motion Prompting» — новый метод управления генерацией видео с помощью определённых траекторий движения.

Как это работает

Технология использует «моушн-промпты» — гибкое представление движения, которое может быть разреженным или плотным. Это позволяет направлять предварительно обученную модель диффузии видео.

Ключевым нововведением является «расширение моушн-промптов», которое переводит запросы высокого уровня, например, перетаскивание мышью, в подробные инструкции для модели.

Эта единая модель может выполнять широкий спектр задач, включая точный контроль объектов и камеры, перенос движения из одного видео в другое и интерактивное редактирование изображений, без необходимости переобучения для каждой конкретной задачи.

Преодоление ограничений текста

Пока текстовые промпты были основным методом управления, они часто не могли точно описать сложные динамические движения, которые делают видео увлекательным. Технология «Motion Prompting» предлагает беспрецедентный уровень контроля, позволяя пользователям направлять действие в видео с помощью траекторий движения.

Например, подсказка «медведь быстро поворачивает голову» допускает множество интерпретаций. Как быстро «быстро»? Каков точный путь движения головы? «Motion Prompting» решает эту проблему, позволяя создателям определять само движение, открывая возможности для более выразительного и целенаправленного видеоконтента.

Обратите внимание, что результаты обработки не являются мгновенными (время обработки составляет 10 минут).

Введение в моушн-промпты

В основе этого исследования лежит концепция «моушн-промптов». Исследователи определили, что пространственно-временные разреженные или плотные траектории движения — отслеживание движения точек во времени — являются идеальным способом представления любого вида движения. Этот гибкий формат может фиксировать что угодно: от едва заметного трепета волос до сложных движений камеры.

Для этого команда обучила адаптер ControlNet на базе мощной предварительно обученной модели диффузии видео под названием Lumiere. ControlNet был обучен на огромном внутреннем наборе данных из 2,2 миллиона видео, каждое с подробными траекториями движения, извлечёнными с помощью алгоритма BootsTAP. Такое разнообразное обучение позволяет модели понимать и генерировать широкий спектр движений без специализированной разработки для каждой задачи.

От простых кликов к сложным сценам: расширение моушн-промптов

Хотя указание каждой точки движения для сложной сцены было бы нецелесообразным для пользователя, исследователи разработали процесс, который они называют «расширением моушн-промптов». Эта система переводит простые входные данные высокого уровня в подробные полуплотные моушн-промпты, необходимые модели.

Это позволяет использовать различные интуитивно понятные приложения:

* Взаимодействие с изображением. Пользователь может просто щёлкнуть и перетащить мышь по объекту на неподвижном изображении, чтобы заставить его двигаться. Например, пользователь может перетащить голову попугая, чтобы повернуть её, или «поиграть» с волосами человека, и модель сгенерирует реалистичное видео этого действия. Интересно, что этот процесс выявил эмерджентное поведение, когда модель генерировала физически правдоподобное движение, например, реалистичное разбрасывание песка при «толчке» курсором.
* Контроль объекта и камеры. Интерпретируя движения мыши как инструкции для управления геометрическим примитивом (например, невидимой сферой), пользователи могут добиться детального контроля, например, точно поворачивая голову кошки. Аналогично система может генерировать сложные движения камеры, например, облетая сцену, оценивая глубину сцены по первому кадру и проецируя на него желаемый путь камеры. Модель может даже комбинировать эти подсказки для одновременного управления объектом и камерой.
* Перенос движения. Эта техника позволяет применить движение из исходного видео к совершенно другому объекту на статическом изображении. Например, исследователи продемонстрировали перенос движений головы человека на макаку, эффективно «кукловодя» животное.

Проверка на практике

Команда провела обширные количественные оценки и исследования с участием людей, чтобы подтвердить свой подход, сравнив его с недавними моделями, такими как Image Conductor и DragAnything. Почти по всем показателям, включая качество изображения (PSNR, SSIM) и точность движения (EPE), их модель превзошла базовые.

Исследование с участием людей дополнительно подтвердило эти результаты. Когда участников просили выбрать между видео, созданными с помощью «Motion Prompting» и другими методами, они последовательно отдавали предпочтение результатам новой модели, отмечая лучшее соблюдение команд движения, более реалистичное движение и более высокое общее визуальное качество.

Ограничения и перспективы

Исследователи открыто говорят об ограничениях системы. Иногда модель может выдавать неестественные результаты, например, неестественно растягивая объект, если его части ошибочно «заблокированы» на фоне. Однако они предполагают, что эти самые сбои могут быть использованы как ценный инструмент для исследования основной видеомодели и выявления слабых мест в её «понимании» физического мира.

Это исследование представляет собой значительный шаг на пути к созданию действительно интерактивных и управляемых моделей генеративного видео. Сосредоточившись на фундаментальном элементе движения, команда создала универсальный и мощный инструмент, который однажды может стать стандартом для профессионалов и творческих людей, стремящихся использовать весь потенциал ИИ в производстве видео.

Источник

Оставьте комментарий