Генерация видео с помощью ИИ стремительно развивается. За короткое время мы прошли путь от размытых и бессвязных клипов до видео с потрясающим реализмом. Однако до недавнего времени не хватало одной критически важной функции — контроля и редактирования.
Создание красивого видео — это одно, а возможность профессионально и реалистично его редактировать — совсем другое. Например, изменять освещение с дневного на ночное, заменять материал объекта с дерева на металл или плавно вставлять новый элемент в сцену. Эта проблема долгое время оставалась нерешённой, что мешало ИИ стать по-настоящему фундаментальным инструментом для кинематографистов, дизайнеров и создателей контента.
И вот появился DiffusionRenderer!
В новой революционной работе исследователи из NVIDIA, Университета Торонто, Векторного института и Университета Иллинойса в Урбане-Шампейне представили фреймворк, который решает эту задачу. DiffusionRenderer — это революционный прорыв, который выходит за рамки простого создания видео и предлагает единое решение для понимания и управления 3D-сценами из одного видео.
Старый способ и новый способ: смена парадигмы
Десятилетиями фотореализм основывался на PBR (Physically Based Rendering) — методологии, которая тщательно имитирует поток света. Хотя она и даёт потрясающие результаты, это хрупкая система. PBR критически зависит от наличия идеальной цифровой схемы сцены — точной 3D-геометрии, детальных текстур материалов и точных карт освещения.
Процесс захвата этого чертежа из реального мира, известный как обратный рендеринг, чрезвычайно сложен и подвержен ошибкам. Даже небольшие несовершенства в этих данных могут привести к катастрофическим сбоям при окончательном рендеринге. Это ключевое узкое место ограничивало использование PBR вне контролируемых студийных условий.
Предыдущие методы нейронного рендеринга, такие как NeRFs, хотя и были революционными для создания статических видов, сталкивались с трудностями при редактировании. Они «запекали» освещение и материалы в сцену, что делало постсъёмочные модификации практически невозможными.
DiffusionRenderer рассматривает «что» (свойства сцены) и «как» (рендеринг) в единой системе, построенной на той же мощной архитектуре видеодиффузии, которая лежит в основе таких моделей, как Stable Video Diffusion.
Два нейронных рендерера для обработки видео
1. Neural Inverse Renderer (обратный рендерер): эта модель действует как детектив сцены. Она анализирует входное RGB-видео и интеллектуально оценивает внутренние свойства, генерируя необходимые буферы данных (G-буферы), которые описывают геометрию сцены (нормали, глубина) и материалы (цвет, шероховатость, металлический) на уровне пикселей. Каждый атрибут генерируется в отдельном проходе для обеспечения высокого качества генерации.
2. Neural Forward Renderer (прямой рендерер): эта модель функционирует как художник. Она берёт G-буферы от обратного рендерера, комбинирует их с любым желаемым освещением (картой окружения) и синтезирует фотореалистичное видео. Важно отметить, что модель была обучена быть надёжной, способной создавать потрясающие, сложные эффекты переноса света, такие как мягкие тени и межотражения, даже когда входные G-буферы от обратного рендерера несовершенны или «шумные».
Результаты
Результаты говорят сами за себя. В жёстких прямых сравнениях с классическими и нейронными современными методами DiffusionRenderer последовательно выходил на первое место по всем оцениваемым задачам с большим отрывом:
* Прямой рендеринг: при создании изображений из G-буферов и освещения DiffusionRenderer значительно превосходил другие нейронные методы, особенно в сложных сценах с несколькими объектами, где реалистичные межотражения и тени имеют решающее значение.
* Обратный рендеринг: модель оказалась лучше всех при оценке внутренних свойств сцены из видео, достигнув более высокой точности при оценке альбедо, материала и нормалей, чем все базовые модели.
* Переосвещение: в окончательном тесте единого конвейера DiffusionRenderer показал количественно и качественно превосходные результаты переосвещения по сравнению с ведущими методами, такими как DiLightNet и Neural Gaffer, генерируя более точные зеркальные отражения и высококачественное освещение.
Что можно делать с DiffusionRenderer
Это исследование открывает набор практических и мощных приложений для редактирования, которые работают с одним обычным видео.
* Динамическое переосвещение: измените время суток, замените студийное освещение закатом или полностью измените настроение сцены, просто предоставив новую карту окружения.
* Интуитивное редактирование материалов: хотите увидеть, как кожаный стул будет выглядеть в хроме? Или сделать так, чтобы металлическая статуя казалась сделанной из грубого камня? Пользователи могут напрямую настраивать материальные G-буферы, регулируя шероховатость, металлический блеск и цвет, а модель будет рендерить изменения фотореалистично.
* Бесшовная вставка объектов: размещайте новые виртуальные объекты в реальной сцене. Добавив свойства нового объекта в G-буферы сцены, прямой рендерер может синтезировать итоговое видео, в котором объект естественным образом интегрирован, отбрасывая реалистичные тени и отражая точное отражение от окружающей среды.
DiffusionRenderer представляет собой окончательный прорыв. Решая комплексные задачи обратного и прямого рендеринга в рамках единой, надёжной, управляемой данными системы, он разрушает давние барьеры традиционного PBR. Это демократизирует фотореалистичный рендеринг, перемещая его из эксклюзивной области экспертов по VFX с мощным оборудованием в более доступный инструмент для создателей, дизайнеров и разработчиков AR/VR.
В недавнем обновлении авторы усовершенствовали видеодейтинг и повторное освещение, используя NVIDIA Cosmos и улучшенное курирование данных. Это демонстрирует многообещающую тенденцию к масштабированию: по мере того как базовая модель видеодиффузии становится всё более мощной, качество вывода улучшается, что приводит к более чётким и точным результатам.
Новая модель выпущена под лицензиями Apache 2.0 и NVIDIA Open Model License и доступна здесь.
Источники:
* Демонстрационное видео: https://youtu.be/jvEdWKaPqkc
* Статья: https://arxiv.org/abs/2501.18590
* Код: https://github.com/nv-tlabs/cosmos1-diffusion-renderer
* Страница проекта: https://research.nvidia.com/labs/toronto-ai/DiffusionRenderer/
Спасибо команде NVIDIA за лидерство в разработке идей. Команда NVIDIA поддержала и спонсировала этот контент/статью.
1. Какие проблемы решает DiffusionRenderer в контексте создания и редактирования 3D-сцен?
DiffusionRenderer решает проблему контроля и редактирования 3D-сцен, созданных из видео. Он позволяет изменять освещение, заменять материалы объектов и вставлять новые элементы в сцену. Это делает его полезным инструментом для кинематографистов, дизайнеров и создателей контента.
2. Какие модели и технологии лежат в основе DiffusionRenderer?
В основе DiffusionRenderer лежит мощная архитектура видеодиффузии, которая используется в моделях, таких как Stable Video Diffusion. Также в нём применяются два нейронных рендерера: Neural Inverse Renderer (обратный рендерер) и Neural Forward Renderer (прямой рендерер).
3. Какие результаты показал DiffusionRenderer в сравнении с классическими и нейронными современными методами?
В жёстких прямых сравнениях с классическими и нейронными современными методами DiffusionRenderer последовательно выходил на первое место по всем оцениваемым задачам с большим отрывом. Он показал превосходные результаты в прямом рендеринге, обратном рендеринге и переосвещении.
4. Какие практические приложения открывает DiffusionRenderer для редактирования видео?
DiffusionRenderer открывает набор практических и мощных приложений для редактирования, которые работают с одним обычным видео. Среди них:
* динамическое переосвещение;
* интуитивное редактирование материалов;
* бесшовная вставка объектов.
5. Какие тенденции в развитии модели DiffusionRenderer можно отметить?
Авторы усовершенствовали видеодейтинг и повторное освещение, используя NVIDIA Cosmos и улучшенное курирование данных. Это демонстрирует многообещающую тенденцию к масштабированию: по мере того как базовая модель видеодиффузии становится всё более мощной, качество вывода улучшается, что приводит к более чётким и точным результатам.