Исследователи Samsung представили ANSE: систему активного выбора шума для улучшения моделей преобразования текста в видео

Модели генерации видео стали ключевой технологией для создания динамического контента путём преобразования текстовых подсказок в высококачественные видеопоследовательности. Диффузионные модели зарекомендовали себя как ведущий подход для решения этой задачи. Они работают, начиная со случайного шума и постепенно преобразуя его в реалистичные видеокадры.

Модели преобразования текста в видео (T2V) расширяют эту возможность, добавляя временные элементы и согласовывая сгенерированный контент с текстовыми подсказками, создавая визуально привлекательные и семантически точные видео. Несмотря на достижения в области архитектуры, такие как скрытые диффузионные модели и модули внимания, учитывающие движение, остаётся серьёзная проблема: обеспечение стабильного, высококачественного видеогенерации при разных запусках, особенно когда меняется только начальное зерно случайного шума.

Основные проблемы и решения

Основная проблема заключается в том, как диффузионные модели инициализируют процесс генерации из гауссовского шума. Конкретное используемое зерно может существенно повлиять на качество конечного видео, временную согласованность и соответствие подсказке.

Исследователи из Samsung Research представили ANSE (Active Noise Selection for Generation) — систему активного выбора шума для моделей видеодиффузии. ANSE решает проблему выбора шума, используя внутренние сигналы модели, в частности оценки неопределённости на основе внимания, для выбора зерна шума.

В основе ANSE лежит BANSA (Bayesian Active Noise Selection via Attention) — новая функция получения, которая количественно оценивает согласованность и уверенность карт внимания модели при стохастических возмущениях.

Принцип работы BANSA

BANSA работает путём оценки энтропии в картах внимания, которые генерируются на определённых слоях во время ранних этапов шумоподавления. Исследователи определили, что слои 14 для модели CogVideoX-2B и слой 19 для модели CogVideoX-5B обеспечивают достаточную корреляцию (выше порога 0,7) с полной оценкой неопределённости слоя, значительно снижая вычислительные затраты.

Оценка BANSA вычисляется путём сравнения средней энтропии отдельных карт внимания с энтропией их среднего значения, где более низкая оценка BANSA указывает на более высокую уверенность и согласованность в шаблонах внимания. Этот показатель используется для ранжирования кандидатов в зёрна шума из пула в 10 (M = 10), каждый из которых оценивается с использованием 10 стохастических прямых проходов (K = 10). Зерно шума с наименьшей оценкой BANSA затем используется для генерации финального видео, что позволяет улучшить качество без необходимости переобучения модели или использования внешних априорных значений.

Результаты

На модели CogVideoX-2B общий балл VBench улучшился с 81,03 до 81,66 (+0,63), с приростом +0,48 в качестве и +1,23 в семантическом выравнивании. На более крупной модели CogVideoX-5B ANSE увеличил общий балл VBench с 81,52 до 81,71 (+0,25), с приростом +0,17 в качестве и +0,60 в семантическом выравнивании. Примечательно, что эти улучшения были достигнуты при увеличении времени вывода всего на 8,68% для CogVideoX-2B и 13,78% для CogVideoX-5B.

Ключевые выводы

* ANSE улучшает общие баллы VBench для генерации видео: с 81,03 до 81,66 на CogVideoX-2B и с 81,52 до 81,71 на CogVideoX-5B.
* Прирост качества и семантического выравнивания составляет +0,48 и +1,23 для CogVideoX-2B и +0,17 и +0,60 для CogVideoX-5B соответственно.
* Увеличение времени вывода незначительно: +8,68% для CogVideoX-2B и +13,78% для CogVideoX-5B.
* Оценки BANSA, полученные с помощью бернуллиевского маскированного внимания, превосходят случайные и энтропийные методы выбора шума.
* Стратегия выбора слоя снижает вычислительную нагрузку, вычисляя неопределённость на слоях 14 и 19 для CogVideoX-2B и CogVideoX-5B соответственно.
* ANSE обеспечивает эффективность, избегая многократных полных проходов выборки, в отличие от таких методов, как FreeInit, которые требуют на 200% больше времени вывода.
* Исследование подтверждает, что низкие оценки BANSA надёжно коррелируют с более высоким качеством видео, что делает его эффективным критерием для выбора зерна.

В заключение, исследование решает проблему непредсказуемой генерации видео в диффузионных моделях, представляя систему выбора шума с учётом модели, которая использует внутренние сигналы внимания.

Источник

Оставьте комментарий