Исследователи Samsung представили ANSE: систему активного выбора шума для улучшения моделей преобразования текста в видео
Модели генерации видео стали ключевой технологией для создания динамического контента путём преобразования текстовых подсказок в высококачественные видеопоследовательности. Диффузионные модели зарекомендовали себя как ведущий подход для решения этой задачи. Они работают, начиная со случайного шума и постепенно преобразуя его в реалистичные видеокадры. Модели преобразования текста в видео (T2V) расширяют эту возможность, добавляя временные элементы и согласовывая … Читать далее