Описание FOFPred
Команда исследователей Salesforce AI представила FOFPred — систему прогнозирования будущего оптического потока, которая связывает крупные языковые модели зрения с диффузионными трансформерами для прогнозирования плотного движения в задачах управления и генерации видео.
FOFPred принимает одно или несколько изображений и инструкцию на естественном языке, например: «переместить бутылку справа налево», и предсказывает четыре кадра будущего оптического потока, которые описывают, как каждый пиксель будет перемещаться с течением времени.
Как работает FOFPred
- FOFPred использует унифицированную архитектуру, которая объединяет замороженную языковую модель зрения, замороженный VAE и обучаемый диффузионный трансформатор.
- Qwen2.5-VL используется в качестве кодировщика языкового зрения для совместного кодирования заголовка и визуальных входных данных.
- Flux.1 VAE кодирует входные изображения и обучающие цели оптического потока в скрытые тензоры.
- Диффузионный трансформатор OmniGen стиля DiT принимает спроецированные визуальные и текстовые признаки в качестве условных входных данных и генерирует последовательности скрытого будущего потока.
Обучение на зашумлённых веб-видео с относительным оптическим потоком
Основная модель обучается на веб-видео с человеческими действиями и соответствующими заголовками. Команда исследователей использует набор данных Something Something V2 и набор данных EgoDex для получения около 500 000 пар видеозаголовков.
Обучение использует сквозную задачу соответствия потока в скрытом пространстве. Последовательности будущего оптического потока сначала вычисляются в автономном режиме, затем кодируются с помощью VAE и используются в качестве целей в диффузионной потере соответствия потока для DiT.
Управление роботами
Первый вариант использования — управление роботами. FOFPred настраивается на данных видеозаголовков роботов для прогнозирования будущего оптического потока как с фиксированных, так и с запястных камер.
На бенчмарке CALVIN ABCD, который оценивает долгосрочные нулевые цепочки из пяти языковых задач манипулирования, FOFPred достигает средней длины цепочки 4,48.
Генерация текста в видео с учётом движения
Вторая задача — управление движением в генерации текста в видео. Команда исследователей создаёт двухэтапный конвейер, соединяя FOFPred с моделью видеодиффузии Go with the Flow.
На бенчмарке Something Something V2, ориентированном на движение, FOFPred вместе с конвейером Go with the Flow превосходит базовый уровень CogVideoX в идентичных условиях.
Ключевые выводы
- FOFPred переосмысливает прогнозирование движения как прогнозирование будущего оптического потока на основе языка, предсказывая четыре плотных кадра оптического потока из одного или нескольких текущих изображений и текстовой инструкции.
- Модель использует унифицированный VLM Diffusion backbone с Qwen2.5-VL в качестве замороженного кодировщика языкового зрения, Flux.1-VAE в качестве замороженного кодировщика для изображений и потока и OmniGen-стиля DiT в качестве единственного обученного компонента с пространственно-временным вниманием на основе RoPE.
- Обучение основано на крупномасштабных веб- и эгоцентрических видео из Something Something-V2 и EgoDex, и строит относительные цели оптического потока путём оценки эго-движения через гомографию, вычитания потока камеры и фильтрации для сегментов с высоким движением, что значительно улучшает производительность в последующих задачах.
Как AutoGluon позволяет создавать современные AutoML-конвейеры для табличных моделей производственного уровня с помощью ансамблирования и дистилляции
Настройка среды
Мы устанавливаем необходимые библиотеки и импортируем все основные зависимости, используемые на протяжении всего конвейера. Мы настраиваем предупреждения, чтобы выходные данные были чистыми, и обеспечиваем готовность числовых, табличных и оценочных утилит.
Загрузка набора данных
Мы загружаем реальный набор данных смешанного типа и выполняем лёгкую предварительную обработку, чтобы подготовить чистый обучающий сигнал. Мы определяем цель, удаляем столбцы с высокой утечкой и проверяем структуру набора данных. Затем мы создаём стратифицированный обучающий и тестовый сплит, чтобы сохранить баланс классов.
Обучение модели
Мы обучаем высококачественный ансамбль, используя пакетирование и укладку в контролируемом временном бюджете. Мы полагаемся на автоматизированный поиск моделей AutoGluon, чтобы эффективно исследовать сильные архитектуры. Мы также записываем время обучения, чтобы понять вычислительные затраты.
Оценка модели
Мы оцениваем обученные модели, используя скрытый тестовый набор, и проверяем таблицу лидеров для сравнения производительности. Мы вычисляем вероятностные и дискретные прогнозы и выводим ключевые метрики классификации.
Анализ поведения модели
Мы анализируем поведение модели с помощью срезового анализа AUC и перестановки важности признаков. Мы выявляем, как производительность варьируется в зависимости от значимых сегментов данных.
Оптимизация модели для вывода
Мы оптимизируем обученный ансамбль для вывода, сворачивая пакетированные модели и сравнивая латентность. Мы дополнительно дистиллируем ансамбль в более быстрые модели и проверяем сохранение данных через проверки сохранения-перезагрузки.
Экспорт артефактов
Мы экспортируем структурированные артефакты, необходимые для передачи в производство.
В заключение мы реализовали сквозной рабочий процесс с AutoGluon, который преобразует необработанные табличные данные в модели производственного уровня с минимальным ручным вмешательством, сохраняя при этом строгий контроль над точностью, надёжностью и эффективностью вывода.
1. Какие технологии и модели используются в системе FOFPred для прогнозирования будущего оптического потока?
В системе FOFPred используется унифицированная архитектура, которая объединяет замороженную языковую модель зрения, замороженный VAE и обучаемый диффузионный трансформатор. Qwen2.5-VL используется в качестве кодировщика языкового зрения для совместного кодирования заголовка и визуальных входных данных. Flux.1 VAE кодирует входные изображения и обучающие цели оптического потока в скрытые тензоры. Диффузионный трансформатор OmniGen стиля DiT принимает спроецированные визуальные и текстовые признаки в качестве условных входных данных и генерирует последовательности скрытого будущего потока.
2. Какие задачи может решать система FOFPred?
Система FOFPred может решать задачи управления роботами и генерации текста в видео с учётом движения. FOFPred настраивается на данных видеозаголовков роботов для прогнозирования будущего оптического потока как с фиксированных, так и с запястных камер. Команда исследователей создаёт двухэтапный конвейер, соединяя FOFPred с моделью видеодиффузии Go with the Flow для управления движением в генерации текста в видео.
3. Какие данные используются для обучения модели FOFPred?
Для обучения модели FOFPred используется набор данных Something Something V2 и набор данных EgoDex для получения около 500 000 пар видеозаголовков. Обучение использует сквозную задачу соответствия потока в скрытом пространстве. Последовательности будущего оптического потока сначала вычисляются в автономном режиме, затем кодируются с помощью VAE и используются в качестве целей в диффузионной потере соответствия потока для DiT.
4. Какие преимущества даёт использование системы FOFPred в робототехнике?
Использование системы FOFPred в робототехнике позволяет прогнозировать будущее оптическое движение на основе языковых инструкций, что улучшает управление роботами. FOFPred достигает средней длины цепочки 4,48 на бенчмарке CALVIN ABCD, который оценивает долгосрочные нулевые цепочки из пяти языковых задач манипулирования.
5. Какие ключевые выводы можно сделать о системе FOFPred на основе текста?
Ключевые выводы о системе FOFPred:
* FOFPred переосмысливает прогнозирование движения как прогнозирование будущего оптического потока на основе языка, предсказывая четыре плотных кадра оптического потока из одного или нескольких текущих изображений и текстовой инструкции.
* Модель использует унифицированный VLM Diffusion backbone с Qwen2.5-VL в качестве замороженного кодировщика языкового зрения, Flux.1-VAE в качестве замороженного кодировщика для изображений и потока и OmniGen-стиля DiT в качестве единственного обученного компонента с пространственно-временным вниманием на основе RoPE.
* Обучение основано на крупномасштабных веб- и эгоцентрических видео из Something Something-V2 и EgoDex, и строит относительные цели оптического потока путём оценки эго-движения через гомографию, вычитания потока камеры и фильтрации для сегментов с высоким движением, что значительно улучшает производительность в последующих задачах.