Meta AI представляет открытый аудиовизуальный кодировщик PE-AV

Исследователи компании Meta представили новое семейство кодировщиков для совместного понимания аудио и видео — Perception Encoder Audiovisual (PE-AV). Модель изучает согласованные аудио-, видео- и текстовые представления в едином пространстве встраивания с помощью масштабного контрастного обучения на примерно 100 миллионах пар аудио-видео с текстовыми подписями.

От Perception Encoder к PE-AV

Perception Encoder (PE) — это ядро ​​стека Vision в проекте Meta Perception Models. Это семейство кодировщиков для изображений, видео и аудио, которое достигает современного уровня во многих тестах по распознаванию изображений и аудио с помощью унифицированного контрастного предварительного обучения.

PE превосходит SigLIP2 в задачах с изображениями и InternVideo2 в задачах с видео. PE lang поддерживает языковую модель восприятия для мультимодального рассуждения. PE spatial настроен для задач плотного прогнозирования, таких как обнаружение и оценка глубины.

PE-AV основан на этом ядре и расширяет его до полного выравнивания аудио, видео и текста. В репозитории Perception Models PE audio visual представлен как ветвь, которая встраивает аудио, видео, аудио-видео и текст в единое совместное пространство встраивания для межмодального понимания.

Архитектура, отдельные башни и слияние

Архитектура PE-AV состоит из:
* фреймового кодировщика;
* видеокодировщика;
* аудиокодировщика;
* кодировщика аудио-видео слияния;
* текстового кодировщика.

Путь видео использует существующий фреймовый кодировщик PE для RGB-кадров, затем применяет темпоральный видеокодировщик поверх характеристик на уровне кадров.

Путь аудио использует DAC VAE в качестве кодека для преобразования необработанных сигналов в дискретные аудиотокены с фиксированной частотой кадров, примерно один встраивание каждые 40 миллисекунд.

Эти башни питают кодировщик аудио-видео слияния, который изучает общее представление для обоих потоков. Текстовый кодировщик проецирует текстовые запросы в несколько специализированных пространств. На практике это даёт вам единое ядро, которое можно запрашивать разными способами. Вы можете извлекать видео из текста, аудио из текста, аудио из видео или извлекать текстовые описания, обусловленные любой комбинацией модальностей, без переобучения специфичных для задачи голов.

Синтетические аудиовизуальные подписи в масштабе

Исследовательская группа предложила двухэтапный механизм аудиовизуальных данных, который генерирует высококачественные синтетические подписи для немаркированных клипов.

На первом этапе несколько слабых аудио-подписных моделей, их показатели достоверности и отдельные видео-подписные системы используются в качестве входных данных для большой языковой модели. Эта LLM производит три типа подписей для каждого клипа: одну для аудиоконтента, одну для визуального контента и одну для объединённого аудиовизуального контента. Начальная модель PE AV обучается на этом синтетическом контроле.

На втором этапе этот начальный PE-AV объединяется с декодером языковой модели восприятия. Вместе они уточняют подписи, чтобы лучше использовать аудиовизуальные соответствия. Двухэтапный механизм даёт надёжные подписи примерно для 100 миллионов аудиовизуальных пар и использует около 92 миллионов уникальных клипов для предварительного обучения на первом этапе и 32 миллиона дополнительных уникальных клипов для тонкой настройки на втором этапе.

По сравнению с предыдущей работой, которая часто фокусируется на речи или узких звуковых доменах, этот корпус сбалансирован по речи, общим звукам, музыке и разнообразным видеодоменам, что важно для общего аудиовизуального поиска и понимания.

Контрастивная цель для десяти пар модальностей

PE-AV использует сигмоидальную контрастивную потерю для аудио, видео, текста и объединённых представлений. Исследовательская группа объясняет, что модель использует восемь контрастивных пар потерь во время предварительного обучения. Они охватывают такие комбинации, как аудиотекст, видеотекст, аудиовидеотекст и связанные с ними пары слияния.

Во время тонкой настройки добавляются две дополнительные пары, в результате чего общее количество достигает десяти пар потерь среди различных модальностей и типов подписей.

Эта цель аналогична по форме контрастивным целям, используемым в недавних кодировщиках языка зрения, но обобщена для обучения аудиовизуальному тексту в трёхмодальном режиме.

Производительность в области аудио, речи, музыки и видео

На тестах PE-AV нацелен на поиск без выстрела и классификацию для нескольких доменов. PE AV достигает современного уровня производительности на нескольких аудио- и видеотестах по сравнению с недавними аудиотекстовыми и аудиовидеотекстовыми моделями из таких работ, как CLAP, Audio Flamingo, ImageBind и LanguageBind.

Конкретные достижения включают:
* На AudioCaps поиск по тексту к аудио улучшается с 35,4 R при 1 до 45,8 R при 1.
* На VGGSound точность классификации на уровне клипа улучшается с 36,0 до 47,1.
* Для поиска речи в задачах VCTK-стиля PE AV достигает точности 85,6, в то время как более ранние модели близки к 0.
* На ActivityNet поиск по тексту к видео улучшается с 60,4 R при 1 до 66,5 R при 1.
* На Kinetics 400 нулевая классификация видео улучшается с 76,9 до 78,9, опережая модели в 2–4 раза больше.

PEA-Frame, выравнивание аудиотекста на уровне кадров

Наряду с PE-AV компания Meta выпускает Perception Encoder Audio Frame (PEA-Frame) для локализации звуковых событий. PEA-Frame — это модель встраивания аудиотекста, которая выводит одно аудиовстраивание каждые 40 миллисекунд и одно текстовое встраивание для каждого запроса. Модель может возвращать временные промежутки, которые отмечают, где в аудио происходит каждое описанное событие.

PEA-Frame использует контрастное обучение на уровне кадров, чтобы выровнять аудиофрагменты с текстом. Это позволяет точно локализовать такие события, как конкретные динамики, инструменты или переходные звуки в длинных аудиопоследовательностях.

Роль в стеке моделей восприятия и экосистеме SAM Audio

PE-AV и PEA-Frame входят в более широкий стек моделей восприятия, который объединяет кодировщики PE с языковой моделью восприятия для мультимодальной генерации и рассуждения.

PE-AV также является основным механизмом восприятия, лежащим в основе новой модели SAM Audio от Meta и её оценщика Judge. SAM Audio использует встраивания PE-AV для подключения визуальных подсказок и текстовых подсказок к источникам звука в сложных смесях и для оценки качества разделённых аудиодорожек.

Ключевые выводы

* PE-AV — это унифицированный кодировщик для аудио, видео и текста, обученный с помощью контрастного обучения на более чем 100 миллионах видео и встраивающий аудио, видео, аудиовидео и текст в единое совместное пространство для межмодального поиска и понимания.
* Архитектура использует отдельные видео- и аудиобашни с визуальным кодированием на основе PE и аудиотокенизацией DAC VAE, за которой следует кодировщик аудиовизуального слияния и специализированные текстовые заголовки, выровненные по разным парам модальностей.
* Двухэтапный механизм данных генерирует синтетические аудио-, визуальные и аудиовизуальные подписи, используя более слабые системы подписей плюс LLM на этапе 1 и PEAV плюс языковую модель восприятия на этапе 2, что позволяет осуществлять крупномасштабное мультимодальное наблюдение без ручных меток.
* PE-AV устанавливает новый современный уровень на широком спектре аудио- и видеотестов с помощью сигмоидальной контрастивной цели по нескольким парам модальностей, с шестью общедоступными контрольными точками от небольших вариантов с 16 кадрами до крупных вариантов со всеми кадрами, где среднее значение поиска улучшается примерно с 45 до 51,6.
* PE-AV вместе с вариантом уровня кадра PEA-Frame формирует основу восприятия для системы Meta SAM Audio, предоставляя встраивания, используемые для разделения аудио по подсказкам и локализации мелкозернистых звуковых событий в речи, музыке и общих звуках.

1. Какие основные компоненты включает в себя архитектура PE-AV?

Архитектура PE-AV состоит из следующих компонентов:
* фреймовый кодировщик;
* видеокодировщик;
* аудиокодировщик;
* кодировщик аудио-видео слияния;
* текстовый кодировщик.

2. Как PE-AV улучшает межмодальное понимание аудио, видео и текста?

PE-AV улучшает межмодальное понимание за счёт масштабного контрастного обучения на большом объёме данных (около 100 миллионов пар аудио-видео с текстовыми подписями). Это позволяет модели встраивать аудио, видео, аудио-видео и текст в единое совместное пространство, что облегчает поиск и понимание взаимосвязей между различными модальностями.

3. Какие преимущества предоставляет модель PEA-Frame в контексте локализации звуковых событий?

PEA-Frame использует контрастное обучение на уровне кадров для выравнивания аудиофрагментов с текстом. Это позволяет точно локализовать такие события, как конкретные динамики, инструменты или переходные звуки в длинных аудиопоследовательностях. Модель выводит одно аудиовстраивание каждые 40 миллисекунд и одно текстовое встраивание для каждого запроса, что способствует более точной локализации звуковых событий.

4. Какие достижения демонстрирует PE-AV в сравнении с другими моделями на аудио- и видеотестах?

На тестах PE-AV демонстрирует современный уровень производительности на нескольких аудио- и видеотестах. Конкретные достижения включают:
* улучшение поиска по тексту к аудио с 35,4 R при 1 до 45,8 R при 1;
* улучшение точности классификации на уровне клипа на VGGSound с 36,0 до 47,1;
* достижение точности 85,6 в задачах поиска речи в стиле VCTK;
* улучшение поиска по тексту к видео на ActivityNet с 60,4 R при 1 до 66,5 R при 1;
* улучшение нулевой классификации видео на Kinetics 400 с 76,9 до 78,9.

5. Какова роль PE-AV и PEA-Frame в стеке моделей восприятия и экосистеме SAM Audio от Meta?

PE-AV и PEA-Frame входят в более широкий стек моделей восприятия, который объединяет кодировщики PE с языковой моделью восприятия для мультимодальной генерации и рассуждения. PE-AV является основным механизмом восприятия, лежащим в основе новой модели SAM Audio от Meta и её оценщика Judge. SAM Audio использует встраивания PE-AV для подключения визуальных и текстовых подсказок к источникам звука в сложных смесях и для оценки качества разделённых аудиодорожек.

Источник