Компания Meta выпустила SAM Audio — модель для разделения аудио, которая использует интуитивно понятные и мультимодальные подсказки для выделения одного звука из сложной смеси. Модель позволяет изолировать определённый звук без необходимости создания отдельной модели для каждого класса звуков.
Основные характеристики
Meta выпустила три основных варианта модели: sam-audio-small, sam-audio-base и sam-audio-large. Модель доступна для скачивания и тестирования в Segment Anything Playground.
Архитектура
SAM Audio использует отдельные кодировщики для каждого условного сигнала:
* аудиокодер для смеси;
* текстовый кодер для описания на естественном языке;
* кодер временных меток;
* визуальный кодер, который обрабатывает визуальные подсказки, полученные из видео, и маску объекта.
Закодированные потоки объединяются в выровненные по времени признаки, затем обрабатываются диффузионным трансформером, который применяет самовнимание к временному представлению и перекрёстное внимание к текстовой характеристике. Затем декодер DACVAE реконструирует формы сигналов и выдаёт два выходных сигнала: целевой аудиосигнал и остаточный аудиосигнал.
Как работает SAM Audio
SAM Audio принимает входную запись, содержащую несколько перекрывающихся источников, например, речь, шум дорожного движения и музыку, и выделяет целевой источник на основе подсказки. В общедоступном API модель выдаёт два выходных сигнала: result.target и result.residual. Исследовательская группа описывает result.target как изолированный звук, а result.residual — как всё остальное.
Если вы хотите удалить лай собаки из подкаст-трека, вы можете рассматривать лай как целевой сигнал, а затем вычесть его, сохранив только остаточный сигнал. Если вы хотите извлечь гитарную партию из концертного клипа, вы сохраняете целевую форму сигнала.
Типы подсказок
Meta позиционирует SAM Audio как единую унифицированную модель, поддерживающую три типа подсказок, которые можно использовать по отдельности или в комбинации:
1. Текстовые подсказки: вы описываете звук на естественном языке, например, «лай собаки» или «певческий голос», и модель выделяет этот звук из смеси.
2. Визуальные подсказки: вы кликаете по человеку или объекту в видео и просите модель выделить аудио, связанное с этим визуальным объектом.
3. Временные подсказки: вы отмечаете временные сегменты, где происходит целевой звук, затем модель использует эти сегменты для разделения.
Результаты
Команда Meta позиционирует SAM Audio как модель, достигающую передовых результатов в различных реальных сценариях, и представляет её как унифицированную альтернативу специализированным аудиоинструментам.
Ключевые выводы
* SAM Audio — это унифицированная модель разделения аудио, которая сегментирует звук из сложных смесей с помощью текстовых, визуальных и временных подсказок.
* Основной API выдаёт две формы сигнала на запрос: target для изолированного звука и residual для всего остального, что соответствует таким операциям редактирования, как удаление шума, извлечение стержня или сохранение атмосферы.
* Meta выпустила несколько контрольных точек и вариантов, включая sam-audio-small, sam-audio-base, sam-audio-large, а также варианты для телевидения, которые, как указано в репозитории, лучше подходят для визуальных подсказок.
* Репозиторий также публикует таблицу субъективной оценки по категориям.
* В релиз включены инструменты, выходящие за рамки логического вывода. Meta предоставляет модель sam-audio-judge, которая оценивает результаты разделения по текстовому описанию с учётом общего качества, полноты, точности и достоверности.
1. Какие основные варианты модели SAM Audio выпустила компания Meta?
Ответ: компания Meta выпустила три основных варианта модели SAM Audio: sam-audio-small, sam-audio-base и sam-audio-large.
2. Какие типы подсказок поддерживает модель SAM Audio?
Ответ: модель SAM Audio поддерживает три типа подсказок: текстовые, визуальные и временные. Их можно использовать по отдельности или в комбинации.
3. Какие два выходных сигнала выдаёт общедоступный API модели SAM Audio?
Ответ: общедоступный API модели SAM Audio выдаёт два выходных сигнала: result.target (изолированный звук) и result.residual (всё остальное).
4. Какие операции редактирования можно выполнять с помощью модели SAM Audio?
Ответ: с помощью модели SAM Audio можно выполнять такие операции редактирования, как удаление шума, извлечение стержня или сохранение атмосферы.
5. Какие инструменты предоставляет Meta вместе с моделью SAM Audio?
Ответ: вместе с моделью SAM Audio Meta предоставляет инструмент sam-audio-judge, который оценивает результаты разделения по текстовому описанию с учётом общего качества, полноты, точности и достоверности.