NVIDIA выпустила Audio Flamingo 3: модель с открытым исходным кодом для развития общего аудиоинтеллекта

NVIDIA представила Audio Flamingo 3 (AF3) — значительный шаг вперёд в понимании и анализе звука машинами. В отличие от предыдущих моделей, которые могли транскрибировать речь или классифицировать аудиофрагменты, AF3 обладает способностью интерпретировать аудио в насыщенном контексте, подобно человеку — в речи, фоновом шуме и музыке, и на протяжении длительных периодов.

Основные инновации Audio Flamingo 3

AF-Whisper: унифицированный аудиокодер

AF3 использует AF-Whisper — новый кодер, адаптированный из Whisper-v3. Он обрабатывает речь, фоновые звуки и музыку с помощью одной архитектуры, решая основную проблему предыдущих LALM, которые использовали отдельные кодеры, что приводило к несоответствиям. AF-Whisper использует наборы данных аудиозаголовков, синтезированные метаданные и плотное 1280-мерное встраиваемое пространство для согласования с текстовыми представлениями.

Цепочка мыслей для аудио: рассуждения по требованию

В отличие от статических систем вопросов и ответов, AF3 оснащён возможностями «мышления». Используя набор данных AF-Think (250 тыс. примеров), модель может выполнять пошаговое рассуждение по запросу, позволяя ей объяснять свои шаги вывода, прежде чем прийти к ответу — ключевой шаг на пути к прозрачному аудио ИИ.

Многоуровневые, многоаудио разговоры

Благодаря набору данных AF-Chat (75 тыс. диалогов) AF3 может вести контекстные разговоры с участием нескольких аудиовходов. Это имитирует реальное взаимодействие, когда люди ссылаются на предыдущие аудиосигналы. Также вводятся голосовые разговоры с использованием потокового модуля преобразования текста в речь.

Длительный аудиоанализ

AF3 — первая полностью открытая модель, способная анализировать аудиовходы длительностью до 10 минут. Обученная на LongAudio-XL (1,25 млн примеров), модель поддерживает такие задачи, как подведение итогов встреч, понимание подкастов, обнаружение сарказма и временная привязка.

Современные эталонные показатели и возможности в реальном мире

AF3 превосходит как открытые, так и закрытые модели более чем в 20 тестах, включая:

* MMAU (среднее значение): 73,14 % (+2,14 % по сравнению с Qwen2.5-O);
* LongAudioBench: 68,6 (оценка GPT-4o), опережая Gemini 2.5 Pro;
* LibriSpeech (ASR): 1,57 % WER, превосходя Phi-4-mm;
* ClothoAQA: 91,1 % (против 89,2 % у Qwen2.5-O).

Эти улучшения не просто незначительны; они переопределяют ожидания от аудиоязыковых систем. AF3 также вводит бенчмаркинг в голосовых чатах и генерации речи, достигая задержки генерации 5,94 с (против 14,62 с у Qwen2.5) и более высоких показателей сходства.

Конвейер данных: наборы данных, обучающие аудиоанализу

NVIDIA не просто масштабировала вычисления — они переосмыслили данные:

* AudioSkills-XL: 8 млн примеров, сочетающих рассуждения об окружающей среде, музыке и речи;
* LongAudio-XL: охватывает длинные речи из аудиокниг, подкастов, встреч;
* AF-Think: способствует короткому выводу в стиле CoT;
* AF-Chat: разработан для многоуровневых, многоаудио разговоров.

Каждый набор данных имеет открытый исходный код вместе с обучающим кодом и рецептами, что обеспечивает воспроизводимость и будущие исследования.

Открытый исходный код

NVIDIA выпустила:

* веса модели;
* обучающие рецепты;
* код для вывода;
* четыре открытых набора данных.

Эта прозрачность делает AF3 самой доступной современной аудиоязыковой моделью. Она открывает новые направления исследований в области слухового мышления, аудиоагентов с низкой задержкой, понимания музыки и мультимодального взаимодействия.

Заключение: на пути к общему аудиоинтеллекту

Audio Flamingo 3 демонстрирует, что глубокое понимание аудио не только возможно, но и воспроизводимо и открыто. Сочетая масштаб, новые стратегии обучения и разнообразные данные, NVIDIA создала модель, которая слушает, понимает и рассуждает так, как не могли предыдущие LALM.

1. Какие основные инновации представлены в Audio Flamingo 3 (AF3) и как они отличаются от предыдущих моделей?

В Audio Flamingo 3 (AF3) представлены несколько ключевых инноваций. Во-первых, AF3 использует AF-Whisper — унифицированный аудиокодер, который обрабатывает речь, фоновые звуки и музыку с помощью одной архитектуры. Это решает проблему предыдущих LALM, которые использовали отдельные кодеры, что приводило к несоответствиям. Во-вторых, AF3 оснащён возможностями «мышления» и может выполнять пошаговое рассуждение по запросу, объясняя свои шаги вывода. В-третьих, AF3 может вести контекстные разговоры с участием нескольких аудиовходов, имитируя реальное взаимодействие. Наконец, AF3 — первая полностью открытая модель, способная анализировать аудиовходы длительностью до 10 минут.

2. Какие показатели используются для оценки эффективности Audio Flamingo 3 и как AF3 сравнивается с другими моделями?

Для оценки эффективности Audio Flamingo 3 используются современные эталонные показатели, такие как MMAU (среднее значение), LongAudioBench, LibriSpeech (ASR) и ClothoAQA. AF3 превосходит как открытые, так и закрытые модели более чем в 20 тестах, включая MMAU (среднее значение): 73,14 % (+2,14 % по сравнению с Qwen2.5-O); LongAudioBench: 68,6 (оценка GPT-4o), опережая Gemini 2.5 Pro; LibriSpeech (ASR): 1,57 % WER, превосходя Phi-4-mm; ClothoAQA: 91,1 % (против 89,2 % у Qwen2.5-O).

3. Какие наборы данных используются для обучения Audio Flamingo 3 и какова их роль в достижении высокой эффективности модели?

Для обучения Audio Flamingo 3 используются несколько наборов данных, включая AudioSkills-XL, LongAudio-XL, AF-Think и AF-Chat. AudioSkills-XL содержит 8 млн примеров, сочетающих рассуждения об окружающей среде, музыке и речи. LongAudio-XL охватывает длинные речи из аудиокниг, подкастов, встреч. AF-Think способствует короткому выводу в стиле CoT, а AF-Chat разработан для многоуровневых, многоаудио разговоров. Эти наборы данных обеспечивают разнообразие и объём данных для обучения, что способствует достижению высокой эффективности модели.

4. Какие преимущества предоставляет открытый исходный код Audio Flamingo 3 для исследователей и разработчиков?

Открытый исходный код Audio Flamingo 3 предоставляет несколько преимуществ для исследователей и разработчиков. Во-первых, он делает AF3 самой доступной современной аудиоязыковой моделью. Во-вторых, он открывает новые направления исследований в области слухового мышления, аудиоагентов с низкой задержкой, понимания музыки и мультимодального взаимодействия. В-третьих, открытый исходный код обеспечивает воспроизводимость и будущие исследования, поскольку исследователи могут использовать те же данные и методы для разработки собственных моделей.

5. Какие задачи может выполнять Audio Flamingo 3 благодаря своей способности анализировать длинные аудиовходы?

Благодаря своей способности анализировать аудиовходы длительностью до 10 минут, Audio Flamingo 3 может выполнять различные задачи, такие как подведение итогов встреч, понимание подкастов, обнаружение сарказма и временная привязка. Это делает AF3 мощным инструментом для анализа и понимания длинных аудиозаписей.

Источник

Оставьте комментарий