Компания StepFun AI выпустила Step-Audio-R1 — новую аудио-LLM, предназначенную для масштабирования вычислений во время тестирования. Она призвана решить проблему снижения точности при использовании длинной цепочки рассуждений в аудиомоделях.
Почему текущие аудио-ИИ-модели часто работают хуже, когда генерируют более длинные рассуждения, а не основывают свои решения на реальном звуке?
Исследовательская группа StepFun выпустила Step-Audio-R1, чтобы решить эту проблему. Они показывают, что падение точности при использовании цепочки рассуждений — это не ограничение аудио, а проблема обучения и обоснования модальности.
Большинство современных аудиомоделей наследуют своё поведение при рассуждении из текстового обучения. Они учатся рассуждать так, будто читают транскрипты, а не слушают. Команда StepFun называет это Textual Surrogate Reasoning (рассуждения на основе текстовых суррогатов). Модель использует воображаемые слова и описания вместо акустических сигналов, таких как контур высоты тона, ритм, тембр или шаблоны фонового шума.
Это несоответствие объясняет, почему более длинная цепочка рассуждений часто снижает производительность в аудио. Модель тратит больше токенов на разработку неверных или не относящихся к модальности предположений. Step-Audio-R1 решает эту проблему, заставляя модель обосновывать ответы, используя акустические доказательства.
Архитектура
Архитектура Step-Audio-R1 близка к предыдущим системам Step Audio:
* Аудиокодер на базе Qwen2 обрабатывает необработанные сигналы с частотой 25 Гц.
* Аудиоадаптер уменьшает частоту выходных данных кодера вдвое, до 12,5 Гц, и выравнивает кадры в потоке языковых токенов.
* Декодер Qwen2.5 32B потребляет аудиофункции и генерирует текст.
Декодер всегда создаёт явный блок рассуждений внутри тегов «`
Модель выпущена как аудио-текстовая модель с 33 миллиардами параметров на Hugging Face под лицензией Apache 2.0.
Этапы обучения
Конвейер имеет этап холодного старта и этап обучения с подкреплением, которые смешивают текстовые и аудиозадачи.
На этапе холодного старта используется около 5 миллионов примеров, охватывающих 1 миллиард токенов только текстовых данных и 4 миллиарда токенов из аудиоданных. Аудиозадачи включают автоматическое распознавание речи, паралингвистическое понимание и диалоги в стиле «вопрос-ответ» с текстом вопроса и ответом в аудиоформате.
Обучение с подкреплением с проверенными вознаграждениями (RLVR)
Обучение с подкреплением использует проверенные вознаграждения. Для текстовых вопросов вознаграждения основаны на правильности ответа. Для аудиовопросов вознаграждение сочетает правильность ответа и формат рассуждения, с типичным взвешиванием 0,8 для точности и 0,2 для рассуждения.
Бенчмарки
На комбинированном наборе тестов преобразования речи в текст, который включает Big Bench Audio, Spoken MQA, MMSU, MMAU и Wild Speech, Step-Audio-R1 достигает среднего балла около 83,6%. Gemini 2.5 Pro сообщает о 81,5%, а Gemini 3 Pro достигает 85,1%.
На Big Bench Audio Step-Audio-R1 достигает около 98,7%, что выше, чем у обеих версий Gemini.
Ключевые выводы
Step-Audio-R1 — одна из первых аудиоязыковых моделей, которая превращает более длинную цепочку рассуждений в последовательное повышение точности для аудиозадач, решая проблему инвертированного масштабирования, наблюдаемую в предыдущих аудио-LLM.
Модель явно нацелена на Textual Surrogate Reasoning, используя Modality Grounded Reasoning Distillation, которая фильтрует и дистиллирует только те рассуждения, которые основаны на акустических сигналах, таких как высота тона, тембр и ритм, а не на воображаемых транскриптах.
Step-Audio-R1 превосходит Gemini 2.5 Pro и достигает производительности, сравнимой с Gemini 3 Pro, а также поддерживает вариант реального времени для взаимодействия с низкой задержкой речи.
Конвейер обучения сочетает крупномасштабное контролируемое обучение с рассуждениями, обоснованное модальностью дистилляция и обучение с подкреплением с проверенными вознаграждениями, предоставляя конкретный и воспроизводимый план построения будущих моделей аудиорассуждений, которые действительно выигрывают от масштабирования вычислений во время тестирования.
1. В чём заключается основная проблема существующих аудио-ИИ-моделей при генерации длинных рассуждений?
Основная проблема существующих аудио-ИИ-моделей заключается в том, что они снижают точность при использовании длинной цепочки рассуждений. Это происходит из-за того, что модели обучаются рассуждать так, будто читают транскрипты, а не слушают акустические сигналы. Они тратят больше токенов на разработку неверных или не относящихся к модальности предположений.
2. Какие компоненты входят в архитектуру Step-Audio-R1?
В архитектуру Step-Audio-R1 входят следующие компоненты:
* Аудиокодер на базе Qwen2, который обрабатывает необработанные сигналы с частотой 25 Гц.
* Аудиоадаптер, который уменьшает частоту выходных данных кодера вдвое, до 12,5 Гц, и выравнивает кадры в потоке языковых токенов.
* Декодер Qwen2.5 32B, который потребляет аудиофункции и генерирует текст.
3. Какие этапы включает в себя обучение Step-Audio-R1?
Обучение Step-Audio-R1 включает в себя этап холодного старта и этап обучения с подкреплением. На этапе холодного старта используется около 5 миллионов примеров, охватывающих 1 миллиард токенов только текстовых данных и 4 миллиарда токенов из аудиоданных. Аудиозадачи включают автоматическое распознавание речи, паралингвистическое понимание и диалоги в стиле «вопрос-ответ» с текстом вопроса и ответом в аудиоформате.
4. Какие бенчмарки использовались для тестирования Step-Audio-R1 и какие результаты были получены?
Для тестирования Step-Audio-R1 использовался комбинированный набор тестов преобразования речи в текст, который включает Big Bench Audio, Spoken MQA, MMSU, MMAU и Wild Speech. На этом наборе тестов Step-Audio-R1 достигает среднего балла около 83,6%. На Big Bench Audio Step-Audio-R1 достигает около 98,7%, что выше, чем у обеих версий Gemini.
5. В чём заключается инновационность подхода Step-Audio-R1 по сравнению с другими аудио-LLM?
Инновационность подхода Step-Audio-R1 заключается в том, что модель явно нацелена на Textual Surrogate Reasoning, используя Modality Grounded Reasoning Distillation. Это позволяет фильтровать и дистиллировать только те рассуждения, которые основаны на акустических сигналах, таких как высота тона, тембр и ритм, а не на воображаемых транскриптах. Таким образом, Step-Audio-R1 превосходит Gemini 2.5 Pro и достигает производительности, сравнимой с Gemini 3 Pro.