StepFun AI представляет Step-Audio-R1: новую аудио-LLM, которая наконец-то использует масштабирование вычислений во время тестирования

Компания StepFun AI выпустила Step-Audio-R1 — новую аудио-LLM, предназначенную для масштабирования вычислений во время тестирования. Она призвана решить проблему снижения точности при использовании длинной цепочки рассуждений в аудиомоделях.

Почему текущие аудио-ИИ-модели часто работают хуже, когда генерируют более длинные рассуждения, а не основывают свои решения на реальном звуке?

Исследовательская группа StepFun выпустила Step-Audio-R1, чтобы решить эту проблему. Они показывают, что падение точности при использовании цепочки рассуждений — это не ограничение аудио, а проблема обучения и обоснования модальности.

Большинство современных аудиомоделей наследуют своё поведение при рассуждении из текстового обучения. Они учатся рассуждать так, будто читают транскрипты, а не слушают. Команда StepFun называет это Textual Surrogate Reasoning (рассуждения на основе текстовых суррогатов). Модель использует воображаемые слова и описания вместо акустических сигналов, таких как контур высоты тона, ритм, тембр или шаблоны фонового шума.

Это несоответствие объясняет, почему более длинная цепочка рассуждений часто снижает производительность в аудио. Модель тратит больше токенов на разработку неверных или не относящихся к модальности предположений. Step-Audio-R1 решает эту проблему, заставляя модель обосновывать ответы, используя акустические доказательства.

Архитектура

Архитектура Step-Audio-R1 близка к предыдущим системам Step Audio:
* Аудиокодер на базе Qwen2 обрабатывает необработанные сигналы с частотой 25 Гц.
* Аудиоадаптер уменьшает частоту выходных данных кодера вдвое, до 12,5 Гц, и выравнивает кадры в потоке языковых токенов.
* Декодер Qwen2.5 32B потребляет аудиофункции и генерирует текст.

Декодер всегда создаёт явный блок рассуждений внутри тегов «`«` и «`«`, за которым следует окончательный ответ. Это разделение позволяет целям обучения формировать структуру и содержание рассуждений, не теряя при этом фокуса на точности выполнения задачи.

Модель выпущена как аудио-текстовая модель с 33 миллиардами параметров на Hugging Face под лицензией Apache 2.0.

Этапы обучения

Конвейер имеет этап холодного старта и этап обучения с подкреплением, которые смешивают текстовые и аудиозадачи.

На этапе холодного старта используется около 5 миллионов примеров, охватывающих 1 миллиард токенов только текстовых данных и 4 миллиарда токенов из аудиоданных. Аудиозадачи включают автоматическое распознавание речи, паралингвистическое понимание и диалоги в стиле «вопрос-ответ» с текстом вопроса и ответом в аудиоформате.

Обучение с подкреплением с проверенными вознаграждениями (RLVR)

Обучение с подкреплением использует проверенные вознаграждения. Для текстовых вопросов вознаграждения основаны на правильности ответа. Для аудиовопросов вознаграждение сочетает правильность ответа и формат рассуждения, с типичным взвешиванием 0,8 для точности и 0,2 для рассуждения.

Бенчмарки

На комбинированном наборе тестов преобразования речи в текст, который включает Big Bench Audio, Spoken MQA, MMSU, MMAU и Wild Speech, Step-Audio-R1 достигает среднего балла около 83,6%. Gemini 2.5 Pro сообщает о 81,5%, а Gemini 3 Pro достигает 85,1%.

На Big Bench Audio Step-Audio-R1 достигает около 98,7%, что выше, чем у обеих версий Gemini.

Ключевые выводы

Step-Audio-R1 — одна из первых аудиоязыковых моделей, которая превращает более длинную цепочку рассуждений в последовательное повышение точности для аудиозадач, решая проблему инвертированного масштабирования, наблюдаемую в предыдущих аудио-LLM.

Модель явно нацелена на Textual Surrogate Reasoning, используя Modality Grounded Reasoning Distillation, которая фильтрует и дистиллирует только те рассуждения, которые основаны на акустических сигналах, таких как высота тона, тембр и ритм, а не на воображаемых транскриптах.

Step-Audio-R1 превосходит Gemini 2.5 Pro и достигает производительности, сравнимой с Gemini 3 Pro, а также поддерживает вариант реального времени для взаимодействия с низкой задержкой речи.

Конвейер обучения сочетает крупномасштабное контролируемое обучение с рассуждениями, обоснованное модальностью дистилляция и обучение с подкреплением с проверенными вознаграждениями, предоставляя конкретный и воспроизводимый план построения будущих моделей аудиорассуждений, которые действительно выигрывают от масштабирования вычислений во время тестирования.

1. В чём заключается основная проблема существующих аудио-ИИ-моделей при генерации длинных рассуждений?

Основная проблема существующих аудио-ИИ-моделей заключается в том, что они снижают точность при использовании длинной цепочки рассуждений. Это происходит из-за того, что модели обучаются рассуждать так, будто читают транскрипты, а не слушают акустические сигналы. Они тратят больше токенов на разработку неверных или не относящихся к модальности предположений.

2. Какие компоненты входят в архитектуру Step-Audio-R1?

В архитектуру Step-Audio-R1 входят следующие компоненты:
* Аудиокодер на базе Qwen2, который обрабатывает необработанные сигналы с частотой 25 Гц.
* Аудиоадаптер, который уменьшает частоту выходных данных кодера вдвое, до 12,5 Гц, и выравнивает кадры в потоке языковых токенов.
* Декодер Qwen2.5 32B, который потребляет аудиофункции и генерирует текст.

3. Какие этапы включает в себя обучение Step-Audio-R1?

Обучение Step-Audio-R1 включает в себя этап холодного старта и этап обучения с подкреплением. На этапе холодного старта используется около 5 миллионов примеров, охватывающих 1 миллиард токенов только текстовых данных и 4 миллиарда токенов из аудиоданных. Аудиозадачи включают автоматическое распознавание речи, паралингвистическое понимание и диалоги в стиле «вопрос-ответ» с текстом вопроса и ответом в аудиоформате.

4. Какие бенчмарки использовались для тестирования Step-Audio-R1 и какие результаты были получены?

Для тестирования Step-Audio-R1 использовался комбинированный набор тестов преобразования речи в текст, который включает Big Bench Audio, Spoken MQA, MMSU, MMAU и Wild Speech. На этом наборе тестов Step-Audio-R1 достигает среднего балла около 83,6%. На Big Bench Audio Step-Audio-R1 достигает около 98,7%, что выше, чем у обеих версий Gemini.

5. В чём заключается инновационность подхода Step-Audio-R1 по сравнению с другими аудио-LLM?

Инновационность подхода Step-Audio-R1 заключается в том, что модель явно нацелена на Textual Surrogate Reasoning, используя Modality Grounded Reasoning Distillation. Это позволяет фильтровать и дистиллировать только те рассуждения, которые основаны на акустических сигналах, таких как высота тона, тембр и ритм, а не на воображаемых транскриптах. Таким образом, Step-Audio-R1 превосходит Gemini 2.5 Pro и достигает производительности, сравнимой с Gemini 3 Pro.

Источник