Команда StepFun AI выпустила Step-Audio 2 Mini — большую аудиоязыковую модель (LALM) с 8 миллиардами параметров для преобразования речи в речь. Модель обеспечивает выразительное, обоснованное взаимодействие в реальном времени. Модель выпущена под лицензией Apache 2.0 и демонстрирует передовые результаты в распознавании речи, понимании аудио и проверке речевых диалогов, превосходя такие коммерческие системы, как GPT-4o-Audio.
Основные характеристики
1. Унифицированная аудио-текстовая токенизация
В отличие от каскадных конвейеров ASR+LLM+TTS, Step-Audio 2 интегрирует мультимодальное дискретное моделирование токенов, где текстовые и аудиотокены используют единый поток моделирования. Это обеспечивает:
* плавное рассуждение по тексту и аудио;
* переключение голосового стиля во время вывода;
* согласованность семантических, просодических и эмоциональных выходных данных.
2. Выразительное и эмоциональное генерирование
Модель не просто транскрибирует речь — она интерпретирует паралингвистические особенности, такие как высота тона, ритм, эмоции, тембр и стиль. Это позволяет вести разговоры с реалистичными эмоциональными тонами, такими как шёпот, грусть или волнение.
Тесты StepEval-Audio-Paralinguistic показывают, что Step-Audio 2 достигает точности 83,1%, что значительно превосходит GPT-4o Audio (43,5%) и Qwen-Omni (44,2%).
3. Генерация речи с дополненным поиском
Step-Audio 2 включает в себя мультимодальный RAG (Retrieval-Augmented Generation):
* интеграция веб-поиска для обоснования фактических данных;
* аудиопоиск — новая возможность, которая извлекает реальные голоса из большой библиотеки и объединяет их в ответах, позволяя имитировать тембр/стиль голоса во время вывода.
4. Вызов инструментов и мультимодальное рассуждение
Система выходит за рамки синтеза речи, поддерживая вызов инструментов. Тесты показывают, что Step-Audio 2 соответствует текстовым LLM в выборе инструментов и точности параметров, при этом уникально превосходя аудиопоисковые вызовы инструментов — возможность, недоступная в текстовых LLM.
Обучение и масштаб данных
* Текст + аудиокорпус: 1,356 триллионов токенов.
* Аудиочасы: более 8 миллионов реальных и синтетических часов.
* Разнообразие динамиков: около 50 тысяч голосов на разных языках и диалектах.
* Конвейер предварительного обучения: многоступенчатая учебная программа, охватывающая ASR, TTS, перевод речи в речь и синтез разговоров с маркировкой эмоций.
Такой масштаб обучения позволяет Step-Audio 2 Mini сохранять сильный текстовый анализ (через его основу Qwen2-Audio и CosyVoice) и одновременно осваивать детальное аудиомоделирование.
Бенчмарки производительности
* Автоматическое распознавание речи (ASR):
* английский: средний WER 3,14% (превосходит GPT-4o Transcribe при среднем значении 4,5%);
* китайский: средний CER 3,08% (значительно ниже, чем у GPT-4o и Qwen-Omni).
* Понимание аудио (MMAU Benchmark):
* Step-Audio 2: 78,0 в среднем, опережая Omni-R1 (77,0) и Audio Flamingo 3 (73,1).
* Перевод речи:
* CoVoST 2 (S2TT): BLEU 39,26 (самый высокий среди открытых и закрытых моделей);
* CVSS (S2ST): BLEU 30,87, опережая GPT-4o (23,68).
* Разговорные тесты (URO-Bench):
* китайские разговоры: лучший общий показатель 83,3 (базовый) и 68,2 (профессиональный);
* английские разговоры: конкурирует с GPT-4o (83,9 против 84,5), значительно опережая другие открытые модели.
Источник: Marktechpost.com
Заключение
Step-Audio 2 Mini делает передовой мультимодальный речевой интеллект доступным для разработчиков и исследовательского сообщества. Объединив возможности Qwen2-Audio в области рассуждений с конвейером токенизации CosyVoice и дополнив их поиском на основе извлечения, StepFun представила одну из самых функциональных открытых аудио-LLM.
Ознакомьтесь с статьёй и моделью на Hugging Face. Не стесняйтесь заглянуть на нашу страницу GitHub, чтобы найти учебные пособия, коды и блокноты. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу из более чем 100 тысяч подписчиков ML SubReddit и подписывайтесь на нашу рассылку новостей.
1. Какие преимущества Step-Audio 2 Mini имеет перед другими моделями, такими как GPT-4o-Audio?
Ответ: Step-Audio 2 Mini превосходит GPT-4o-Audio в распознавании речи, понимании аудио и проверке речевых диалогов. Модель обеспечивает выразительное, обоснованное взаимодействие в реальном времени и достигает точности 83,1% в тестах StepEval-Audio-Paralinguistic, в то время как GPT-4o Audio и Qwen-Omni показывают значительно более низкие результаты.
2. Какие основные характеристики отличают Step-Audio 2 Mini от других моделей?
Ответ: Основные характеристики Step-Audio 2 Mini включают унифицированную аудио-текстовую токенизацию, которая обеспечивает плавное рассуждение по тексту и аудио, выразительное и эмоциональное генерирование, генерацию речи с дополненным поиском и вызов инструментов с мультимодальным рассуждением.
3. Какой масштаб данных использовался для обучения Step-Audio 2 Mini?
Ответ: Для обучения Step-Audio 2 Mini использовался масштабный текст + аудиокорпус, включающий 1,356 триллиона токенов, более 8 миллионов реальных и синтетических часов аудио, а также около 50 тысяч голосов на разных языках и диалектах.
4. Какие бенчмарки производительности демонстрирует Step-Audio 2 Mini?
Ответ: Step-Audio 2 Mini демонстрирует высокие результаты в автоматическом распознавании речи (средний WER 3,14% для английского и средний CER 3,08% для китайского), понимании аудио (MMAU Benchmark: 78,0 в среднем), переводе речи (CoVoST 2: BLEU 39,26 и CVSS: BLEU 30,87) и разговорных тестах (URO-Bench: китайские разговоры — лучший общий показатель 83,3 (базовый) и 68,2 (профессиональный); английские разговоры — конкурирует с GPT-4o).
5. Какие возможности предоставляет Step-Audio 2 Mini для разработчиков и исследовательского сообщества?
Ответ: Step-Audio 2 Mini предоставляет разработчикам и исследовательскому сообществу возможность использовать передовой мультимодальный речевой интеллект. Модель объединяет возможности Qwen2-Audio в области рассуждений с конвейером токенизации CosyVoice и дополнена поиском на основе извлечения, что делает её одной из самых функциональных открытых аудио-LLM.