Исследователи Qwen выпустили Qwen3-TTS: открытую мультилингвальную систему синтеза речи с задержкой в реальном времени и детализированным голосовым контролем

Команда Qwen из Alibaba Cloud выпустила в открытый доступ Qwen3-TTS — семейство мультилингвальных моделей синтеза речи, предназначенных для решения трёх основных задач в одном стеке: клонирования голоса, голосового дизайна и генерации высококачественной речи.

Семейство моделей и возможности

Qwen3-TTS использует 12 Гц-ный токенизатор речи и две модели языка размером 0,6B и 1,7B, объединённые в три основные задачи. В открытом доступе представлены 5 моделей:
* Qwen3-TTS-12Hz-0,6B-Base и Qwen3-TTS-12Hz-1,7B-Base для клонирования голоса и общего синтеза речи;
* Qwen3-TTS-12Hz-0,6B-CustomVoice и Qwen3-TTS-12Hz-1,7B-CustomVoice для создания предустановленных динамиков по запросу;
* Qwen3-TTS-12Hz-1,7B-VoiceDesign для создания голоса в свободной форме по описаниям на естественном языке, а также ко́дек Qwen3-TTS-Tokenizer-12Hz.

Все модели поддерживают 10 языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский и итальянский.

Варианты CustomVoice поставляются с 9 тщательно отобранными тембрами, такими как Vivian — яркий молодой голос китайской женщины, Ryan — динамичный голос мужчины-англичанина и Ono_Anna — игривый голос японской женщины. Каждый тембр имеет краткое описание, в котором закодированы тембр и стиль речи.

Модель VoiceDesign преобразует текстовые инструкции непосредственно в новые голоса, например, «говорить нервным голосом подростка с восходящей интонацией», и может быть объединена с базовой моделью путём генерации короткого эталонного клипа и его повторного использования через createvoiceclone_prompt.

Архитектура, токенизатор и потоковая передача

Qwen3-TTS — это двухобъектная языковая модель: один объект предсказывает дискретные акустические токены из текста, другой обрабатывает сигналы выравнивания и управления. Система обучена на более чем 5 миллионах часов мультилингвальной речи в три этапа предварительного обучения, которые переходят от общего сопоставления к высококачественным данным и поддержке длинного контекста до 32 768 токенов.

Ключевым компонентом является ко́дек Qwen3-TTS-Tokenizer-12Hz. Он работает со скоростью 12,5 кадров в секунду, около 80 мс на токен, и использует 16 квантователей с кодовой книгой на 2048 записей. На LibriSpeech test clean он достигает PESQ wideband 3,21, STOI 0,96 и UTMOS 4,16, превосходя SpeechTokenizer, XCodec, Mimi, FireredTTS 2 и другие недавние семантические токенизаторы, при этом используя аналогичную или более низкую частоту кадров.

Выравнивание и контроль

После обучения используется поэтапный конвейер выравнивания. Сначала Direct Preference Optimization выравнивает сгенерированную речь с человеческими предпочтениями на мультилингвальных данных. Затем GSPO с вознаграждениями на основе правил улучшает стабильность и просодию. На заключительном этапе тонкой настройки диктора на базовой модели получаются варианты целевых дикторов, сохраняя при этом основные возможности общей модели.

Следование инструкциям реализовано в формате ChatML, где текстовые инструкции о стиле, эмоциях или темпе добавляются к входным данным. Этот же интерфейс используется для подсказок VoiceDesign, CustomVoice и детальных правок для клонированных дикторов.

Бенчмарки, нулевое клонирование и мультилингвальная речь

На тестовом наборе Seed-TTS Qwen3-TTS оценивается как система клонирования голоса с нулевым выстрелом. Модель Qwen3-TTS-12Hz-1,7B-Base достигает коэффициента ошибок по словам (WER) 0,77 на test-zh и 1,24 на test-en.

В мультилингвальном наборе тестов синтеза речи, охватывающем 10 языков, Qwen3-TTS достигает наименьшего WER на 6 языках: китайском, английском, итальянском, французском, корейском и русском, и конкурентоспособную производительность на оставшихся 4 языках, а также получает наибольшее сходство с дикторами на всех 10 языках по сравнению с MiniMax-Speech и ElevenLabs Multilingual v2.

Основные выводы

* Открытый мультилингвальный стек TTS: Qwen3-TTS — это лицензированный пакет Apache 2.0, который охватывает 3 задачи в одном стеке: высококачественный TTS, 3-секундное клонирование голоса и дизайн голоса на основе инструкций на 10 языках с использованием семейства токенизаторов 12 Гц.
* Эффективный дискретный ко́дек и потоковая передача в реальном времени: Qwen3-TTS-Tokenizer-12Hz использует 16 кодовых книг со скоростью 12,5 кадров в секунду, достигает высоких показателей PESQ, STOI и UTMOS и поддерживает пакетную потоковую передачу с объёмом аудио примерно 320 мс на пакет и задержкой первого пакета менее 120 мс для моделей 0,6B и 1,7B в описанной настройке.
* Варианты моделей для конкретных задач: выпуск предлагает базовые модели для клонирования и общего TTS, модели CustomVoice с 9 предварительно настроенными дикторами и подсказками по стилю, а также модель VoiceDesign, которая генерирует новые голоса непосредственно из описаний на естественном языке, которые затем могут быть повторно использованы базовой моделью.
* Высокое качество выравнивания и мультиязычность: многоэтапный конвейер выравнивания с DPO, GSPO и тонкой настройкой диктора даёт Qwen3-TTS низкие коэффициенты ошибок по словам и высокое сходство с дикторами, с наименьшим WER на 6 из 10 языков и лучшим сходством с дикторами на всех 10 языках среди оценённых систем, а также передовые показатели нулевого клонирования на английском языке в Seed TTS.

1. Какие задачи решает Qwen3-TTS и какие модели входят в семейство Qwen3-TTS?

Qwen3-TTS решает три основные задачи: клонирование голоса, голосовой дизайн и генерацию высококачественной речи. В семейство Qwen3-TTS входят следующие модели: Qwen3-TTS-12Hz-0,6B-Base и Qwen3-TTS-12Hz-1,7B-Base для клонирования голоса и общего синтеза речи; Qwen3-TTS-12Hz-0,6B-CustomVoice и Qwen3-TTS-12Hz-1,7B-CustomVoice для создания предустановленных динамиков по запросу; Qwen3-TTS-12Hz-1,7B-VoiceDesign для создания голоса в свободной форме по описаниям на естественном языке, а также ко́дек Qwen3-TTS-Tokenizer-12Hz.

2. Какие языки поддерживает Qwen3-TTS?

Qwen3-TTS поддерживает 10 языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский и итальянский.

3. Какие преимущества предлагает Qwen3-TTS по сравнению с другими системами синтеза речи?

Qwen3-TTS предлагает следующие преимущества:
* открытый мультилингвальный стек TTS;
* эффективный дискретный ко́дек и потоковая передача в реальном времени;
* варианты моделей для конкретных задач;
* высокое качество выравнивания и мультиязычность.

4. Какие модели Qwen3-TTS используются для создания предустановленных динамиков по запросу?

Для создания предустановленных динамиков по запросу используются модели Qwen3-TTS-12Hz-0,6B-CustomVoice и Qwen3-TTS-12Hz-1,7B-CustomVoice.

5. Какие параметры используются для оценки качества Qwen3-TTS на тестовом наборе Seed-TTS?

На тестовом наборе Seed-TTS Qwen3-TTS оценивается по коэффициенту ошибок по словам (WER). Модель Qwen3-TTS-12Hz-1,7B-Base достигает WER 0,77 на test-zh и 1,24 на test-en.

Источник