Знакомьтесь: VoXtream — модель синтеза речи с открытым исходным кодом для использования в реальном времени, которая начинает говорить с первого слова

VoXtream — модель синтеза речи (Text-to-Speech, TTS) с открытым исходным кодом, разработанная группой Speech, Music and Hearing Королевского технологического института (KTH). Она предназначена для использования в реальном времени и начинает говорить после первого слова.

Проблемы существующих систем TTS

Большинство систем потокового TTS всё ещё ожидают получения фрагмента текста, прежде чем начать воспроизведение звука. Из-за этого человек слышит небольшую паузу перед началом голоса.

Как работает VoXtream

* Начало работы. VoXtream начинает говорить после первого слова, выводит аудиофрагменты за 80 мс и сообщает о задержке первого пакета (First-Packet Latency, FPL) в 102 мс на современном графическом процессоре (GPU) с компиляцией PyTorch.
* Архитектура. Архитектура модели ориентирована на начало работы после первого слова, а не только на стабильную пропускную способность.
* Принцип работы. Модель использует динамический поиск фонем внутри инкрементального Phoneme Transformer (PT). PT может просматривать до 10 фонем для стабилизации просодии, но не ждёт этого контекста; генерация может начаться сразу после того, как первое слово попадёт в буфер.

Структура модели

* Phoneme Transformer (PT): декодер, инкрементальный; динамический поиск ≤ 10 фонем; фонемизация на уровне слов.
* Temporal Transformer (TT): AR-предиктор по семантическим токенам кодека Mimi плюс токен длительности, который кодирует монотонное выравнивание «фонема-звук».
* Depth Transformer (DT): AR-генератор для оставшихся акустических книг Mimi, обусловленный выходами TT и встраиванием динамика ReDimNet для нулевого выстрела голосовых подсказок.

Производительность

В репозитории есть эталонный скрипт, который измеряет FPL и коэффициент реального времени (RTF). На A100 исследовательская группа сообщает о 171 мс / 1,00 RTF без компиляции и 102 мс / 0,17 RTF с компиляцией; на RTX 3090 — 205 мс / 1,19 RTF без компиляции и 123 мс / 0,19 RTF с компиляцией.

Сравнение с популярными системами потокового TTS

Исследовательская группа оценивает краткосрочный потоковый вывод и сценарии потоковой передачи. На LibriSpeech-long в режиме потоковой передачи (где текст поступает пословно) VoXtream показывает более низкий WER (3,24 %) по сравнению с CosyVoice2 (6,11 %).

Почему AR-дизайн лучше справляется с началом работы, чем диффузионные/потоковые стеки?

Диффузионные/потоковые вокодеры обычно генерируют аудиофрагменты по частям, поэтому даже при умном чередовании текста и аудио вокодер накладывает ограничение на задержку первого пакета. VoXtream сохраняет все этапы AR и синхронизированными по кадрам — PT→TT→DT→Mimi decoder, — поэтому первый пакет в 80 мс появляется после одного прохода через стек, а не после многошагового сэмплера.

Обучение модели

VoXtream обучается на корпусе объёмом около 9 тыс. часов: примерно 4,5 тыс. часов Emilia и 4,5 тыс. часов HiFiTTS-2 (подмножество 22 кГц). Команда диаризировала для удаления клипов с несколькими спикерами, отфильтровала транскрипты с помощью ASR и применила NISQA для удаления некачественного аудио. Всё передискретизировано до 24 кГц.

Показатели качества

Таблица 1 (TTS с нулевым выстрелом) показывает, что VoXtream конкурентоспособен по WER, UTMOS (MOS predictor) и сходству с диктором на тестах SEED-TTS test-en и LibriSpeech test-clean.

Место VoXtream в ландшафте TTS

Согласно исследовательской статье, VoXtream занимает место среди недавних подходов, сочетающих AR + NAR-вокодеры и стеки LM-кодеков. Основной вклад — это не новый кодек или гигантская модель, а расположение AR, ориентированное на задержку, плюс выравнивание по токену длительности, которое сохраняет потоковую передачу на стороне ввода.

Для ознакомления с моделью можно посетить GitHub-страницу и проектную страницу. Также можно подписаться на рассылку новостей и присоединиться к нашему сообществу в SubReddit.

1. В чём заключается основное преимущество модели VoXtream по сравнению с другими системами потокового TTS?

Основное преимущество модели VoXtream заключается в том, что она начинает говорить после первого слова, минимизируя задержку первого пакета (FPL) и обеспечивая начало воспроизведения аудиофрагментов за 80 мс. Это отличает её от других систем потокового TTS, которые обычно ожидают получения фрагмента текста перед началом воспроизведения звука.

2. Какие ключевые компоненты входят в структуру модели VoXtream?

Ключевые компоненты структуры модели VoXtream включают:
* Phoneme Transformer (PT) — декодер, инкрементальный;
* Temporal Transformer (TT) — AR-предиктор по семантическим токенам кодека Mimi плюс токен длительности;
* Depth Transformer (DT) — AR-генератор для оставшихся акустических книг Mimi.

3. На каких данных обучается модель VoXtream и какие показатели качества используются для её оценки?

Модель VoXtream обучается на корпусе объёмом около 9 тыс. часов, включая примерно 4,5 тыс. часов Emilia и 4,5 тыс. часов HiFiTTS-2 (подмножество 22 кГц). Для оценки качества модели используются показатели WER (Word Error Rate), UTMOS (MOS predictor) и сходство с диктором на тестах SEED-TTS test-en и LibriSpeech test-clean.

4. Как модель VoXtream справляется с началом работы по сравнению с диффузионными/потоковыми стеками?

Модель VoXtream лучше справляется с началом работы, чем диффузионные/потоковые стеки, благодаря сохранению всех этапов AR синхронизированными по кадрам — PT→TT→DT→Mimi decoder. Это позволяет первому пакету в 80 мс появиться после одного прохода через стек, а не после многошагового сэмплера.

5. Какие выводы можно сделать о месте VoXtream в ландшафте TTS на основе представленной информации?

На основе представленной информации можно сделать вывод, что VoXtream занимает место среди недавних подходов, сочетающих AR + NAR-вокодеры и стеки LM-кодеков. Основной вклад модели заключается в расположении AR, ориентированном на задержку, и выравнивании по токену длительности, которое сохраняет потоковую передачу на стороне ввода.

Источник