Microsoft выпускает модель VibeVoice-Realtime-0.5B для преобразования текста в речь в реальном времени

Microsoft выпустила модель VibeVoice-Realtime-0.5B — это модель преобразования текста в речь, которая работает с потоковым вводом текста и генерацией длинных речевых фрагментов. Она предназначена для приложений в стиле агентов и живого озвучивания данных. Модель может начать воспроизводить речь примерно через 300 мс, что критически важно, когда языковая модель ещё генерирует остальную часть ответа.

Где VibeVoice Realtime в стеке VibeVoice?

VibeVoice — это более широкая платформа, ориентированная на диффузию следующего токена по непрерывным речевым токенам. Существуют варианты, предназначенные для многоголосных аудиозаписей большой формы, таких как подкасты. Исследовательская группа показывает, что основные модели VibeVoice могут синтезировать до 90 минут речи с участием до 4 говорящих в окне контекста 64k, используя непрерывные речевые токенизаторы со скоростью 7,5 Гц.

Вариант Realtime 0.5B — это ветвь этого семейства с низкой задержкой. В карточке модели указана длина контекста 8k и типичная длина генерации около 10 минут для одного говорящего, что достаточно для большинства голосовых агентов, системных рассказчиков и интерактивных информационных панелей.

Отдельный набор моделей VibeVoice, VibeVoice-1.5B и VibeVoice Large, работает с многоголосым аудио большой формы с окнами контекста 32k и 64k и более длительным временем генерации.

Архитектура потоковой передачи в реальном времени

Вариант в реальном времени использует чередующуюся оконную конструкцию. Входящий текст разбивается на фрагменты. Модель постепенно кодирует новые фрагменты текста, параллельно продолжая акустическую латентную генерацию на основе предшествующего контекста. Это перекрытие между кодированием текста и акустическим декодированием позволяет системе достичь задержки первого аудиосигнала примерно в 300 мс на подходящем оборудовании.

В отличие от вариантов большой формы VibeVoice, которые используют как семантические, так и акустические токенизаторы, модель в реальном времени удаляет семантический токенизатор и использует только акустический токенизатор, работающий на частоте 7,5 Гц. Акустический токенизатор основан на варианте σ VAE от LatentLM с зеркально-симметричной архитектурой кодера-декодера, которая использует 7 этапов модифицированных блоков трансформатора и выполняет 3200-кратное понижение дискретизации с 24 кГц аудио.

Обучение

Обучение проходит в два этапа. Сначала акустический токенизатор предварительно обучается. Затем токенизатор замораживается, и команда обучает LLM вместе с диффузионной головкой с помощью обучения по учебной программе на длине последовательности, увеличивая её примерно с 4k до 8192 токенов. Это сохраняет стабильность токенизатора, в то время как LLM и диффузионная головка учатся сопоставлять текстовые токены с акустическими токенами в длинных контекстах.

Качество на LibriSpeech и SEED

VibeVoice Realtime сообщает о нулевой производительности на тестовом чистом LibriSpeech. VibeVoice Realtime 0.5B достигает уровня ошибок в словах (WER) 2,00% и сходства с диктором 0,695. Для сравнения, VALL-E 2 имеет WER 2,40 при сходстве 0,643, а Voicebox — WER 1,90 при сходстве 0,662 на том же бенчмарке.

На тестовом бенчмарке SEED для коротких высказываний VibeVoice Realtime-0.5B достигает WER 2,05% и сходства с диктором 0,633. SparkTTS получает немного более низкий WER 1,98, но более низкое сходство 0,584, в то время как Seed TTS достигает WER 2,25 и самое высокое из зарегистрированных сходств 0,762.

Интеграция для агентов и приложений

Рекомендуемая настройка — запустить VibeVoice-Realtime-0.5B рядом с разговорной LLM. LLM передаёт токены во время генерации. Эти текстовые фрагменты поступают непосредственно на сервер VibeVoice, который синтезирует аудио параллельно и отправляет его обратно клиенту.

Для многих систем это выглядит как небольшой микросервис. Процесс TTS имеет фиксированный контекст 8k и около 10 минут аудиобюджета на запрос, что соответствует типичным диалогам с агентами, вызовам поддержки и информационным панелям мониторинга. Поскольку модель предназначена только для речи и не генерирует фоновый шум или музыку, она лучше подходит для голосовых интерфейсов, продуктов в стиле ассистента и программного озвучивания, а не для медиапроизводства.

Ключевые выводы

* Потоковая передача TTS с низкой задержкой: VibeVoice-Realtime-0.5B — это модель преобразования текста в речь в реальном времени, которая поддерживает потоковый ввод текста и может выдавать первые аудиокадры примерно через 300 мс, что делает её подходящей для интерактивных агентов и живого озвучивания, где пользователи не могут допустить задержек от 1 до 3 секунд.
* LLM вместе с диффузией по непрерывным речевым токенам: модель следует дизайну VibeVoice, она использует языковую модель Qwen2.5 0,5B для обработки текстового контекста и потока диалога, затем диффузионная головка работает с непрерывными акустическими токенами от токенизатора с низкой частотой кадров для генерации детализации на уровне формы волны, которая лучше масштабируется для длинных последовательностей, чем классические системы TTS на основе спектрограмм.
* Около 1 миллиарда параметров с акустическим стеком: хотя базовая LLM имеет 0,5 миллиарда параметров, акустический декодер имеет около 340 миллионов параметров, а диффузионная головка — около 40 миллионов параметров, таким образом, полный стек в реальном времени составляет примерно 1 миллиард параметров, что важно для планирования использования видеопамяти GPU и определения размера развёртывания.
* Конкурентное качество на LibriSpeech и SEED: на LibriSpeech test clean VibeVoice-Realtime-0.5B достигает уровня ошибок в словах 2,00% и сходства с диктором 0,695, а на SEED test en он достигает 2,05% WER и 0,633 сходства, что ставит его в один ряд с сильными современными системами TTS, при этом он настроен на устойчивость к длинным формам.

1. Какие особенности модели VibeVoice-Realtime-0.5B делают её подходящей для приложений в стиле агентов и живого озвучивания данных?

Ответ: Модель VibeVoice-Realtime-0.5B предназначена для приложений в стиле агентов и живого озвучивания данных благодаря своей способности работать с потоковым вводом текста и генерировать длинные речевые фрагменты с низкой задержкой (примерно 300 мс). Это делает её идеальной для интерактивных агентов, где важна быстрая реакция на вводимый текст.

2. Как устроена архитектура потоковой передачи в реальном времени в модели VibeVoice-Realtime-0.5B?

Ответ: Входящий текст в модели VibeVoice-Realtime-0.5B разбивается на фрагменты, которые постепенно кодируются. Параллельно продолжается акустическая латентная генерация на основе предшествующего контекста. Это перекрытие между кодированием текста и акустическим декодированием позволяет системе достичь задержки первого аудиосигнала примерно в 300 мс на подходящем оборудовании.

3. Какие параметры модели VibeVoice-Realtime-0.5B влияют на её производительность и какие значения они имеют?

Ответ: Модель VibeVoice-Realtime-0.5B имеет длину контекста 8k и типичную длину генерации около 10 минут для одного говорящего. Она использует акустический токенизатор, работающий на частоте 7,5 Гц. Эти параметры влияют на производительность модели, позволяя ей генерировать речь с низкой задержкой и поддерживать качество озвучивания в течение длительного времени.

4. Как модель VibeVoice-Realtime-0.5B сравнивается с другими моделями TTS на бенчмарках LibriSpeech и SEED?

Ответ: На тестовом чистом LibriSpeech VibeVoice Realtime 0.5B достигает уровня ошибок в словах (WER) 2,00% и сходства с диктором 0,695. Для сравнения, VALL-E 2 имеет WER 2,40 при сходстве 0,643, а Voicebox — WER 1,90 при сходстве 0,662 на том же бенчмарке. На тестовом бенчмарке SEED для коротких высказываний VibeVoice Realtime-0.5B достигает WER 2,05% и сходства с диктором 0,633. Это показывает, что модель VibeVoice-Realtime-0.5B демонстрирует конкурентное качество по сравнению с другими моделями TTS.

5. Какие рекомендации даются для интеграции модели VibeVoice-Realtime-0.5B в приложения?

Ответ: Рекомендуемая настройка — запустить VibeVoice-Realtime-0.5B рядом с разговорной LLM. LLM передаёт токены во время генерации. Эти текстовые фрагменты поступают непосредственно на сервер VibeVoice, который синтезирует аудио параллельно и отправляет его обратно клиенту. Это позволяет использовать модель VibeVoice-Realtime-0.5B в качестве микросервиса для озвучивания текстовых фрагментов в приложениях.

Источник