Исследователи FlashLabs выпустили Chroma 1.0: модель речевого диалога в реальном времени с персонализированным клонированием голоса

Chroma 1.0 — это модель речевого диалога в реальном времени, которая преобразует аудио в аудио, сохраняя при этом идентичность говорящего в многоходовых беседах. Она представлена как первая система речевого диалога с открытым исходным кодом, которая сочетает низкую задержку взаимодействия с высококачественным персонализированным клонированием голоса. Для этого требуется всего несколько секунд эталонного аудио.

Модель работает непосредственно с дискретными речевыми представлениями, а не с текстовыми транскриптами. Она ориентирована на те же варианты использования, что и коммерческие агенты в реальном времени, но с компактным ядром диалога на 4 миллиарда параметров и дизайном, который рассматривает сходство говорящих как основную цель, а не как вспомогательную функцию.

Chroma достигает 10,96% относительного улучшения сходства говорящего по сравнению с человеческим базовым уровнем и достигает коэффициента реального времени (RTF) 0,43, что позволяет генерировать речь более чем в 2 раза быстрее, чем при воспроизведении.

Архитектура, механизм рассуждения и генерация речи

Chroma 1.0 имеет две основные подсистемы. Chroma Reasoner обрабатывает мультимодальное понимание и генерацию текста. Стек речи, Chroma Backbone, Chroma Decoder и Chroma Codec Decoder, преобразует этот семантический вывод в персонализированный ответ в аудиоформате.

Chroma Reasoner построен на модуле Thinker из серии Qwen-omni и использует конвейер кодирования аудио Qwen2. Он обрабатывает текстовые и аудиовходы с общими интерфейсами, объединяет их с помощью кросс-модального внимания и выравнивает их во времени, используя Time aligned Multimodal Rotary Position Embedding (TM-RoPE).

Chroma Backbone — это модель в стиле LLaMA на 1 миллиард параметров, основанная на Llama3. Она учитывает целевой голос с помощью CSM-1B, который кодирует короткий эталонный аудиоклип и его транскрипцию в виде подсказок встраивания, которые добавляются в начало последовательности.

Chroma Decoder — это облегчённый вариант LLaMA с примерно 100 миллионами параметров. Backbone прогнозирует только первый кодовый буклет Residual Vector Quantization (RVQ) за кадр, что является грубым представлением. Decoder затем берёт скрытое состояние Backbone и первый код и авторегрессивно предсказывает оставшиеся уровни RVQ внутри того же кадра.

Chroma Codec Decoder объединяет грубые и уточнённые коды и сопоставляет их с образцами сигналов. Он следует дизайну декодера Mimi vocoder и использует причинную свёрточную нейронную сеть, так что каждый выходной образец зависит только от прошлого контекста, что требуется для потоковой передачи.

Обучение и синтетические данные речевого диалога

Высококачественные данные речевого диалога с сильными сигналами рассуждения встречаются редко. Поэтому Chroma использует конвейер синтетического речевого диалога (S2S). Система Test to Speech (TTS) затем синтезирует целевую речь, которая соответствует тембру эталонного аудио для этих ответов. Эти синтетические пары обучают Backbone и Decoder выполнять акустическое моделирование и клонирование голоса.

Качество клонирования голоса и сравнение с существующими системами

Объективная оценка использует протокол SEED-TTS-EVAL на спикерах English CommonVoice. Chroma работает на частоте дискретизации 24 кГц и достигает показателя сходства говорящего 0,81. Человеческий базовый уровень составляет 0,73.

Субъективная оценка сравнивает Chroma с моделью ElevenLabs elevenmultilingualv2. В тесте на естественность слушатели предпочитают ElevenLabs в 57,2% случаев по сравнению с 24,4% для Chroma.

Задержка и поведение в реальном времени

Задержка измеряется с одним параллельным потоком. Для ответа продолжительностью 38,80 секунды общее время генерации составляет 16,58 секунды, что даёт коэффициент реального времени (RTF) 0,43.

Показатели речевого диалога и рассуждения

Chroma оценивается на базовом треке URO Bench. Она использует только 4 миллиарда параметров, но достигает общего показателя выполнения задач 57,44%.

Chroma — единственная модель в этом сравнении, которая поддерживает персонализированное клонирование голоса. Все остальные системы ориентированы только на речевой диалог и рассуждение. Это означает, что Chroma обеспечивает конкурентные когнитивные возможности, одновременно выполняя персонализацию голоса с высокой точностью в реальном времени.

Ключевые выводы:

* End-to-end real-time speech-to-speech: Chroma 1.0 — это модель речевого диалога в реальном времени с 4 миллиардами параметров, которая напрямую преобразует речь в речь, используя кодовые токены. Она избегает явных этапов ASR и TTS и сохраняет просодию и идентичность говорящего на протяжении всего конвейера.
* Reasoner plus speech stack architecture: система сочетает в себе Chroma Reasoner на основе Qwen, Backbone в стиле LLaMA на 1 миллиард параметров, Chroma Decoder на 100 миллионов и Codec Decoder на основе Mimi.
* Strong personalized voice cloning: на SEED-TTS-EVAL с участниками CommonVoice Chroma достигает показателя сходства говорящего 0,81 на частоте 24 кГц.
* Sub-second latency and faster than real-time generation: однопотоковое выведение на H200 GPU даёт общее время до первого токена около 147 мс.
* Competitive dialogue and reasoning with cloning as a unique feature: на базовом треке URO Bench Chroma достигает 57,44% общего показателя выполнения задач и конкурентных результатов по Storal, TruthfulQA, GSM8K, MLC и CommonVoice.

1. Какие основные подсистемы включает в себя модель Chroma 1.0 и как они взаимодействуют между собой для обеспечения персонализированного клонирования голоса?

Ответ: модель Chroma 1.0 включает в себя две основные подсистемы: Chroma Reasoner и Chroma Backbone, Chroma Decoder и Chroma Codec Decoder. Chroma Reasoner обрабатывает мультимодальное понимание и генерацию текста. Стек речи, Chroma Backbone, Chroma Decoder и Chroma Codec Decoder преобразует этот семантический вывод в персонализированный ответ в аудиоформате.

2. Какие параметры используются для оценки качества клонирования голоса модели Chroma 1.0 и какие результаты были получены в сравнении с человеческим базовым уровнем?

Ответ: для оценки качества клонирования голоса модели Chroma 1.0 используется объективная оценка по протоколу SEED-TTS-EVAL на спикерах English CommonVoice. Chroma работает на частоте дискретизации 24 кГц и достигает показателя сходства говорящего 0,81. Человеческий базовый уровень составляет 0,73.

3. Как модель Chroma 1.0 обеспечивает персонализированное клонирование голоса в реальном времени и какие параметры влияют на задержку и скорость генерации речи?

Ответ: модель Chroma 1.0 обеспечивает персонализированное клонирование голоса в реальном времени за счёт использования компактного ядра диалога на 4 миллиарда параметров и дизайна, который рассматривает сходство говорящих как основную цель. Задержка измеряется с одним параллельным потоком. Для ответа продолжительностью 38,80 секунды общее время генерации составляет 16,58 секунды, что даёт коэффициент реального времени (RTF) 0,43.

4. Какие ключевые выводы можно сделать о модели Chroma 1.0 на основе представленных данных и как они могут повлиять на развитие технологий речевого диалога в будущем?

Ответ: ключевые выводы о модели Chroma 1.0 включают:
* Chroma 1.0 — это модель речевого диалога в реальном времени с 4 миллиардами параметров, которая напрямую преобразует речь в речь, используя кодовые токены.
* Chroma Reasoner плюс архитектура речевого стека: система сочетает в себе Chroma Reasoner на основе Qwen, Backbone в стиле LLaMA на 1 миллиард параметров, Chroma Decoder на 100 миллионов и Codec Decoder на основе Mimi.
* Strong personalized voice cloning: на SEED-TTS-EVAL с участниками CommonVoice Chroma достигает показателя сходства говорящего 0,81 на частоте 24 кГц.
* Sub-second latency and faster than real-time generation: однопотоковое выведение на H200 GPU даёт общее время до первого токена около 147 мс.
* Competitive dialogue and reasoning with cloning as a unique feature: на базовом треке URO Bench Chroma достигает 57,44% общего показателя выполнения задач и конкурентных результатов по Storal, TruthfulQA, GSM8K, MLC и CommonVoice.

Эти выводы могут повлиять на развитие технологий речевого диалога, обеспечивая новые возможности для персонализированного взаимодействия и улучшая качество голосовых систем.

Источник