Tencent AI открывает исходные коды Covo-Audio: модель языка речи на 7 миллиардов параметров и механизм логического вывода для аудиодиалогов в реальном времени

Лаборатория Tencent AI выпустила Covo-Audio — модель языка речи на 7 миллиардов параметров (Large Audio Language Model, LALM). Модель предназначена для объединения обработки речи и языкового интеллекта путём прямой обработки непрерывных аудиовходов и генерации аудиовыходов в рамках единой архитектуры.

Архитектура системы

Структура Covo-Audio состоит из четырёх основных компонентов, предназначенных для беспрепятственного кросс-модального взаимодействия:

* Аудиокодер. Модель использует Whisper-large-v3 в качестве основного кодера из-за его устойчивости к фоновому шуму и различным акцентам. Этот компонент работает с частотой 50 Гц.
* Аудиоадаптер. Для связи кодера и LLM используется специализированный адаптер, в котором применяются три модуля понижения дискретизации, интегрирующие линейные и свёрточные слои для снижения частоты кадров с 50 Гц до 6,25 Гц.
* Основа LLM. Система построена на Qwen2.5-7B-Base, которая была адаптирована для обработки чередующихся последовательностей непрерывных акустических признаков и текстовых токенов.
* Токенизатор речи и декодер. Токенизатор, основанный на WavLM-large, использует размер кодовой книги 16 384 для создания дискретных аудиотокенов с частотой 25 Гц. Декодер использует фреймворк, основанный на Flow-Matching (FM), и вокодер BigVGAN для реконструкции высококачественных сигналов 24K.

Иерархическое трёхмодальное чередование

Ключевым вкладом этой работы является стратегия иерархического трёхмодального чередования речи и текста. В отличие от традиционных методов, которые работают исключительно на уровне слов или символов, этот фреймворк объединяет непрерывные акустические признаки (ac)(ac), дискретные речевые токены (ad)(ad) и естественный язык (t)(t).

Модель использует два основных шаблона:

* Последовательное чередование (ac→t→ad)(ac \rightarrow t \rightarrow ad): непрерывные признаки, текст и дискретные токены расположены в прогрессивной цепочке.
* Параллельная интеграция (ac→t|ad)(ac \rightarrow t | ad): непрерывные признаки совмещаются с сопряжённым текстово-дискретным блоком.

Иерархический аспект обеспечивает структурную согласованность за счёт использования чередования на уровне фраз для точного выравнивания и на уровне предложений для сохранения глобальной семантической целостности в длинных высказываниях.

Разделение интеллекта и голоса

Чтобы снизить высокую стоимость создания крупномасштабных диалоговых данных для конкретных спикеров, исследовательская группа предложила стратегию разделения интеллекта и голоса. Этот метод отделяет диалог от рендеринга голоса, что позволяет гибко настраивать голос с использованием минимальных данных Text-to-Speech (TTS).

Метод переформатирует высококачественные записи TTS в псевдодиалоги с потерей замаскированного текста. Исключая часть текстового ответа из расчёта потерь, модель сохраняет свои способности к рассуждению, наследуя естественность динамика TTS. Это обеспечивает персонализированное взаимодействие без необходимости обширных наборов данных диалогов для конкретного динамика.

Полнодуплексное голосовое взаимодействие

Covo-Audio эволюционировал в Covo-Audio-Chat-FD — вариант, способный к одновременной двунаправленной коммуникации. Аудиокодер переформатирован в потоковый режим, а потоки пользователя и модели чередуются в соотношении 1:4. Каждый фрагмент представляет 0,16 секунды аудио.

Система управляет диалоговыми состояниями с помощью специальных архитектурных токенов:

* THINK — указывает на состояние прослушивания, пока модель ждёт ответа.
* SHIFT — означает переход к очереди речи модели.
* BREAK — обнаруживает сигналы прерывания (вмешательства), заставляя модель немедленно прекратить говорить и переключиться обратно на прослушивание.

Для сценариев с несколькими ходами модель реализует рекурсивную стратегию заполнения контекста, где непрерывные аудиопризнаки из пользовательского ввода и сгенерированные токены из предыдущих ходов добавляются в качестве исторического контекста.

Аудиологическое мышление и обучение с подкреплением

Для улучшения комплексного мышления модель включает в себя рассуждения по цепочке (CoT) и групповую относительную оптимизацию политики (GRPO). Модель оптимизируется с использованием проверяемой составной функции вознаграждения:

$$R{total} = R{accuracy} + R{format} + R{consistency} + R_{thinking}$$

Эта структура позволяет модели оптимизировать правильность (Raccuracy)(R{accuracy}), соответствие структурированному выводу (Rformat)(R{format}), логическую согласованность (Rconsistency)(R{consistency}) и глубину рассуждений (Rthinking)(R{thinking}).

Оценка и производительность

Covo-Audio (7B) демонстрирует конкурентные или превосходные результаты по нескольким оценочным бенчмаркам, с самыми сильными утверждениями, сделанными для моделей сопоставимого масштаба и выбранных задач речи и аудио.

На бенчмарке MMAU модель достигла среднего балла 75,30%, самого высокого среди оценённых моделей масштаба 7B. Она особенно преуспела в понимании музыки со счётом 76,05%. На бенчмарке MMSU Covo-Audio достигла лидирующих 66,64% средней точности.

Ключевые выводы

* Единая сквозная архитектура. Covo-Audio — это модель на 7 миллиардов параметров, которая изначально обрабатывает непрерывные аудиовходы и генерирует высококачественные аудиовыходы в рамках единой архитектуры. Она устраняет необходимость в каскадных конвейерах ASR-LLM-TTS, уменьшая распространение ошибок и потерю информации.
* Иерархическое трёхмодальное чередование. Модель использует специализированную стратегию для выравнивания непрерывных акустических признаков, дискретных речевых токенов и естественного языка.
* Разделение интеллекта и голоса. Исследовательская группа Tencent представляет технику разделения диалога и голосового рендеринга. Это позволяет гибко настраивать голос с использованием облегчённых данных Text-to-Speech (TTS), значительно снижая стоимость разработки персонализированных диалоговых агентов.
* Нативное полнодуплексное взаимодействие. Вариант Covo-Audio-Chat-FD поддерживает одновременное прослушивание и разговор. Он использует специальные архитектурные токены — THINK, SHIFT и BREAK — для управления сложными динамиками в реальном времени, такими как плавный переход хода, бэк-каналы и пользовательские вмешательства.
* Превосходная эффективность параметров. Несмотря на компактный масштаб в 7 миллиардов параметров, Covo-Audio достигает современного или высококонкурентного уровня производительности по основным бенчмаркам, включая MMAU, MMSU и URO-Bench. Она часто соответствует или превосходит производительность гораздо более крупных систем, таких как модели на 32 миллиарда параметров, в задачах понимания аудио и речи.

1. Какие основные компоненты включает в себя архитектура системы Covo-Audio?

Архитектура системы Covo-Audio состоит из четырёх основных компонентов: аудиокодера, аудиоадаптера, основы LLM и токенизатора речи и декодера.

2. Какие методы используются для обработки непрерывных аудиовходов и генерации аудиовыходов в рамках единой архитектуры Covo-Audio?

Для обработки непрерывных аудиовходов и генерации аудиовыходов в рамках единой архитектуры Covo-Audio используется иерархическое трёхмодальное чередование речи и текста, а также разделение интеллекта и голоса.

3. Какие преимущества предоставляет модель Covo-Audio по сравнению с традиционными методами обработки речи и языкового интеллекта?

Модель Covo-Audio предоставляет несколько преимуществ по сравнению с традиционными методами:
* единая сквозная архитектура, которая устраняет необходимость в каскадных конвейерах ASR-LLM-TTS;
* иерархическое трёхмодальное чередование, которое обеспечивает структурную согласованность и точное выравнивание;
* разделение интеллекта и голоса, которое позволяет гибко настраивать голос с использованием минимальных данных Text-to-Speech (TTS).

4. Какие методы используются для улучшения комплексного мышления модели Covo-Audio?

Для улучшения комплексного мышления модель Covo-Audio включает в себя рассуждения по цепочке (CoT) и групповую относительную оптимизацию политики (GRPO). Модель оптимизируется с использованием проверяемой составной функции вознаграждения, которая позволяет оптимизировать правильность, соответствие структурированному выводу, логическую согласованность и глубину рассуждений.

5. Какие результаты демонстрирует модель Covo-Audio на различных оценочных бенчмарках?

Covo-Audio (7B) демонстрирует конкурентные или превосходные результаты по нескольким оценочным бенчмаркам. На бенчмарке MMAU модель достигла среднего балла 75,30%, самого высокого среди оценённых моделей масштаба 7B. Она особенно преуспела в понимании музыки со счётом 76,05%. На бенчмарке MMSU Covo-Audio достигла лидирующих 66,64% средней точности.

Источник