Команда Xiaomi MiMo выпустила MiMo-Audio — модель языка речи на 7 миллиардов параметров, которая использует единую цель следующего токена для перемежающегося текста и дискретизированной речи, масштабируя предварительное обучение более чем на 100 миллионов часов аудио.
Что нового?
MiMo-Audio использует специальный токенизатор RVQ (остаточное векторное квантование), который нацелен на семантическую точность и высокое качество реконструкции. Вместо того чтобы полагаться на специальные для задач головы или акустические токены с потерями, токенизатор работает со скоростью 25 Гц и выводит 8 слоёв RVQ (≈200 токенов/с), предоставляя языковой модели доступ к «без потерь» характеристикам речи, которые она может моделировать авторегрессивно вместе с текстом.
Архитектура:
* кодировщик патчей → 7B LLM → декодер патчей.
Чтобы справиться с несоответствием скорости аудио и текста, система упаковывает четыре временных шага в один патч для потребления языковой моделью (пониженная дискретизация 25 Гц → 6,25 Гц), а затем реконструирует полноскоростные потоки RVQ с помощью каузального декодера патчей. Задержанная многоуровневая схема генерации RVQ чередует прогнозы для каждой кодовой книги, чтобы стабилизировать синтез и учесть межслойные зависимости.
Все три части — кодировщик патчей, основа MiMo-7B и декодер патчей — обучаются в рамках единой цели следующего токена.
Этапы обучения:
1. Этап «понимания», который оптимизирует потерю текстового токена на основе перемежающихся корпусов речи и текста.
2. Совместный этап «понимание + генерация», который включает аудиопотери для продолжения речи, задач S2T/T2S и данных в стиле инструкций.
Бенчмарки: интеллект речи и общий аудиоанализ
MiMo-Audio оценивается на наборах данных для рассуждений о речи (например, SpeechMMLU) и широких тестах на понимание аудио (например, MMAU), показывая высокие результаты в речи, звуке и музыке и уменьшая «модальный разрыв» между текстовыми и речевыми настройками.
Xiaomi также выпускает MiMo-Audio-Eval — общедоступный инструментарий для воспроизведения этих результатов. Демоверсии «слушай и отвечай» (продолжение речи, преобразование голоса/эмоций, шумоподавление и перевод речи) доступны онлайн.
Почему это важно?
Подход намеренно прост — без многоголовой башни задач, без специальных целей ASR/TTS на этапе предварительного обучения, просто предсказание следующего токена в стиле GPT для аудио-токенов без потерь плюс текст.
Ключевые инженерные идеи:
* токенизатор, который языковая модель может реально использовать, не теряя при этом просодии и идентичности говорящего;
* патчивание для управления длиной последовательности;
* задержанное декодирование RVQ для сохранения качества во время генерации.
Для команд, создающих голосовых агентов, эти конструктивные решения означают возможность редактирования речи с помощью нескольких примеров и надёжное продолжение речи с минимальным количеством настроек для конкретных задач.
6 технических выводов:
1. Токензация высокой точности. MiMo-Audio использует специальный токенизатор RVQ, работающий со скоростью 25 Гц с 8 активными кодовыми книгами, обеспечивая сохранение просодии, тембра и идентичности говорящего при сохранении удобства для языковой модели.
2. Моделирование последовательностей с помощью патчей. Модель сокращает длину последовательности, группируя по четыре временных шага в один патч (25 Гц → 6,25 Гц), позволяя 7B LLM эффективно обрабатывать длинные речи без потери деталей.
3. Единая цель следующего токена. Вместо отдельных голов для ASR, TTS или диалога MiMo-Audio обучается с единой целью прогнозирования следующего токена на основе перемежающегося текста и аудио, упрощая архитектуру и поддерживая обобщение для нескольких задач.
4. Появление способностей с несколькими примерами. Поведение с несколькими примерами, такое как продолжение речи, преобразование голоса, передача эмоций и перевод речи, появляется после преодоления крупномасштабного порога данных (~100 миллионов часов, триллионы токенов).
5. Лидерство в бенчмарках. MiMo-Audio устанавливает современные показатели в SpeechMMLU (S2S 69,1, T2S 71,5) и MMAU (66,0 в целом), минимизируя разрыв между текстом и речью до 3,4 пункта.
6. Открытая экосистема. Xiaomi предоставляет токенизатор, контрольные точки 7B (базовые и инструктивные), инструментарий MiMo-Audio-Eval и общедоступные демонстрации, позволяя исследователям и разработчикам тестировать и расширять возможности интеллектуального анализа речи в открытых исходных кодах.
Резюме
MiMo-Audio демонстрирует, что высокоточная токенизация на основе RVQ в сочетании с патчифицированным предварительным обучением следующего токена в масштабе достаточна для раскрытия интеллектуального потенциала речи с несколькими примерами без специальных для задач голов.
Стек 7B — токенизатор → кодировщик патчей → LLM → декодер патчей — преодолевает разрыв между скоростью аудио и текста (25 → 6,25 Гц) и сохраняет просодию и идентичность говорящего с помощью задержанного многоуровневого декодирования RVQ.
Эмпирически модель сокращает разрыв между текстом и речью, обобщает результаты по бенчмаркам речи/звука/музыки и поддерживает редактирование и продолжение речи в контексте.
1. Какие инновационные технологии использованы в модели MiMo-Audio для обеспечения высокого качества обработки речи?
В модели MiMo-Audio использован специальный токенизатор RVQ (остаточное векторное квантование), который нацелен на семантическую точность и высокое качество реконструкции. Он работает со скоростью 25 Гц и выводит 8 слоёв RVQ (≈200 токенов/с), предоставляя языковой модели доступ к «без потерь» характеристикам речи.
2. Какие этапы включает в себя процесс обучения модели MiMo-Audio?
Процесс обучения модели MiMo-Audio включает в себя два этапа:
* Этап «понимания», который оптимизирует потерю текстового токена на основе перемежающихся корпусов речи и текста.
* Совместный этап «понимание + генерация», который включает аудиопотери для продолжения речи, задач S2T/T2S и данных в стиле инструкций.
3. Какие преимущества даёт использование модели MiMo-Audio для команд, создающих голосовых агентов?
Использование модели MiMo-Audio для команд, создающих голосовых агентов, даёт следующие преимущества:
* Возможность редактирования речи с помощью нескольких примеров.
* Надёжное продолжение речи с минимальным количеством настроек для конкретных задач.
* Упрощение архитектуры и поддержка обобщения для нескольких задач за счёт единой цели следующего токена.
4. Какие результаты показала модель MiMo-Audio на бенчмарках?
Модель MiMo-Audio показала высокие результаты на наборах данных для рассуждений о речи (например, SpeechMMLU) и широких тестах на понимание аудио (например, MMAU), демонстрируя лидерство в этих бенчмарках.
5. Какие возможности предоставляет Xiaomi для исследователей и разработчиков в контексте модели MiMo-Audio?
Xiaomi предоставляет исследователям и разработчикам следующие возможности в контексте модели MiMo-Audio:
* Токенизатор.
* Контрольные точки 7B (базовые и инструктивные).
* Инструментарий MiMo-Audio-Eval.
* Общедоступные демонстрации.
Это позволяет тестировать и расширять возможности интеллектуального анализа речи в открытых исходных кодах.