Mistral AI запускает Voxtral Transcribe 2: объединение пакетной диаризации и открытого распознавания речи в реальном времени для многоязычных производственных задач в масштабе

Автоматическое распознавание речи (ASR) становится ключевым элементом продуктов на базе искусственного интеллекта, от инструментов для проведения встреч до голосовых агентов. Новая линейка Voxtral Transcribe 2 от Mistral ориентирована на эту область и включает две модели, чётко разделённые на использование в пакетном режиме и в реальном времени, с учётом затрат, задержек и ограничений при развёртывании.

В выпуске представлены:
* Voxtral Mini Transcribe V2 для пакетной транскрипции с диаризацией.
* Voxtral Realtime (Voxtral Mini 4B Realtime 2602) для потоковой транскрипции с низкой задержкой, выпущенная как модель с открытым весом.

Обе модели разработаны для 13 языков: английского, китайского, хинди, испанского, арабского, французского, португальского, русского, немецкого, японского, корейского, итальянского и голландского.

Семейство моделей: пакетная обработка и потоковая передача с чёткими ролями

Mistral позиционирует Voxtral Transcribe 2 как «две модели для преобразования речи в текст следующего поколения» с современным качеством транскрипции, диаризацией и сверхнизкой задержкой.

Voxtral Mini Transcribe V2 — это пакетная модель, оптимизированная для качества транскрипции и диаризации в разных доменах и языках. Она представлена как эффективная модель аудиоввода в API Mistral.

Voxtral Realtime — это потоковая модель. Она построена с использованием специальной потоковой архитектуры и выпущена как модель с открытым весом под лицензией Apache 2.0 на Hugging Face с рекомендуемым временем выполнения vLLM. Ключевая деталь: диаризация говорящего обеспечивается Voxtral Mini Transcribe V2, а не Voxtral Realtime. Realtime фокусируется строго на быстрой и точной потоковой транскрипции.

Voxtral Realtime: потоковое ASR с настраиваемой задержкой

Voxtral Mini 4B Realtime 2602 — это 4-параметровая многоязычная модель потоковой транскрипции речи. Она является одной из первых моделей с открытым весом, достигших точности, сравнимой с офлайн-системами, с задержкой менее 500 мс.

Архитектура:
* ≈3,4 миллиарда параметров языковой модели.
* ≈0,6 миллиарда параметров аудиокодера.

Аудиокодер обучен с нуля с использованием причинно-следственного внимания. И кодер, и LM используют скользящее внимание, что позволяет эффективно осуществлять потоковую передачу.

Задержка против точности настраивается явно:
* Задержка транскрипции регулируется с помощью параметра transcriptiondelayms от 80 мс до 2,4 с.
* Mistral описывает задержку как «настраиваемую до менее чем 200 мс» для живых приложений.
* При задержке в 480 мс Realtime соответствует ведущим офлайн-системам с открытым исходным кодом и API в реальном времени в таких тестах, как FLEURS и длинные формы на английском языке.
* При задержке в 2,4 с Realtime соответствует Voxtral Mini Transcribe V2 в FLEURS, что подходит для задач субтитрирования, где допустимо немного более высокая задержка.

Voxtral Mini Transcribe V2: пакетное ASR с диаризацией и контекстным смещением

Voxtral Mini Transcribe V2 — это модель аудиоввода с закрытыми весами, оптимизированная только для транскрипции. Она представлена в API Mistral как voxtral-mini-2602 по цене 0,003 доллара в минуту.

На тестах и в ценообразовании:
* Около 4% ошибок на слово (WER) на транскрипционном бенчмарке FLEURS, усреднённом по 10 основным языкам.
* «Лучшая цена и производительность среди всех API транскрипции» — 0,003 доллара в минуту.
* Превосходит GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova по точности в их сравнениях.
* Обрабатывает аудио примерно в 3 раза быстрее, чем ElevenLabs’ Scribe v2, при этом соответствует качеству при одной пятой стоимости.

Особенности, ориентированные на предприятия, сосредоточены в этой модели:

* Диаризация говорящего: выводит метки говорящего с точным указанием времени начала и окончания.
* Контекстное смещение: принимает до 100 слов или фраз для смещения транскрипции в сторону конкретных имён или терминов домена.
* Временные метки на уровне слов: временные метки начала и окончания каждого слова для субтитров, выравнивания и поисковых аудиопотоков.
* Устойчивость к шуму: поддерживает точность в шумных условиях, таких как заводские цеха, колл-центры и полевые записи.
* Поддержка более длинных аудиофайлов: обрабатывает до 3 часов аудио в одном запросе.

Варианты интеграции, инструменты и варианты развёртывания

Пути интеграции просты и немного различаются между двумя моделями:
* Voxtral Mini Transcribe V2 предоставляется через аудиотранскрипционный API Mistral (/v1/audio/transcriptions) как эффективный сервис только для транскрипции.
* Voxtral Realtime доступен через API Mistral за 0,006 доллара в минуту. Выпущен как модель с открытым весом на Hugging Face (mistralai/Voxtral-Mini-4B-Realtime-2602) под лицензией Apache 2.0 с официальной поддержкой vLLM Realtime.

Аудиоплощадка в Mistral Studio позволяет пользователям:
* загружать до 10 аудиофайлов (.mp3, .wav, .m4a, .flac, .ogg) объёмом до 1 ГБ каждый;
* включать диаризацию, выбирать гранулярность временных меток и настраивать термины контекстного смещения.

Основные выводы:
* Семейство из двух моделей с чёткими ролями: Voxtral Mini Transcribe V2 нацелена на пакетную транскрипцию и диаризацию, а Voxtral Realtime — на потоковое ASR с низкой задержкой, обе модели поддерживают 13 языков.
* Модель в реальном времени — 4 миллиарда параметров с настраиваемой задержкой: Voxtral Realtime использует архитектуру с 4 миллиардами параметров (≈3,4 миллиарда LM + ≈0,6 миллиарда кодера) со скользящим окном и причинно-следственным вниманием и поддерживает настраиваемую задержку транскрипции от 80 мс до 2,4 с.
* Пакетная модель добавляет диаризацию и корпоративные функции: Voxtral Mini Transcribe V2 обеспечивает диаризацию, контекстное смещение до 100 фраз, временные метки на уровне слов, устойчивость к шуму и поддерживает до 3 часов аудио на запрос по цене 0,003 доллара в минуту.
* Развёртывание — закрытый пакетный API, открытые веса в реальном времени: Mini Transcribe V2 предоставляется через аудиотранскрипционный API и игровую площадку Mistral, а Voxtral Realtime предлагается по цене 0,006 доллара в минуту и также доступен в виде открытых весов Apache 2.0 с официальной поддержкой vLLM Realtime.

1. Какие ключевые особенности отличают Voxtral Mini Transcribe V2 от Voxtral Realtime?

Voxtral Mini Transcribe V2 — это пакетная модель, оптимизированная для качества транскрипции и диаризации в разных доменах и языках. Она представлена как эффективная модель аудиоввода в API Mistral. Voxtral Realtime — это потоковая модель. Она построена с использованием специальной потоковой архитектуры и выпущена как модель с открытым весом под лицензией Apache 2.0 на Hugging Face с рекомендуемым временем выполнения vLLM. Ключевая деталь: диаризация говорящего обеспечивается Voxtral Mini Transcribe V2, а не Voxtral Realtime. Realtime фокусируется строго на быстрой и точной потоковой транскрипции.

2. Какие языки поддерживает новая линейка Voxtral Transcribe 2?

Новая линейка Voxtral Transcribe 2 от Mistral ориентирована на 13 языков: английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский и голландский.

3. Какие параметры можно настроить в модели Voxtral Realtime?

В модели Voxtral Realtime можно настроить задержку транскрипции с помощью параметра transcriptiondelayms от 80 мс до 2,4 с.

4. В чём преимущество использования Voxtral Mini Transcribe V2 по сравнению с другими API транскрипции?

Около 4% ошибок на слово (WER) на транскрипционном бенчмарке FLEURS, усреднённом по 10 основным языкам. «Лучшая цена и производительность среди всех API транскрипции» — 0,003 доллара в минуту. Превосходит GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova по точности в их сравнениях. Обрабатывает аудио примерно в 3 раза быстрее, чем ElevenLabs’ Scribe v2, при этом соответствует качеству при одной пятой стоимости.

5. Какие функции Voxtral Mini Transcribe V2 ориентированы на использование в корпоративных условиях?

Функции Voxtral Mini Transcribe V2, ориентированные на предприятия, включают:
* диаризацию говорящего;
* контекстное смещение;
* временные метки на уровне слов;
* устойчивость к шуму;
* поддержку более длинных аудиофайлов.

Источник