Mistral AI выпускает Voxtral: лучшие в мире (и открытые) модели распознавания речи

Компания Mistral AI выпустила Voxtral — семейство моделей с открытым весом: Voxtral-Small-24B и Voxtral-Mini-3B. Они предназначены для работы как со звуковыми, так и с текстовыми данными. Эти модели построены на основе языкового фреймворка Mistral и объединяют автоматическое распознавание речи (ASR) с возможностями понимания естественного языка.

Модели Voxtral доступны под лицензией Apache 2.0. Они предлагают практические решения для транскрипции, обобщения, ответов на вопросы и вызова функций на основе голосовых команд.

Архитектура модели и управление контекстом

Модели Voxtral основаны на Mistral Small 3.1 и включают аудиоинтерфейс, позволяющий обрабатывать как устную, так и текстовую информацию. Обе модели поддерживают окно контекста в 32 000 токенов, что позволяет:
* транскрибировать аудио длительностью примерно до 30 минут;
* выполнять расширенный анализ или обобщение аудио длительностью до 40 минут.

Такая поддержка длинного контекста помогает избежать необходимости сегментировать или усекать входное аудио для большинства типичных случаев использования, особенно при анализе встреч или в рабочих процессах мультимедийной документации.

Ключевые функциональные возможности

Транскрипция

Voxtral обеспечивает надёжное ASR в различных акустических условиях. Mistral предлагает специальные конечные точки API, оптимизированные для задач транскрипции с низкой задержкой, что полезно в условиях реального времени и потоковой передачи.

Многоязычная обработка

Voxtral включает автоматическое определение языка. Он хорошо работает с набором основных языков, включая английский, испанский, французский, португальский, хинди, немецкий, голландский и итальянский. Один экземпляр модели может обрабатывать сценарии со смешанным языком без дополнительной настройки.

Понимание аудио за пределами транскрипции

Модели могут отвечать на запросы об аудиоконтенте (например, «Какое было принято решение?») и генерировать краткие резюме. Эти задачи могут быть выполнены без объединения модели ASR с отдельной LLM, что снижает задержку и сложность системы.

Выполнение функций на основе голоса

Voxtral позволяет анализировать намерения пользователя непосредственно из голоса и соответствующим образом запускать внутренние действия или рабочие процессы. Эта возможность актуальна для голосовых помощников, промышленных систем и автоматизации обслуживания клиентов.

Поддержка текстового режима

Помимо аудио, Voxtral сохраняет высокую производительность при работе с текстовыми задачами благодаря общей основе с языковыми моделями Mistral. Эта двойная модальность обеспечивает более плавный пользовательский опыт в приложениях с несколькими интерфейсами.

Сравнение: варианты моделей Voxtral

Модель Voxtral-Mini-3B настроена для лёгкого развёртывания и локального вывода, в то время как версия 24B подходит для использования на производственном уровне с более высокими вычислительными ресурсами.

Варианты развёртывания и интерфейсы API

Mistral предоставляет оптимизированные конечные точки только для транскрипции для разработчиков, работающих над приложениями, чувствительными к задержкам. Они позволяют легко интегрировать системы, такие как:
* инструменты транскрипции встреч и звонков;
* системы реального времени;
* платформы для аудиозаписей;
* панели управления на основе голоса.

Благодаря своему открытому весу и разрешительной лицензии модели Voxtral могут быть развёрнуты в защищённых локальных средах или в облачной инфраструктуре, что обеспечивает гибкость для реализаций корпоративного уровня.

Практическое использование в системах, ориентированных на голос

Поскольку голосовые интерфейсы продолжают расширяться в мобильных приложениях, носимых устройствах, автомобильных интерфейсах и системах поддержки, такие инструменты, как Voxtral, могут обеспечить более точную и контекстно-зависимую обработку голоса. Разработчикам больше не нужны многоступенчатые системы — они могут реализовать конвейеры аудиопонимания с меньшим количеством компонентов.

Заключение: модульный подход к интеграции аудио и языка

Voxtral представляет подход к аудио-языковому моделированию, который сочетает точность транскрипции с языковым мышлением и синтаксическим анализом команд. Его многоязычность, поддержка длинного контекста и гибкая лицензия делают его подходящим для различных приложений — от инструментов обобщения до интерактивных голосовых агентов.

1. Какие ключевые функциональные возможности предоставляют модели Voxtral?

Модели Voxtral обеспечивают транскрипцию аудио в различных акустических условиях, многоязычную обработку, понимание аудио за пределами транскрипции, выполнение функций на основе голоса и поддержку текстового режима.

2. Какие модели входят в семейство Voxtral и какие у них основные параметры?

В семейство Voxtral входят модели Voxtral-Mini-3B и Voxtral-Small-24B. Voxtral-Mini-3B имеет 3 миллиарда параметров и предназначена для лёгкого развёртывания и локального вывода, в то время как Voxtral-Small-24B имеет 24 миллиарда параметров и подходит для использования на производственном уровне с более высокими вычислительными ресурсами.

3. Какие преимущества предоставляет использование моделей Voxtral в системах, ориентированных на голос?

Использование моделей Voxtral в системах, ориентированных на голос, обеспечивает более точную и контекстно-зависимую обработку голоса. Это позволяет разработчикам реализовать конвейеры аудиопонимания с меньшим количеством компонентов, что упрощает интеграцию голосовых интерфейсов в мобильные приложения, носимые устройства, автомобильные интерфейсы и системы поддержки.

4. Какие возможности предоставляет Voxtral для разработчиков?

Voxtral предоставляет разработчикам оптимизированные конечные точки только для транскрипции, что позволяет легко интегрировать системы, такие как инструменты транскрипции встреч и звонков, системы реального времени, платформы для аудиозаписей и панели управления на основе голоса.

5. Какие типы сред подходят для развёртывания моделей Voxtral?

Модели Voxtral могут быть развёрнуты в защищённых локальных средах или в облачной инфраструктуре, что обеспечивает гибкость для реализаций корпоративного уровня.

Источник