По мере того как системы искусственного интеллекта становятся более совершенными, голосовое взаимодействие стремительно превращается в основной способ коммуникации с машинами. Французский стартап Mistral врывается в аудиогонку, представив свою первую открытую модель, которая бросает вызов доминированию закрытых корпоративных систем, предлагая альтернативу с открытыми весами.
Во вторник компания анонсировала выпуск Voxtral — первого семейства аудиомоделей, ориентированного на бизнес. Разработчики позиционируют его как первую открытую модель, способную обеспечить «реально применимый речевой интеллект в производственных условиях».
Иными словами, больше не придется выбирать между дешевой открытой системой, которая делает ошибки в расшифровке и плохо понимает контекст, и закрытым решением, которое работает лучше, но обходится дороже и ограничивает контроль над внедрением. Для бизнесов это означает доступную альтернативу: по заявлениям Mistral, стоимость Voxtral «более чем вдвое ниже» аналогов.
Благодаря использованию языковой модели Mistral Small 3.1, Voxtral способен обрабатывать аудио длительностью до 30 минут и контекстно понимать до 40 минут записи. Это позволяет пользователям задавать вопросы о содержании, генерировать summaries или преобразовывать голосовые команды в действия — например, вызов API или выполнение функций. Модель поддерживает множество языков, включая английский, испанский, французский, португальский, хинди, немецкий, голландский и итальянский.
Компания представила две версии «моделей речевого понимания». Voxtral Small включает 24 млрд параметров для промышленного масштабирования и конкурирует с ElevenLabs Scribe, GPT-4o-mini и Gemini 2.5 Flash. Voxtral Mini, с 3 млрд параметров, предназначена для локальных и периферийных (edge) решений. Также доступна ультрадоступная версия Voxtral Mini Transcribe для задач исключительно транскрипции, которая, по заверениям разработчиков, превосходит OpenAI Whisper по цене ниже половины его стоимости.
Пользователи могут бесплатно протестировать Voxtral через API на Hugging Face или в чат-боте Mistral Le Chat. Интеграция API в приложения стартует от $0,001 за минуту обработки.
Запуск Voxtral состоялся через месяц после анонса Magistral — первого семейства моделей Mistral для пошагового решения задач с повышенной надежностью.
Mistral, одна из ведущих европейских ИИ-компаний, известна активной пропагандой открытых моделей. Ранее TechCrunch сообщал, что стартап ведет переговоры о привлечении до $1 млрд в рамках раунда финансирования при участии инвестиционного фонда MGX из Абу-Даби.