Cohere выпускает Cohere Transcribe: модель автоматического распознавания речи (ASR) для корпоративного сектора

Компания Cohere, известная своими моделями генерации текста и встраиваемыми моделями, официально вышла на рынок автоматического распознавания речи (ASR) с выпуском своей новейшей модели Cohere Transcribe.

Архитектура: почему Conformer имеет значение

Чтобы понять модель Cohere Transcribe, нужно обратить внимание не только на метку «Transformer». Хотя модель представляет собой архитектуру encoder-decoder, она использует большой кодировщик Conformer в сочетании с лёгким декодером Transformer.

Conformer — это гибридная архитектура, сочетающая сильные стороны свёрточных нейронных сетей (CNN) и Transformers. В ASR локальные особенности (например, конкретные фонемы или быстрые переходы в звуке) часто лучше обрабатываются CNN, в то время как глобальный контекст (смысл предложения) — это область применения Transformers. Переплетая эти слои, модель Cohere предназначена для улавливания как детальных акустических характеристик, так и долгосрочных лингвистических зависимостей.

Модель была обучена с использованием стандартной контролируемой кросс-энтропии — классического, но надёжного метода обучения, который фокусируется на минимизации разницы между предсказанным текстом и транскрипцией, основанной на исходных данных.

Производительность

В то время как некоторые глобальные модели ориентированы на 100+ языков с разной степенью точности, Cohere выбрала подход «качество важнее количества». Модель официально поддерживает 14 языков: английский, немецкий, французский, итальянский, испанский, португальский, греческий, голландский, польский, арабский, вьетнамский, китайский, японский и корейский.

Cohere позиционирует Transcribe как модель ASR с высокой точностью, ориентированную на производство. Она занимает первое место в рейтинге Hugging Face Open ASR Leaderboard (26 марта 2026 года) со средним значением WER 5,42% в наборах тестов, включая AMI, Earnings22, GigaSpeech, LibriSpeech clean/other, SPGISpeech, TED-LIUM и VoxPopuli.

Результаты сравнения с человеком

Команда Cohere также сообщает о более высоких результатах сравнения с человеком на английском языке, где аннотаторы предпочли Transcribe конкурирующим транскриптам в прямых сравнениях:
* 78% против IBM Granite 4.0 1B Speech;
* 67% против NVIDIA Canary Qwen 2.5B;
* 64% против Whisper Large v3;
* 56% против Zoom Scribe v1.

Работа с аудио большой длительности

Обработка аудио большой длительности, такого как 60-минутные отчёты о доходах или судебные заседания, представляет собой уникальную задачу для архитектур, требующих больших объёмов памяти. Cohere решает эту задачу не с помощью скользящего окна внимания, а с помощью надёжной логики разбиения на фрагменты и их сборки.

Модель изначально разработана для обработки аудио в 35-секундных сегментах. Для файлов, превышающих этот лимит, система автоматически:
* разбивает аудио на перекрывающиеся фрагменты;
* обрабатывает каждый сегмент с помощью конвейера Conformer-Transformer;
* собирает перекрывающийся текст для обеспечения непрерывности.

Такой подход позволяет модели обрабатывать файл длительностью 55 минут без исчерпания видеопамяти GPU, при условии, что инженерный конвейер правильно управляет оркестровкой разбиения на фрагменты.

Ключевые выводы

* Точность на уровне лучших решений: модель запущена на первом месте в рейтинге Hugging Face Open ASR Leaderboard (26 марта 2026 года) со средним значением Word Error Rate (WER) 5,42%. Она превосходит такие модели, как Whisper Large v3 (7,44%) и IBM Granite 4.0 (5,52%), в тестах, включая LibriSpeech, Earnings22 и TED-LIUM.
* Гибридная архитектура Conformer: в отличие от стандартных моделей с чистым Transformer, Transcribe использует большой кодировщик Conformer в сочетании с лёгким декодером Transformer. Такая гибридная конструкция позволяет модели эффективно улавливать как локальные акустические особенности (через свёртку), так и глобальный лингвистический контекст (через самовнимание).
* Автоматизированная обработка аудио большой длительности: для поддержания эффективности использования памяти и стабильности модель использует встроенную логику разбиения на фрагменты длительностью 35 секунд. Она автоматически сегментирует аудио длиннее 35 секунд на перекрывающиеся фрагменты и собирает их, позволяя обрабатывать расширенные записи — например, 55-минутные отчёты о доходах — без снижения производительности.
* Определённые технические ограничения: модель является чистым инструментом ASR и не имеет встроенной функции распознавания говорящего или временных меток. Она поддерживает 14 конкретных языков и работает лучше всего, когда целевой язык задан заранее, поскольку не включает явного автоматического определения языка или оптимизированной поддержки переключения кодов.

Технические подробности и вес модели можно найти на HF. Подписывайтесь на нас в Twitter, присоединяйтесь к нашему сообществу в SubReddit и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там!

1. Какие особенности архитектуры Cohere Transcribe позволяют модели эффективно улавливать как локальные акустические особенности, так и глобальный лингвистический контекст?

Ответ: Модель Cohere Transcribe использует гибридную архитектуру Conformer, которая сочетает сильные стороны свёрточных нейронных сетей (CNN) и Transformers. CNN лучше обрабатывают локальные особенности, такие как конкретные фонемы или быстрые переходы в звуке, в то время как Transformers хорошо справляются с глобальным контекстом, например, со смыслом предложения.

2. Какие результаты сравнения с человеком демонстрирует модель Cohere Transcribe на английском языке?

Ответ: Команда Cohere сообщает о более высоких результатах сравнения с человеком на английском языке, где аннотаторы предпочли Transcribe конкурирующим транскриптам в прямых сравнениях. Например, модель получила 78% против IBM Granite 4.0 1B Speech, 67% против NVIDIA Canary Qwen 2.5B, 64% против Whisper Large v3 и 56% против Zoom Scribe v1.

3. Какие технические ограничения есть у модели Cohere Transcribe?

Ответ: Модель Cohere Transcribe является чистым инструментом ASR и не имеет встроенной функции распознавания говорящего или временных меток. Она поддерживает 14 конкретных языков и работает лучше всего, когда целевой язык задан заранее, поскольку не включает явного автоматического определения языка или оптимизированной поддержки переключения кодов.

4. Какие методы обучения использовались для модели Cohere Transcribe и как они влияют на её производительность?

Ответ: Модель Cohere Transcribe была обучена с использованием стандартной контролируемой кросс-энтропии — классического, но надёжного метода обучения, который фокусируется на минимизации разницы между предсказанным текстом и транскрипцией, основанной на исходных данных. Этот метод обучения способствует повышению точности модели.

5. Какие задачи решает модель Cohere Transcribe при обработке аудио большой длительности и как она это делает?

Ответ: Модель Cohere Transcribe решает задачу обработки аудио большой длительности, такого как 60-минутные отчёты о доходах или судебные заседания, с помощью надёжной логики разбиения на фрагменты и их сборки. Модель изначально разработана для обработки аудио в 35-секундных сегментах. Для файлов, превышающих этот лимит, система автоматически разбивает аудио на перекрывающиеся фрагменты, обрабатывает каждый сегмент с помощью конвейера Conformer-Transformer и собирает перекрывающийся текст для обеспечения непрерывности.

Источник