NVIDIA выпустила гибридную модель Canary-Qwen-2.5B: передовой гибрид ASR и LLM с лучшими показателями в OpenASR

Компания NVIDIA выпустила модель Canary-Qwen-2.5B — инновационный гибрид автоматической системы распознавания речи (ASR) и языковой модели (LLM). Она заняла первое место в рейтинге Hugging Face OpenASR с рекордным показателем Word Error Rate (WER) в 5,63%.

Ключевые особенности:
* WER — 5,63%, самый низкий показатель в Hugging Face OpenASR.
* RTFx — 418, высокая скорость вывода на 2,5 миллиарда параметров.
* Поддерживает режимы ASR и LLM, что позволяет выполнять транскрибирование с последующим анализом.
* Коммерческая лицензия (CC-BY) — готова к внедрению на предприятиях.
* Открытый исходный код через NeMo — настраиваемый и расширяемый для исследований и производства.

Архитектура модели: объединение ASR и LLM

Основное новшество модели Canary-Qwen-2.5B заключается в её гибридной архитектуре. В отличие от традиционных конвейеров ASR, которые рассматривают транскрибирование и постобработку (резюмирование, ответы на вопросы) как отдельные этапы, эта модель объединяет обе возможности:
* FastConformer encoder — высокоскоростной речевой кодер, специализированный для низко-латентной и высокоточной транскрипции.
* Qwen3-1.7B LLM decoder — немодифицированная предварительно обученная большая языковая модель (LLM), которая получает токены аудио-транскрипции через адаптеры.

Использование адаптеров обеспечивает модульность, позволяя отсоединить кодер Canary и использовать Qwen3-1.7B в качестве автономной LLM для текстовых задач. Это архитектурное решение способствует мультимодальной гибкости — одно развёртывание может обрабатывать как устные, так и письменные входные данные для последующих языковых задач.

Показатели производительности

Canary-Qwen-2.5B достигает рекордного показателя WER в 5,63%, превосходя все предыдущие записи в рейтинге Hugging Face OpenASR. Это особенно примечательно, учитывая относительно скромный размер в 2,5 миллиарда параметров по сравнению с некоторыми более крупными моделями с более низкой производительностью.

| Метрика | Значение |
| — | — |
| WER | 5,63% |
| Количество параметров | 2,5 миллиарда |
| RTFx | 418 |
| Часы обучения | 234 000 |
| Лицензия | CC-BY |

Показатель 418 RTFx (Real-Time Factor) указывает на то, что модель может обрабатывать входной аудиосигнал в 418 раз быстрее, чем в реальном времени. Это критически важно для реальных развёртываний, где задержка является узким местом (например, при транскрипции в масштабе или в системах реального времени с субтитрами).

Набор данных и режим обучения

Модель была обучена на обширном наборе данных, включающем 234 000 часов разнообразной англоязычной речи, что значительно превышает масштаб предыдущих моделей NeMo. Этот набор данных включает широкий спектр акцентов, доменов и стилей речи, что обеспечивает превосходное обобщение на шумном, разговорном и специализированном аудио.

Обучение проводилось с использованием фреймворка NVIDIA NeMo, с открытыми рецептами, доступными для адаптации сообществом. Интеграция адаптеров обеспечивает гибкое экспериментирование — исследователи могут заменять различные кодеры или декодеры LLM без переобучения целых стеков.

Развёртывание и совместимость с оборудованием

Canary-Qwen-2.5B оптимизирована для широкого спектра графических процессоров NVIDIA:
* Центр обработки данных: A100, H100 и более новые графические процессоры класса Hopper/Blackwell.
* Рабочая станция: RTX PRO 6000 (Blackwell), RTX A6000.
* Потребитель: GeForce RTX 5090 и ниже.

Модель разработана для масштабирования по классам оборудования, что делает её пригодной как для облачного вывода, так и для локальных краевых рабочих нагрузок.

Варианты использования и готовность к работе на предприятиях

В отличие от многих исследовательских моделей, ограниченных некоммерческими лицензиями, Canary-Qwen-2.5B выпущена под лицензией CC-BY, что позволяет:
* Транскрипционные услуги для предприятий.
* Извлечение знаний на основе аудио.
* Реальное время для подведения итогов встреч.
* Голосовые команды для ИИ-агентов.
* Документация, соответствующая нормативным требованиям (здравоохранение, юриспруденция, финансы).

Декодирование с учётом LLM также улучшает пунктуацию, капитализацию и контекстуальную точность, которые часто являются слабыми местами в выходных данных ASR. Это особенно ценно для таких секторов, как здравоохранение или юриспруденция, где неправильная интерпретация может иметь дорогостоящие последствия.

Открытый доступ: рецепт для слияния речи и языка

Открыв исходный код модели и её обучающего рецепта, исследовательская группа NVIDIA стремится стимулировать достижения сообщества в области речевого ИИ. Разработчики могут комбинировать другие совместимые с NeMo кодеры и LLM, создавая гибриды для новых доменов или языков.

Выпуск также создаёт прецедент для LLM-ориентированного ASR, где LLM являются не постпроцессорами, а интегрированными агентами в конвейере преобразования речи в текст. Этот подход отражает более широкую тенденцию к созданию агентских моделей — систем, способных к полному пониманию и принятию решений на основе реальных мультимодальных входных данных.

Заключение

NVIDIA Canary-Qwen-2.5B — это больше, чем модель ASR, это — план интеграции понимания речи с языковыми моделями общего назначения. Благодаря лучшим показателям, коммерческой применимости и открытым путям инноваций, этот выпуск станет основополагающим инструментом для предприятий, разработчиков и исследователей, стремящихся открыть следующее поколение приложений ИИ, ориентированных на голос.

1. Какие ключевые особенности модели Canary-Qwen-2.5B делают её привлекательной для коммерческого использования?

Ответ: ключевые особенности модели Canary-Qwen-2.5B включают рекордно низкий показатель Word Error Rate (WER) в 5,63%, высокую скорость вывода (RTFx 418), поддержку режимов ASR и LLM, коммерческую лицензию (CC-BY) и открытый исходный код через NeMo.

2. Какие преимущества предоставляет гибридная архитектура модели Canary-Qwen-2.5B по сравнению с традиционными системами ASR?

Ответ: гибридная архитектура модели Canary-Qwen-2.5B объединяет возможности транскрибирования и последующего анализа, что позволяет выполнять более сложные задачи, такие как извлечение знаний на основе аудио, подведение итогов встреч в реальном времени и другие. Это отличает её от традиционных систем ASR, где транскрибирование и постобработка рассматриваются как отдельные этапы.

3. Какие метрики используются для оценки производительности модели Canary-Qwen-2.5B и какие значения они имеют?

Ответ: для оценки производительности модели используются следующие метрики: WER (5,63%), количество параметров (2,5 миллиарда), RTFx (418), часы обучения (234 000) и лицензия (CC-BY). Эти значения демонстрируют высокую точность и скорость работы модели.

4. Какие варианты использования модели Canary-Qwen-2.5B описаны в статье и для каких отраслей они могут быть особенно полезны?

Ответ: модель Canary-Qwen-2.5B может быть использована для транскрипционных услуг для предприятий, извлечения знаний на основе аудио, подведения итогов встреч в реальном времени, голосовых команд для ИИ-агентов и создания документации, соответствующей нормативным требованиям. Особенно полезными эти варианты использования могут быть для таких отраслей, как здравоохранение, юриспруденция и финансы.

5. Какие тенденции в области речевого ИИ отражает выпуск модели Canary-Qwen-2.5B?

Ответ: выпуск модели Canary-Qwen-2.5B отражает тенденцию к созданию агентских моделей — систем, способных к полному пониманию и принятию решений на основе реальных мультимодальных входных данных. Это означает, что LLM становятся не просто постпроцессорами в конвейере преобразования речи в текст, а интегрированными агентами, способными к более сложным задачам.

Источник

Оставьте комментарий