NVIDIA выпустила крупнейший датасет для искусственного интеллекта в области распознавания речи и передовые модели для европейских языков

Компания NVIDIA сделала значительный шаг вперёд в разработке мультилингвального искусственного интеллекта для распознавания речи. Она представила Granary — крупнейший датасет с открытым исходным кодом для европейских языков, а также две передовые модели: Canary-1b-v2 и Parakeet-tdt-0.6b-v3. Этот релиз устанавливает новый стандарт для доступных и высококачественных ресурсов в области автоматического распознавания речи (ASR) и речевого перевода (AST), особенно для недостаточно представленных европейских языков.

Granary: основа мультилингвального искусственного интеллекта для распознавания речи

Granary — это огромный мультилингвальный корпус, разработанный в сотрудничестве с Университетом Карнеги-Меллона и Фондом Бруно Кесслера. Он содержит около миллиона часов аудиозаписей, из которых 650 000 часов предназначены для распознавания речи, а 350 000 — для речевого перевода.

Датасет охватывает 25 европейских языков, включая почти все официальные языки ЕС, а также русский и украинский. Особое внимание уделено языкам с ограниченными объёмами аннотированных данных, таким как хорватский, эстонский и мальтийский.

Ключевые особенности:
* крупнейший датасет с открытым исходным кодом для 25 европейских языков;
* конвейер псевдомаркировки: необработанные публичные аудиоданные обрабатываются с помощью процессора данных Nvidia NeMo Speech Data Processor, который структурирует данные и повышает их качество, снижая потребность в ресурсоёмкой ручной аннотации;
* поддержка ASR и AST: разработан для задач транскрипции и перевода;
* открытый доступ: доступен для глобального сообщества разработчиков для гибкого обучения моделей в производственных масштабах.

Благодаря чистым и высококачественным данным Granary обеспечивает значительно более быструю сходимость моделей. Исследования показывают, что разработчикам требуется вдвое меньше данных Granary для достижения целевых показателей точности по сравнению с конкурирующими наборами данных, что делает его особенно ценным для языков с ограниченными ресурсами и быстрого прототипирования.

Canary-1b-v2: мультилингвальное ASR + перевод (английский и 24 языка)

Canary-1b-v2 — это модель Encoder-Decoder с миллиардом параметров, обученная на Granary. Она обеспечивает высококачественную транскрипцию и перевод между английским и 24 поддерживаемыми европейскими языками.

Поддерживаемые языки: 25 европейских языков, что вдвое увеличивает охват Canary с 4.

Ключевые характеристики:
* производительность на уровне передовых моделей: точность сравнима с моделями, в три раза большими по размеру, но с более чем в 10 раз более быстрым выводом;
* многозадачность: устойчива как в задачах ASR, так и в задачах AST;
* функции: автоматическая пунктуация, капитализация, временные метки на уровне слов и сегментов — даже временные метки переведённых выходных данных.

Архитектура:
* FastConformer Encoder с Transformer Decoder;
* унифицированный словарь для всех языков с помощью токенизатора SentencePiece.

Устойчивость:
* сохраняет высокую производительность в условиях зашумлённых данных и предотвращает галлюцинации на выходе.

Оценка:
* ASR Word Error Rate (WER): 7,15 % (набор данных AMI), 10,82 % (LibriSpeech Clean).
* AST COMET Scores: 79,3 (X→English), 84,56 (English→X).

Внедрение:
* доступно по лицензии CC BY 4.0;
* оптимизировано для систем с ускорением на GPU от Nvidia, что обеспечивает быстрое обучение и вывод для масштабируемого использования в производстве.

Parakeet-tdt-0.6b-v3: мультилингвальное ASR в реальном времени

Parakeet-tdt-0.6b-v3 — это модель мультилингвального ASR с 600 миллионами параметров, разработанная для высокоскоростной или крупномасштабной транскрипции на всех 25 поддерживаемых языках. Она расширяет семейство Parakeet (ранее ориентированное на английский язык) до полного европейского охвата.

Автоматическое определение языка:
* транскрибирует входные аудиоданные без необходимости дополнительных подсказок.

Возможность работы в реальном времени:
* эффективно транскрибирует аудиосегменты длительностью до 24 минут за один проход вывода.

Быстрое, масштабируемое и готовое к коммерческому использованию решение:
* приоритет отдан низкой задержке, пакетной обработке и точным результатам с временными метками на уровне слов, пунктуацией и капитализацией.

Устойчивость:
* надёжна даже при работе со сложным контентом (числа, тексты песен) и в сложных аудиоусловиях.

Влияние на развитие искусственного интеллекта в области распознавания речи

Набор данных и модельный комплекс от Nvidia Granary ускоряют демократизацию искусственного интеллекта в области распознавания речи в Европе, обеспечивая масштабируемое развитие:
* мультилингвальных чат-ботов;
* голосовых агентов для обслуживания клиентов;
* служб перевода почти в режиме реального времени.

Разработчики, исследователи и представители бизнеса теперь могут создавать инклюзивные высококачественные приложения, поддерживающие языковое разнообразие, с открытым доступом к этим замечательным моделям и наборам данных.

Ознакомьтесь с Granary, NVIDIA Canary-1b-v2 и NVIDIA Parakeet-tdt-0.6b-v3. Загляните на нашу страницу GitHub, чтобы найти учебные пособия, коды и блокноты. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit ML (более 100 тысяч участников) и подписывайтесь на нашу рассылку.

1. Какие ключевые особенности датасета Granary делают его ценным для разработчиков искусственного интеллекта?

Ответ: Granary — это крупнейший датасет с открытым исходным кодом для 25 европейских языков. Он содержит около миллиона часов аудиозаписей, из которых 650 000 часов предназначены для распознавания речи, а 350 000 — для речевого перевода. Датасет охватывает почти все официальные языки ЕС, а также русский и украинский. Ключевой особенностью является использование конвейера псевдомаркировки, который структурирует данные и повышает их качество, снижая потребность в ручной аннотации.

2. Какие преимущества предлагает модель Canary-1b-v2 по сравнению с другими моделями для распознавания речи и перевода?

Ответ: Canary-1b-v2 — это модель Encoder-Decoder с миллиардом параметров, обученная на Granary. Она обеспечивает высококачественную транскрипцию и перевод между английским и 24 поддерживаемыми европейскими языками. Модель отличается высокой производительностью на уровне передовых моделей, многозадачностью, функциями автоматической пунктуации, капитализации и временных меток.

3. Какие возможности предоставляет модель Parakeet-tdt-0.6b-v3 для мультилингвального ASR в реальном времени?

Ответ: Parakeet-tdt-0.6b-v3 — это модель мультилингвального ASR с 600 миллионами параметров, разработанная для высокоскоростной или крупномасштабной транскрипции на всех 25 поддерживаемых языках. Она эффективно транскрибирует аудиосегменты длительностью до 24 минут за один проход вывода, обеспечивая низкую задержку, пакетную обработку и точные результаты с временными метками на уровне слов, пунктуацией и капитализацией.

4. Какие потенциальные применения имеют модели и датасет от NVIDIA в области искусственного интеллекта для распознавания речи?

Ответ: Модели и датасет от NVIDIA ускоряют демократизацию искусственного интеллекта в области распознавания речи в Европе. Они способствуют масштабируемому развитию мультилингвальных чат-ботов, голосовых агентов для обслуживания клиентов и служб перевода почти в режиме реального времени. Разработчики, исследователи и представители бизнеса могут создавать инклюзивные высококачественные приложения, поддерживающие языковое разнообразие.

5. Какие параметры используются для оценки производительности моделей Canary-1b-v2 и Parakeet-tdt-0.6b-v3?

Ответ: Для оценки производительности Canary-1b-v2 используются параметры ASR Word Error Rate (WER) и AST COMET Scores. Для Parakeet-tdt-0.6b-v3 параметры оценки в тексте не указаны.

Источник