IBM выпустила компактную многоязычную модель речи Granite 4.0 1B для периферийных ИИ-систем и конвейеров перевода

Компания IBM выпустила модель речи Granite 4.0 1B — компактную модель для многоязычного автоматического распознавания речи (ASR) и двунаправленного автоматического перевода речи (AST). Модель предназначена для использования на предприятиях и в периферийных системах, где важны такие параметры, как объём памяти, задержка и эффективность вычислений.

Что изменилось в Granite 4.0 1B Speech

Основная цель релиза — уменьшить размер модели, сохранив при этом основные возможности, ожидаемые от современной многоязычной системы распознавания речи.

Granite 4.0 1B Speech имеет вдвое меньше параметров, чем granite-speech-3.3-2b, при этом добавлены японское ASR, смещение по списку ключевых слов и улучшена точность транскрипции английского языка. Модель обеспечивает более быстрый вывод благодаря улучшению обучения кодировщика и спекулятивному декодированию.

Подход к обучению и согласование модальностей

Granite-4.0-1b-speech — это компактная и эффективная модель речи, обученная для многоязычного ASR и двунаправленного AST. В процессе обучения использовались открытые корпуса ASR и AST, а также синтетические данные для поддержки японского ASR, ASR с учётом списка ключевых слов и перевода речи.

Это важно для разработчиков, поскольку показывает, что команда IBM не создавала отдельный закрытый речевой стек с нуля, а адаптировала базовую языковую модель Granite 4.0 для работы с речью с помощью выравнивания и мультимодального обучения.

Охват языков и предполагаемое использование

Поддерживаемые языки: английский, французский, немецкий, испанский, португальский и японский.

IBM позиционирует модель для преобразования речи в текст и перевода речи на английский и с английского для указанных языков. Также предусмотрена поддержка сценариев перевода с английского на итальянский и английский на мандаринский.

Модель выпущена под лицензией Apache 2.0, что упрощает работу команд, рассматривающих варианты открытого развёртывания, по сравнению с речевыми системами, которые имеют коммерческие ограничения или доступ только через API.

Двухпроходная структура и структура конвейера

Команда IBM по работе с речью Granite описывает семейство Granite Speech как использующее двухпроходную структуру. В такой настройке первоначальный вызов транскрибирует аудио в текст, а любой последующий языковой анализ требует второго явного вызова языковой модели Granite.

Это отличается от интегрированных архитектур, которые объединяют генерацию речи и языка в один проход. Для разработчиков это важно, поскольку влияет на оркестрацию. Конвейер транскрипции, построенный на основе Granite Speech, модулен по своей конструкции: сначала идёт распознавание речи, а пост-обработка на уровне языка — отдельный шаг.

Результаты тестирования и позиционирование эффективности

Недавно модель Granite 4.0 1B Speech заняла первое место в рейтинге OpenASR. В рейтинге указано среднее значение WER (Word Error Rate) равное 5,52 и RTFx (Runtime per Translation Factor) равное 280,02, а также значения WER для конкретных наборов данных, такие как 1,42 на LibriSpeech Clean, 2,85 на LibriSpeech Other, 3,89 на SPGISpeech, 3,1 на Tedlium и 5,84 на VoxPopuli.

Детали развёртывания

Для развёртывания Granite 4.0 1B Speech изначально поддерживается в transformers>=4.52.1 и может быть запущена через vLLM, предоставляя командам как стандартный вывод на Python, так и варианты обслуживания через API.

Ключевые выводы

* Granite 4.0 1B Speech — это компактная модель речи для многоязычного ASR и двунаправленного AST.
* Модель имеет вдвое меньше параметров, чем granite-speech-3.3-2b, при этом улучшая эффективность развёртывания.
* В релизе добавлены японское ASR и смещение по списку ключевых слов для более целенаправленных рабочих процессов транскрипции.
* Поддерживается развёртывание через Transformers, vLLM и mlx-audio, включая среды Apple Silicon.
* Модель позиционируется для устройств с ограниченными ресурсами, где важны задержка, память и стоимость вычислений.

1. Какие основные улучшения были внесены в модель Granite 4.0 1B Speech по сравнению с предыдущей версией?

В Granite 4.0 1B Speech уменьшено количество параметров по сравнению с granite-speech-3.3-2b. Добавлены японское ASR, смещение по списку ключевых слов и улучшена точность транскрипции английского языка. Модель обеспечивает более быстрый вывод благодаря улучшению обучения кодировщика и спекулятивному декодированию.

2. Какие языки поддерживает модель Granite 4.0 1B Speech и для каких задач она предназначена?

Модель Granite 4.0 1B Speech поддерживает английский, французский, немецкий, испанский, португальский и японский языки. Она предназначена для преобразования речи в текст и перевода речи на английский и с английского для указанных языков. Также предусмотрена поддержка сценариев перевода с английского на итальянский и английский на мандаринский.

3. Какие преимущества даёт использование модели Granite 4.0 1B Speech для разработчиков?

Использование модели Granite 4.0 1B Speech даёт разработчикам возможность работать с компактной и эффективной моделью речи, обученной для многоязычного ASR и двунаправленного AST. Модель выпущена под лицензией Apache 2.0, что упрощает работу команд, рассматривающих варианты открытого развёртывания. Кроме того, модель поддерживает развёртывание через Transformers, vLLM и mlx-audio, включая среды Apple Silicon.

4. Какие результаты тестирования были получены для модели Granite 4.0 1B Speech?

Модель Granite 4.0 1B Speech заняла первое место в рейтинге OpenASR. В рейтинге указано среднее значение WER (Word Error Rate) равное 5,52 и RTFx (Runtime per Translation Factor) равное 280,02. Также указаны значения WER для конкретных наборов данных, такие как 1,42 на LibriSpeech Clean, 2,85 на LibriSpeech Other, 3,89 на SPGISpeech, 3,1 на Tedlium и 5,84 на VoxPopuli.

5. Какие инструменты и библиотеки можно использовать для развёртывания модели Granite 4.0 1B Speech?

Источник