Институт искусственного интеллекта Аллена (AI2) выпустил OLMoASR — набор открытых моделей для автоматического распознавания речи (ASR), которые конкурируют с системами с закрытым исходным кодом, такими как Whisper от OpenAI. AI2 не только опубликовал веса моделей, но и сделал доступными идентификаторы обучающих данных, шаги фильтрации, рецепты обучения и скрипты для тестирования — это необычно прозрачный шаг в области ASR. Это делает OLMoASR одной из самых популярных и расширяемых платформ для исследований в области распознавания речи.
Зачем нужно открытое автоматическое распознавание речи?
Большинство моделей распознавания речи, доступных сегодня — будь то от OpenAI, Google или Microsoft — доступны только через API. Хотя эти сервисы обеспечивают высокую производительность, они работают как «чёрные ящики»: наборы обучающих данных непрозрачны, методы фильтрации не документированы, а протоколы оценки не всегда соответствуют исследовательским стандартам.
Отсутствие прозрачности создаёт проблемы для воспроизводимости и научного прогресса. Исследователи не могут проверить утверждения, протестировать вариации или адаптировать модели к новым областям без самостоятельного создания больших наборов данных. OLMoASR решает эту проблему, открывая весь процесс.
Архитектура модели и масштабирование
OLMoASR использует архитектуру кодер-декодер на основе трансформера, доминирующую парадигму в современном ASR.
* Кодер принимает аудиосигналы и создаёт скрытые представления.
* Декодер генерирует текстовые токены на основе выходных данных кодера.
Эта конструкция похожа на Whisper, но OLMoASR делает реализацию полностью открытой.
Семейство моделей охватывает шесть размеров, все обучены на английском языке:
* tiny.en — 39 млн параметров, предназначен для лёгкого вывода;
* base.en — 74 млн параметров;
* small.en — 244 млн параметров;
* medium.en — 769 млн параметров;
* large.en-v1 — 1,5 млрд параметров, обучен на 440 тыс. часов;
* large.en-v2 — 1,5 млрд параметров, обучен на 680 тыс. часов.
Этот диапазон позволяет разработчикам выбирать между стоимостью вывода и точностью. Меньшие модели подходят для встраиваемых устройств или транскрипции в реальном времени, а более крупные модели максимизируют точность для исследований или пакетных рабочих нагрузок.
Данные: от веб-скрапинга до кураторских миксов
Одним из основных вкладов OLMoASR является открытый выпуск обучающих наборов данных, а не только моделей.
OLMoASR-Pool (~3 млн часов)
Эта огромная коллекция содержит слабо контролируемую речь в паре с расшифровками, собранными из интернета. Она включает около 3 миллионов часов аудио и 17 миллионов текстовых расшифровок. Как и исходный набор данных Whisper, он содержит шум, дубликаты и ошибки транскрипции.
OLMoASR-Mix (~1 млн часов)
Чтобы решить проблемы качества, AI2 применил строгую фильтрацию:
* эвристические алгоритмы выравнивания, чтобы обеспечить соответствие аудио и расшифровок;
* нечеткое дедуплицирование для удаления повторяющихся или малоразнообразных примеров;
* правила очистки для устранения повторяющихся строк и несогласованного текста.
В результате получился высококачественный набор данных объёмом 1 млн часов, который повышает обобщающую способность без обучения — это критически важно для реальных задач, где данные могут отличаться от обучающих распределений.
Эталонная производительность
AI2 сравнил OLMoASR с Whisper на задачах распознавания речи как в коротких, так и в длинных формах, используя такие наборы данных, как LibriSpeech, TED-LIUM3, Switchboard, AMI и VoxPopuli.
Средняя модель (769 млн параметров)
* 12,8% WER (коэффициент ошибок в словах) для коротких форм речи;
* 11,0% WER для длинных форм речи.
Это почти соответствует Whisper-medium.en, который достигает 12,4% и 10,5% соответственно.
Крупные модели (1,5 млрд параметров)
* large.en-v1 (440 тыс. часов): 13,0% WER для коротких форм против Whisper large-v1 на уровне 12,2%;
* large.en-v2 (680 тыс. часов): 12,6% WER, сократив разрыв менее чем до 0,5%.
Меньшие модели
Даже крошечная и базовая версии работают на конкурентоспособном уровне:
* tiny.en: ~20,5% WER для коротких форм, ~15,6% WER для длинных форм;
* base.en: ~16,6% WER для коротких форм, ~12,9% WER для длинных форм.
Это даёт разработчикам гибкость в выборе моделей в зависимости от требований к вычислениям и задержкам.
Как использовать?
Для транскрипции аудио требуется всего несколько строк кода:
“`
import olmoasr
model = olmoasr.load_model(“medium”, inference=True)
result = model.transcribe(“audio.mp3”)
print(result)
“`
Вывод включает как транскрипцию, так и сегменты, выровненные по времени, что делает его полезным для создания субтитров, транскрипции встреч или последующих конвейеров НЛП.
Тонкая настройка и адаптация к домену
Поскольку AI2 предоставляет полный код обучения и рецепты, OLMoASR можно настроить для специализированных доменов:
* Медицинское распознавание речи — адаптация моделей на наборах данных, таких как MIMIC-III, или на собственных записях из больниц.
* Юридическая транскрипция — обучение на аудиозаписях судебных заседаний или юридических процессах.
* Акценты с ограниченными ресурсами — тонкая настройка на диалекты, которые недостаточно охвачены в OLMoASR-Mix.
Эта адаптивность имеет решающее значение: производительность ASR часто снижается, когда модели используются в специализированных доменах с предметно-ориентированным жаргоном. Открытые конвейеры упрощают адаптацию к домену.
Приложения
OLMoASR открывает захватывающие возможности для академических исследований и реальных разработок в области искусственного интеллекта:
* Образовательные исследования. Исследователи могут изучить сложные взаимосвязи между архитектурой модели, качеством набора данных и методами фильтрации, чтобы понять их влияние на производительность распознавания речи.
* Взаимодействие человека и компьютера. Разработчики получают свободу встраивать возможности распознавания речи непосредственно в диалоговые системы искусственного интеллекта, платформы транскрипции встреч в реальном времени и приложения для обеспечения доступности — и всё это без зависимости от проприетарных API или внешних служб.
* Разработка мультимодального искусственного интеллекта. В сочетании с большими языковыми моделями OLMoASR позволяет создавать продвинутых мультимодальных помощников, которые могут беспрепятственно обрабатывать устный ввод и генерировать интеллектуальные, контекстуально осведомлённые ответы.
* Исследовательские бенчмарки. Открытая доступность как обучающих данных, так и показателей оценки позиционирует OLMoASR в качестве стандартизированной точки отсчёта, позволяя исследователям сравнивать новые подходы с последовательной, воспроизводимой базовой линией в будущих исследованиях ASR.
Заключение
Выпуск OLMoASR обеспечивает возможность разработки и выпуска высококачественного распознавания речи с упором на прозрачность и воспроизводимость. Хотя модели в настоящее время ограничены английским языком и по-прежнему требуют значительных вычислений для обучения, они обеспечивают прочную основу для адаптации и расширения. Этот выпуск устанавливает чёткую точку отсчёта для будущей работы в области открытого ASR и упрощает для исследователей и разработчиков изучение, тестирование и применение моделей распознавания речи в различных областях.
1. В чём заключается основное отличие OLMoASR от других моделей распознавания речи, таких как Whisper от OpenAI?
Основное отличие OLMoASR от других моделей распознавания речи заключается в том, что OLMoASR является открытой моделью с доступным исходным кодом, обучающими данными, шагами фильтрации и рецептами обучения. Это обеспечивает прозрачность и возможность адаптации модели к различным условиям и задачам.
2. Какие проблемы решает OLMoASR в области распознавания речи?
OLMoASR решает проблему отсутствия прозрачности в моделях распознавания речи. Большинство моделей доступны только через API и работают как «чёрные ящики», что затрудняет проверку утверждений, тестирование вариаций и адаптацию моделей к новым областям. OLMoASR открывает весь процесс, делая его более прозрачным и доступным для исследователей.
3. Какие размеры моделей предлагает OLMoASR и для каких целей они могут быть использованы?
OLMoASR предлагает шесть размеров моделей: tiny.en (39 млн параметров), base.en (74 млн параметров), small.en (244 млн параметров), medium.en (769 млн параметров), large.en-v1 (1,5 млрд параметров) и large.en-v2 (1,5 млрд параметров). Меньшие модели подходят для встраиваемых устройств или транскрипции в реальном времени, а более крупные модели максимизируют точность для исследований или пакетных рабочих нагрузок.
4. Какие обучающие наборы данных предлагает OLMoASR и как они были подготовлены?
OLMoASR предлагает два обучающих набора данных: OLMoASR-Pool (~3 млн часов) и OLMoASR-Mix (~1 млн часов). OLMoASR-Pool содержит слабо контролируемую речь в паре с расшифровками, собранными из интернета. OLMoASR-Mix был подготовлен путём применения строгой фильтрации к OLMoASR-Pool, включая эвристические алгоритмы выравнивания, нечеткое дедуплицирование и правила очистки.
5. Какие приложения и возможности открывает OLMoASR для академических исследований и реальных разработок в области искусственного интеллекта?
OLMoASR открывает захватывающие возможности для академических исследований и реальных разработок в области искусственного интеллекта. Исследователи могут изучить сложные взаимосвязи между архитектурой модели, качеством набора данных и методами фильтрации. Разработчики получают свободу встраивать возможности распознавания речи в диалоговые системы искусственного интеллекта, платформы транскрипции встреч в реальном времени и приложения для обеспечения доступности. OLMoASR также позволяет создавать продвинутых мультимодальных помощников и использовать его в качестве стандартизированной точки отсчёта для сравнения новых подходов в будущих исследованиях ASR.