Microsoft выпустила VibeVoice-ASR: унифицированную модель преобразования речи в текст для работы с аудиозаписями длительностью до 60 минут

Компания Microsoft выпустила модель VibeVoice-ASR в рамках семейства моделей голосового искусственного интеллекта с открытым исходным кодом VibeVoice. VibeVoice-ASR представляет собой унифицированную модель преобразования речи в текст, которая может обрабатывать аудиозаписи длительностью до 60 минут за один проход и выдавать структурированные транскрипции, кодирующие информацию о том, кто, когда и что сказал, с поддержкой настраиваемых ключевых слов.

Основные особенности модели:

Единая модель преобразования речи в текст. В отличие от традиционных систем автоматического распознавания речи (ASR), которые сначала разрезают аудио на короткие сегменты, а затем выполняют диаризацию и выравнивание как отдельные компоненты, VibeVoice-ASR предназначена для приёма до 60 минут непрерывного аудиовхода в пределах бюджета длины токена 64K. Модель сохраняет единое глобальное представление всей сессии. Это означает, что модель может сохранять идентичность говорящего и контекст темы на протяжении всего часа, а не сбрасывать настройки каждые несколько секунд.

Настраиваемые ключевые слова для повышения точности в определённой области. Пользователи могут предоставить ключевые слова, такие как названия продуктов, названия организаций, технические термины или фоновый контекст. Модель использует эти ключевые слова для управления процессом распознавания. Это позволяет настроить декодирование на правильное написание и произношение для токенов, специфичных для предметной области, без переобучения модели.

Богатая транскрипция, диаризация и разметка времени. Модель совместно выполняет ASR, диаризацию и временную метку, возвращая структурированный вывод, который указывает, кто что сказал и когда.

Ключевые выводы

VibeVoice-ASR — это унифицированная модель преобразования речи в текст, которая обрабатывает аудиозаписи длительностью до 60 минут за один проход в контексте 64K токенов.

Модель совместно выполняет ASR, диаризацию и временную метку, поэтому она выдаёт структурированные транскрипты, кодирующие информацию о том, кто, когда и что сказал, за один шаг логического вывода.

Настраиваемые ключевые слова позволяют пользователям вводить термины, специфичные для предметной области, такие как названия продуктов или технический жаргон, для повышения точности распознавания без переобучения модели.

Оценка с помощью DER, cpWER и tcpWER сосредоточена на сценариях с несколькими говорящими в условиях разговора, что соответствует использованию модели для встреч, лекций и длительных звонков.

VibeVoice-ASR выпущена в стеке с открытым исходным кодом VibeVoice под лицензией MIT с официальными весами, скриптами для тонкой настройки и онлайн-игровой площадкой для экспериментов.

1. Какие преимущества VibeVoice-ASR предлагает по сравнению с традиционными системами автоматического распознавания речи (ASR)?

Ответ: VibeVoice-ASR отличается от традиционных систем ASR тем, что способна обрабатывать аудиозаписи длительностью до 60 минут за один проход, сохраняя при этом единое глобальное представление всей сессии. Это позволяет модели сохранять идентичность говорящего и контекст темы на протяжении всего часа, в отличие от традиционных систем, которые разрезают аудио на короткие сегменты и выполняют диаризацию и выравнивание как отдельные компоненты.

2. Какие основные функции VibeVoice-ASR позволяют настраивать модель под конкретные задачи?

Ответ: Основные функции VibeVoice-ASR, позволяющие настраивать модель под конкретные задачи, включают использование настраиваемых ключевых слов для повышения точности в определённой области, богатую транскрипцию, диаризацию и разметку времени. Пользователи могут предоставить ключевые слова, такие как названия продуктов, названия организаций, технические термины или фоновый контекст, что позволяет настроить декодирование на правильное написание и произношение для токенов, специфичных для предметной области.

3. Какие метрики используются для оценки производительности VibeVoice-ASR?

Ответ: Для оценки производительности VibeVoice-ASR используются метрики DER, cpWER и tcpWER. Эти метрики сосредоточены на сценариях с несколькими говорящими в условиях разговора, что соответствует использованию модели для встреч, лекций и длительных звонков.

4. Под какой лицензией выпущена модель VibeVoice-ASR и какие ресурсы предоставляются вместе с ней?

Ответ: Модель VibeVoice-ASR выпущена под лицензией MIT. Вместе с ней предоставляются официальные веса, скрипты для тонкой настройки и онлайн-игровая площадка для экспериментов.

Источник