Как оценивать голосовых агентов в 2025 году: за пределами автоматического распознавания речи (ASR) и частоты ошибок в словах (WER)

Оценка голосовых агентов выходит за рамки простого измерения точности ASR и WER. Для современных интерактивных голосовых агентов требуется комплексная оценка, включающая успешность выполнения задач, поведение при прерывании и галлюцинации в условиях шума.

Почему WER недостаточно?

WER измеряет точность транскрипции, а не качество взаимодействия. Два агента с одинаковым WER могут сильно различаться по успешности диалога из-за задержки, выбора хода, восстановления после недопонимания, безопасности и устойчивости к акустическим и содержательным возмущениям, которые определяют пользовательский опыт.

Что измерять (и как)?

1. Успешность выполнения задач:
— Метрика: Коэффициент успешности выполнения задач (TSR) с чёткими критериями успеха для каждой задачи (достижение цели, выполнение ограничений), плюс Время выполнения задачи (TCT) и Количество ходов до успеха.
— Протокол: определите задачи с проверяемыми конечными точками (например, «составить список покупок с N товарами и ограничениями»). Используйте слепых оценщиков и автоматические журналы для вычисления TSR/TCT/Turns.

2. Прерывание и выбор хода:
— Метрики: Задержка обнаружения прерывания (мс): время от начала речи пользователя до подавления TTS. Истинные/ложные скорости прерываний: корректные прерывания по сравнению со спонтанными остановками. Задержка определения конечной точки (мс): время до завершения ASR после остановки пользователя.
— Протокол: создайте сценарии, где пользователь прерывает TTS с контролируемыми смещениями и SNR. Измерьте время подавления и распознавания с помощью высокоточных журналов (временны́е метки кадров).

3. Галлюцинации в условиях шума (HUN):
— Метрика: HUN Rate: доля выходов, которые являются беглыми, но семантически не связаны с аудио в условиях контролируемого шума или несвязного аудио.
— Протокол: создайте аудиозаписи с добавлением шума окружающей среды (различные SNR), несвязных отвлекающих факторов и дисфлуенций контента. Оцените семантическую связанность (суждение человека с арбитражем) и вычислите HUN.

4. Следование инструкциям, безопасность и устойчивость:
— Метрики: Точность следования инструкциям (соблюдение формата и ограничений). Частота отказов безопасности на состязательных голосовых подсказках. Дельта устойчивости по возрасту/акценту/высоте голоса говорящего, среде (шум, реверберация, дальнее поле) и содержанию (грамматические ошибки, дисфлуенции).
— Протокол: используйте VoiceBench для оценки речевых взаимодействий; сообщайте совокупные и по-осевые оценки.

5. Перцептивное качество речи (для TTS и улучшения):
— Метрика: Субъективная средняя оценка мнения через ITU-T P.808 (краудсорсинговая ACR/DCR/CCR).
— Протокол: используйте ITU-T P.808 (с открытым исходным кодом) для количественной оценки пользовательского восприятия качества TTS в вашем сквозном цикле, а не только ASR.

Ландшафт бенчмарков: что каждый охватывает

VoiceBench (2024):

  • Область применения: многоаспектная оценка голосовых помощников с голосовыми входами, охватывающая общие знания, следование инструкциям, безопасность и устойчивость к изменениям говорящего/среды/контента; использует как реальную, так и синтетическую речь.

  • Ограничения: не оценивает задержку при прерывании/определении конечной точки или выполнение задач в реальных условиях на устройствах; фокусируется на правильности ответа и безопасности при изменениях.

SLUE / SLUE Phase-2:

  • Область применения: задачи понимания устной речи: NER, сентимент, диалоговые акты, локализация именованных сущностей, QA, суммирование; предназначены для изучения чувствительности сквозного и конвейерного подходов к ошибкам ASR.

MASSIVE:

  • Область применения: >1M виртуальных ассистентов на 51–52 языках с намерениями/слотами; хорошо подходит для многоязычной оценки, ориентированной на задачи.

Spoken-SQuAD / HeySQuAD и связанные наборы данных для ответов на вопросы в устной форме:

  • Область применения: ответы на вопросы в устной форме для проверки понимания, осведомлённого о ASR, и многоакцентной устойчивости.

DSTC (Dialog System Technology Challenge):

  • Область применения: моделирование диалогов с использованием речевых, ориентированных на задачи данных; человеческие рейтинги наряду с автоматическими метриками; недавние треки подчёркивают многоязычность, безопасность и размерность оценки.

Реальная помощь в выполнении задач (Alexa Prize TaskBot):

  • Область применения: многошаговая помощь в выполнении задач с оценками пользователей и критериями успеха (приготовление пищи/DIY).

Восполнение пробелов: что ещё нужно добавить

  • Показатели для прерывания и определения конечной точки: добавьте явные измерительные системы.

  • Протоколы для галлюцинаций в условиях шума (HUN): примите новые определения галлюцинаций ASR и контролируемые тесты с шумом/несвязной речью.

  • Задержка взаимодействия на устройстве: соотнесите воспринимаемую пользователем задержку со схемами потоковой передачи ASR.

  • Матрицы устойчивости по нескольким осям: объедините оси VoiceBench с вашим набором задач (TSR), чтобы выявить слабые места (например, прерывание при эхо в дальнем поле; успешность выполнения задач при низком SNR; многоязычные слоты при смене акцента).

Конкретный воспроизводимый план оценки

Соберите набор:

  • Ядро речевого взаимодействия: VoiceBench для знаний, следования инструкциям, безопасности и устойчивости по осям.

  • Глубина SLU: задачи SLUE/Phase-2 (NER, диалоговые акты, QA, суммирование) для оценки производительности SLU при речи.

  • Многоязычное покрытие: MASSIVE для намерений/слотов и многоязычного стресса.

  • Понимание при ASR-шуме: Spoken-SQuAD/HeySQuAD для ответов на вопросы в устной форме и многоакцентных отчётов.

Добавьте недостающие возможности:

  • Прерывание/определение конечной точки: сценарии прерываний с контролируемыми смещениями и SNR; логируйте время подавления и ложные прерывания; измеряйте задержку определения конечной точки со сквозной ASR.

  • Галлюцинации в условиях шума: вставки несвязной речи и наложение шума; аннотируйте семантическую связанность для вычисления HUN.

  • Блок успешности выполнения задач: сценарии задач с объективными проверками успешности; вычислите TSR, TCT и Turns; следуйте определениям стиля TaskBot.

  • Перцептивное качество: P.808 краудсорсинговая ACR с помощью Microsoft toolkit.

Структура отчёта

  • Основная таблица: TSR/TCT/Turns; задержка при прерывании и частота ошибок; задержка определения конечной точки; HUN rate; агрегированные и по-осевые показатели VoiceBench; показатели SLU; P.808 MOS.

  • Стресс-графики: TSR и HUN по SNR и реверберации; задержка при прерывании по времени прерывания.

1. Какие метрики и протоколы используются для оценки успешности выполнения задач голосовыми агентами?

Ответ: для оценки успешности выполнения задач голосовыми агентами используются следующие метрики и протоколы:
* Коэффициент успешности выполнения задач (TSR) с чёткими критериями успеха для каждой задачи (достижение цели, выполнение ограничений).
* Время выполнения задачи (TCT).
* Количество ходов до успеха.
* Протокол включает определение задач с проверяемыми конечными точками (например, «составить список покупок с N товарами и ограничениями»), использование слепых оценщиков и автоматических журналов для вычисления TSR/TCT/Turns.

2. Какие метрики используются для оценки поведения голосовых агентов при прерывании?

Ответ: для оценки поведения голосовых агентов при прерывании используются следующие метрики:
* Задержка обнаружения прерывания (мс): время от начала речи пользователя до подавления TTS.
* Истинные/ложные скорости прерываний: корректные прерывания по сравнению со спонтанными остановками.
* Задержка определения конечной точки (мс): время до завершения ASR после остановки пользователя.

3. Какие метрики используются для оценки галлюцинаций в условиях шума (HUN) у голосовых агентов?

Ответ: для оценки галлюцинаций в условиях шума (HUN) у голосовых агентов используется метрика HUN Rate: доля выходов, которые являются беглыми, но семантически не связаны с аудио в условиях контролируемого шума или несвязного аудио.

4. Какие существуют бенчмарки для оценки голосовых агентов и в чём их особенности?

Ответ: существуют различные бенчмарки для оценки голосовых агентов, например:
* VoiceBench (2024): многоаспектная оценка голосовых помощников с голосовыми входами, охватывающая общие знания, следование инструкциям, безопасность и устойчивость к изменениям говорящего/среды/контента.
* SLUE / SLUE Phase-2: задачи понимания устной речи: NER, сентимент, диалоговые акты, локализация именованных сущностей, QA, суммирование.
* MASSIVE: многоязычная оценка, ориентированная на задачи.
* Spoken-SQuAD / HeySQuAD: ответы на вопросы в устной форме для проверки понимания, осведомлённого о ASR, и многоакцентной устойчивости.
* DSTC (Dialog System Technology Challenge): моделирование диалогов с использованием речевых, ориентированных на задачи данных.

5. Какие дополнительные возможности и показатели можно добавить для более полной оценки голосовых агентов?

Ответ: для более полной оценки голосовых агентов можно добавить следующие возможности и показатели:
* Показатели для прерывания и определения конечной точки: добавить явные измерительные системы.
* Протоколы для галлюцинаций в условиях шума (HUN): принять новые определения галлюцинаций ASR и контролируемые тесты с шумом/несвязной речью.
* Задержка взаимодействия на устройстве: соотнести воспринимаемую пользователем задержку со схемами потоковой передачи ASR.
* Матрицы устойчивости по нескольким осям: объединить оси VoiceBench с вашим набором задач (TSR), чтобы выявить слабые места (например, прерывание при эхо в дальнем поле; успешность выполнения задач при низком SNR; многоязычные слоты при смене акцента).

Источник