Оценка голосовых агентов выходит за рамки простого измерения точности ASR и WER. Для современных интерактивных голосовых агентов требуется комплексная оценка, включающая успешность выполнения задач, поведение при прерывании и галлюцинации в условиях шума.
Почему WER недостаточно?
WER измеряет точность транскрипции, а не качество взаимодействия. Два агента с одинаковым WER могут сильно различаться по успешности диалога из-за задержки, выбора хода, восстановления после недопонимания, безопасности и устойчивости к акустическим и содержательным возмущениям, которые определяют пользовательский опыт.
Что измерять (и как)?
1. Успешность выполнения задач:
— Метрика: Коэффициент успешности выполнения задач (TSR) с чёткими критериями успеха для каждой задачи (достижение цели, выполнение ограничений), плюс Время выполнения задачи (TCT) и Количество ходов до успеха.
— Протокол: определите задачи с проверяемыми конечными точками (например, «составить список покупок с N товарами и ограничениями»). Используйте слепых оценщиков и автоматические журналы для вычисления TSR/TCT/Turns.
2. Прерывание и выбор хода:
— Метрики: Задержка обнаружения прерывания (мс): время от начала речи пользователя до подавления TTS. Истинные/ложные скорости прерываний: корректные прерывания по сравнению со спонтанными остановками. Задержка определения конечной точки (мс): время до завершения ASR после остановки пользователя.
— Протокол: создайте сценарии, где пользователь прерывает TTS с контролируемыми смещениями и SNR. Измерьте время подавления и распознавания с помощью высокоточных журналов (временны́е метки кадров).
3. Галлюцинации в условиях шума (HUN):
— Метрика: HUN Rate: доля выходов, которые являются беглыми, но семантически не связаны с аудио в условиях контролируемого шума или несвязного аудио.
— Протокол: создайте аудиозаписи с добавлением шума окружающей среды (различные SNR), несвязных отвлекающих факторов и дисфлуенций контента. Оцените семантическую связанность (суждение человека с арбитражем) и вычислите HUN.
4. Следование инструкциям, безопасность и устойчивость:
— Метрики: Точность следования инструкциям (соблюдение формата и ограничений). Частота отказов безопасности на состязательных голосовых подсказках. Дельта устойчивости по возрасту/акценту/высоте голоса говорящего, среде (шум, реверберация, дальнее поле) и содержанию (грамматические ошибки, дисфлуенции).
— Протокол: используйте VoiceBench для оценки речевых взаимодействий; сообщайте совокупные и по-осевые оценки.
5. Перцептивное качество речи (для TTS и улучшения):
— Метрика: Субъективная средняя оценка мнения через ITU-T P.808 (краудсорсинговая ACR/DCR/CCR).
— Протокол: используйте ITU-T P.808 (с открытым исходным кодом) для количественной оценки пользовательского восприятия качества TTS в вашем сквозном цикле, а не только ASR.
Ландшафт бенчмарков: что каждый охватывает
VoiceBench (2024):
- Область применения: многоаспектная оценка голосовых помощников с голосовыми входами, охватывающая общие знания, следование инструкциям, безопасность и устойчивость к изменениям говорящего/среды/контента; использует как реальную, так и синтетическую речь.
- Ограничения: не оценивает задержку при прерывании/определении конечной точки или выполнение задач в реальных условиях на устройствах; фокусируется на правильности ответа и безопасности при изменениях.
SLUE / SLUE Phase-2:
- Область применения: задачи понимания устной речи: NER, сентимент, диалоговые акты, локализация именованных сущностей, QA, суммирование; предназначены для изучения чувствительности сквозного и конвейерного подходов к ошибкам ASR.
MASSIVE:
- Область применения: >1M виртуальных ассистентов на 51–52 языках с намерениями/слотами; хорошо подходит для многоязычной оценки, ориентированной на задачи.
Spoken-SQuAD / HeySQuAD и связанные наборы данных для ответов на вопросы в устной форме:
- Область применения: ответы на вопросы в устной форме для проверки понимания, осведомлённого о ASR, и многоакцентной устойчивости.
DSTC (Dialog System Technology Challenge):
- Область применения: моделирование диалогов с использованием речевых, ориентированных на задачи данных; человеческие рейтинги наряду с автоматическими метриками; недавние треки подчёркивают многоязычность, безопасность и размерность оценки.
Реальная помощь в выполнении задач (Alexa Prize TaskBot):
- Область применения: многошаговая помощь в выполнении задач с оценками пользователей и критериями успеха (приготовление пищи/DIY).
Восполнение пробелов: что ещё нужно добавить
- Показатели для прерывания и определения конечной точки: добавьте явные измерительные системы.
- Протоколы для галлюцинаций в условиях шума (HUN): примите новые определения галлюцинаций ASR и контролируемые тесты с шумом/несвязной речью.
- Задержка взаимодействия на устройстве: соотнесите воспринимаемую пользователем задержку со схемами потоковой передачи ASR.
- Матрицы устойчивости по нескольким осям: объедините оси VoiceBench с вашим набором задач (TSR), чтобы выявить слабые места (например, прерывание при эхо в дальнем поле; успешность выполнения задач при низком SNR; многоязычные слоты при смене акцента).
Конкретный воспроизводимый план оценки
Соберите набор:
- Ядро речевого взаимодействия: VoiceBench для знаний, следования инструкциям, безопасности и устойчивости по осям.
- Глубина SLU: задачи SLUE/Phase-2 (NER, диалоговые акты, QA, суммирование) для оценки производительности SLU при речи.
- Многоязычное покрытие: MASSIVE для намерений/слотов и многоязычного стресса.
- Понимание при ASR-шуме: Spoken-SQuAD/HeySQuAD для ответов на вопросы в устной форме и многоакцентных отчётов.
Добавьте недостающие возможности:
- Прерывание/определение конечной точки: сценарии прерываний с контролируемыми смещениями и SNR; логируйте время подавления и ложные прерывания; измеряйте задержку определения конечной точки со сквозной ASR.
- Галлюцинации в условиях шума: вставки несвязной речи и наложение шума; аннотируйте семантическую связанность для вычисления HUN.
- Блок успешности выполнения задач: сценарии задач с объективными проверками успешности; вычислите TSR, TCT и Turns; следуйте определениям стиля TaskBot.
- Перцептивное качество: P.808 краудсорсинговая ACR с помощью Microsoft toolkit.
Структура отчёта
- Основная таблица: TSR/TCT/Turns; задержка при прерывании и частота ошибок; задержка определения конечной точки; HUN rate; агрегированные и по-осевые показатели VoiceBench; показатели SLU; P.808 MOS.
- Стресс-графики: TSR и HUN по SNR и реверберации; задержка при прерывании по времени прерывания.
1. Какие метрики и протоколы используются для оценки успешности выполнения задач голосовыми агентами?
Ответ: для оценки успешности выполнения задач голосовыми агентами используются следующие метрики и протоколы:
* Коэффициент успешности выполнения задач (TSR) с чёткими критериями успеха для каждой задачи (достижение цели, выполнение ограничений).
* Время выполнения задачи (TCT).
* Количество ходов до успеха.
* Протокол включает определение задач с проверяемыми конечными точками (например, «составить список покупок с N товарами и ограничениями»), использование слепых оценщиков и автоматических журналов для вычисления TSR/TCT/Turns.
2. Какие метрики используются для оценки поведения голосовых агентов при прерывании?
Ответ: для оценки поведения голосовых агентов при прерывании используются следующие метрики:
* Задержка обнаружения прерывания (мс): время от начала речи пользователя до подавления TTS.
* Истинные/ложные скорости прерываний: корректные прерывания по сравнению со спонтанными остановками.
* Задержка определения конечной точки (мс): время до завершения ASR после остановки пользователя.
3. Какие метрики используются для оценки галлюцинаций в условиях шума (HUN) у голосовых агентов?
Ответ: для оценки галлюцинаций в условиях шума (HUN) у голосовых агентов используется метрика HUN Rate: доля выходов, которые являются беглыми, но семантически не связаны с аудио в условиях контролируемого шума или несвязного аудио.
4. Какие существуют бенчмарки для оценки голосовых агентов и в чём их особенности?
Ответ: существуют различные бенчмарки для оценки голосовых агентов, например:
* VoiceBench (2024): многоаспектная оценка голосовых помощников с голосовыми входами, охватывающая общие знания, следование инструкциям, безопасность и устойчивость к изменениям говорящего/среды/контента.
* SLUE / SLUE Phase-2: задачи понимания устной речи: NER, сентимент, диалоговые акты, локализация именованных сущностей, QA, суммирование.
* MASSIVE: многоязычная оценка, ориентированная на задачи.
* Spoken-SQuAD / HeySQuAD: ответы на вопросы в устной форме для проверки понимания, осведомлённого о ASR, и многоакцентной устойчивости.
* DSTC (Dialog System Technology Challenge): моделирование диалогов с использованием речевых, ориентированных на задачи данных.
5. Какие дополнительные возможности и показатели можно добавить для более полной оценки голосовых агентов?
Ответ: для более полной оценки голосовых агентов можно добавить следующие возможности и показатели:
* Показатели для прерывания и определения конечной точки: добавить явные измерительные системы.
* Протоколы для галлюцинаций в условиях шума (HUN): принять новые определения галлюцинаций ASR и контролируемые тесты с шумом/несвязной речью.
* Задержка взаимодействия на устройстве: соотнести воспринимаемую пользователем задержку со схемами потоковой передачи ASR.
* Матрицы устойчивости по нескольким осям: объединить оси VoiceBench с вашим набором задач (TSR), чтобы выявить слабые места (например, прерывание при эхо в дальнем поле; успешность выполнения задач при низком SNR; многоязычные слоты при смене акцента).