В статье представлен новый билингвальный набор данных и система оценки для моделирования сложных устных диалогов

Модели устного диалога (SDMs) находятся на переднем крае разговорного искусственного интеллекта, обеспечивая плавное взаимодействие между людьми и машинами. Однако, несмотря на то что SDMs становятся неотъемлемой частью цифровых помощников, умных устройств и ботов для обслуживания клиентов, оценка их способности справляться с реальными сложностями человеческого диалога остаётся сложной задачей.

Неизученная сложность устного диалога

Хотя текстовые модели больших языковых моделей (LLMs) прошли обширный бенчмаркинг, устные диалоги представляют собой отдельный набор проблем:
* Фонологическая неоднозначность: вариации интонации, ударения, пауз и омофоны могут полностью изменить смысл, особенно в языках с тональными элементами, таких как китайский.
* Семантическая неоднозначность: слова и предложения с несколькими значениями требуют тщательного устранения неоднозначности.
* Опущение и кореференция: говорящие часто опускают слова или используют местоимения, полагаясь на контекст для понимания — постоянная проблема для моделей ИИ.
* Многократное взаимодействие: естественный диалог не является одноразовым; понимание часто накапливается в течение нескольких последовательных ходов, требуя надёжной памяти и отслеживания последовательности событий.

Существующие тесты для SDMs часто ограничены одним языком, однократными диалогами и редко учитывают неоднозначность или зависимость от контекста, оставляя значительные пробелы в оценке.

Набор данных C3: дизайн и охват

C3 — «Билингвальный бенчмарк для моделей устного диалога, изучающий проблемы в сложных разговорах» — представляет собой набор данных, включающий:
* 1079 примеров на английском и китайском языках, охватывающих пять ключевых явлений:
* Фонологическая неоднозначность.
* Семантическая неоднозначность.
* Опущение.
* Кореференция.
* Многократное взаимодействие.
* Аудио-текстовые парные выборки, позволяющие провести настоящую оценку устного диалога (1586 пар из-за условий многократного взаимодействия).
* Тщательный ручной контроль качества: аудио перезаписывается или озвучивается человеком для обеспечения равномерного тембра и удаления фонового шума.
* Инструкции, ориентированные на задачи, для каждого типа явления, побуждающие SDMs обнаруживать, интерпретировать, разрешать и генерировать соответствующие ответы.
* Сбалансированное освещение обоих языков, при этом китайские примеры подчёркивают тон и уникальные референтные структуры, которых нет в английском языке.

Методология оценки: LLM-как-судья и согласование с человеком

Исследовательская группа представляет инновационный метод автоматической оценки на основе LLM — использование мощных LLMs (GPT-4o, DeepSeek-R1) для оценки ответов SDM, результаты которых тесно коррелируют с независимой оценкой человека (Пирсон и Спирмен > 0,87, p < 0,001). Результаты бенчмарка: производительность модели и ключевые выводы

Результаты оценки шести современных сквозных SDMs на английском и китайском языках показывают:

| Модель | Высший балл (английский) | Высший балл (китайский) |
| — | — | — |
| GPT-4o-Audio-Preview | 55,68% | 29,45% |
| Qwen2.5-Omni | 51,91% | 240,08% |

Анализ по явлениям:
* Неоднозначность сложнее, чем зависимость от контекста: SDMs показывают значительно более низкие результаты по фонологической и семантической неоднозначности, чем по опущению, кореференции или задачам с многократным взаимодействием — особенно в китайском языке, где семантическая неоднозначность опускается ниже 4% точности.
* Язык имеет значение: все SDMs работают лучше на английском, чем на китайском, в большинстве категорий. Разрыв сохраняется даже среди моделей, разработанных для обоих языков.
* Вариативность моделей: некоторые модели (например, Qwen2.5-Omni) превосходно справляются с многоразовым взаимодействием и отслеживанием контекста, в то время как другие (например, GPT-4o-Audio-Preview) доминируют в разрешении неоднозначности на английском языке.
* Опущение и кореференция: обнаружение обычно проще, чем разрешение/дополнение — демонстрация того, что распознать проблему — это одно, а решить её — другое.

Выводы для будущих исследований

C3 убедительно демонстрирует, что:
* Современные SDMs далеки от человеческого уровня в сложных разговорных явлениях.
* Языковые особенности (особенно тональные и референтные аспекты китайского языка) требуют индивидуального моделирования и оценки.
* Бенчмаркинг должен выходить за рамки однократных, лишённых двусмысленности настроек.

Открытый характер C3, наряду с его надёжной билингвальной конструкцией, обеспечивает основу для следующей волны SDMs — позволяя исследователям и инженерам выделять и улучшать наиболее сложные аспекты устного ИИ.

Заключение

Бенчмарк C3 знаменует собой важный шаг вперёд в оценке SDMs, продвигая разговоры за пределы простых сценариев к подлинной сложности человеческого взаимодействия. Тщательно знакомя модели с фонологической, семантической и контекстуальной сложностью на английском и китайском языках, C3 закладывает основу для будущих систем, которые действительно могут понимать — и участвовать — в сложном устном диалоге.

1. Какие проблемы устных диалогов не учитываются в существующих тестах для моделей устного диалога (SDMs)?

В существующих тестах для SDMs не учитываются такие проблемы устных диалогов, как фонологическая неоднозначность (вариации интонации, ударения, пауз и омофоны), семантическая неоднозначность (слова и предложения с несколькими значениями), опущение и кореференция (использование местоимений и опущение слов, требующих контекста для понимания), а также многократное взаимодействие (накопление понимания в течение нескольких последовательных ходов).

2. Какие особенности включает в себя билингвальный бенчмарк C3 для моделей устного диалога?

Билингвальный бенчмарк C3 включает 1079 примеров на английском и китайском языках, охватывающих пять ключевых явлений: фонологическую неоднозначность, семантическую неоднозначность, опущение, кореференцию и многократное взаимодействие. Также в бенчмарк входят аудио-текстовые парные выборки, ручной контроль качества, инструкции, ориентированные на задачи, и сбалансированное освещение обоих языков.

3. Какие выводы можно сделать на основе результатов бенчмарка C3 для моделей устного диалога?

На основе результатов бенчмарка C3 можно сделать следующие выводы:
* Современные SDMs далеки от человеческого уровня в сложных разговорных явлениях.
* Языковые особенности (особенно тональные и референтные аспекты китайского языка) требуют индивидуального моделирования и оценки.
* Бенчмаркинг должен выходить за рамки однократных, лишённых двусмысленности настроек.
* Некоторые модели превосходно справляются с многоразовым взаимодействием и отслеживанием контекста, в то время как другие доминируют в разрешении неоднозначности на английском языке.

4. Какие инновационные методы используются для оценки ответов моделей устного диалога в бенчмарке C3?

Для оценки ответов моделей устного диалога в бенчмарке C3 используется инновационный метод автоматической оценки на основе LLM — использование мощных LLMs (GPT-4o, DeepSeek-R1) для оценки ответов SDM, результаты которых тесно коррелируют с независимой оценкой человека (Пирсон и Спирмен > 0,87, p < 0,001). 5. Какие языковые особенности требуют индивидуального моделирования и оценки в контексте устного диалога?

В контексте устного диалога языковые особенности, требующие индивидуального моделирования и оценки, включают тональные и референтные аспекты китайского языка. Эти особенности могут существенно влиять на понимание и интерпретацию устных диалогов, поэтому требуют специального подхода в моделировании и оценке.

Источник