Исследовательская группа UT Austin и ServiceNow выпускает AU-Harness: инструментарий с открытым исходным кодом для комплексной оценки аудио-LLM

Voice AI становится одним из наиболее важных направлений в мультимодальном искусственном интеллекте. От интеллектуальных помощников до интерактивных агентов — способность понимать аудио и делать на его основе выводы меняет способы взаимодействия машин с людьми. Однако, хотя возможности моделей стремительно растут, инструменты для их оценки не успевают за ними.

Существующие тесты остаются фрагментированными, медленными и узкоспециализированными, что затрудняет сравнение моделей или тестирование их в реалистичных условиях с несколькими этапами взаимодействия.

Чтобы восполнить этот пробел, исследовательская группа UT Austin и ServiceNow выпустила AU-Harness — новый инструментарий с открытым исходным кодом, предназначенный для масштабной оценки больших аудиоязыковых моделей (LALMs).

AU-Harness отличается скоростью, стандартизацией и расширяемостью, позволяя исследователям тестировать модели по широкому спектру задач — от распознавания речи до сложного аудиоанализа — в рамках единой системы.

Почему нам нужен новый фреймворк для оценки аудио?

Текущие аудиотесты ориентированы на такие приложения, как преобразование речи в текст или распознавание эмоций. Такие платформы, как AudioBench, VoiceBench и DynamicSUPERB-2.0, расширили охват, но оставили некоторые действительно важные пробелы.

Можно выделить три проблемы:
* Узкие места пропускной способности: многие наборы инструментов не используют преимущества пакетной обработки или параллелизма, что делает крупномасштабные оценки мучительно медленными.
* Непоследовательность запросов: результаты сравнения моделей трудно сопоставить из-за различий в формулировках запросов.
* Ограниченный объём задач: в некоторых случаях отсутствуют такие ключевые области, как определение говорящего (кто и когда говорил) и понимание устной речи (выполнение инструкций, переданных в аудиоформате).

Эти пробелы ограничивают прогресс LALMs, особенно когда они развиваются в мультимодальных агентов, которые должны обрабатывать длинные, контекстно-насыщенные и многоэтапные взаимодействия.

Как AU-Harness повышает эффективность?

Исследовательская группа разработала AU-Harness с упором на скорость. Интегрируясь с механизмом логического вывода vLLM, он вводит планировщик запросов на основе токенов, который управляет одновременными оценками на нескольких узлах. Также наборы данных разбиваются на части, чтобы рабочие нагрузки распределялись пропорционально вычислительным ресурсам.

Такая конструкция обеспечивает почти линейное масштабирование оценок и обеспечивает полную загрузку оборудования. На практике AU-Harness обеспечивает на 127% более высокую пропускную способность и снижает коэффициент реального времени (RTF) почти на 60% по сравнению с существующими наборами инструментов. Для исследователей это означает, что оценки, которые раньше занимали дни, теперь выполняются за часы.

Можно ли настроить оценки?

Гибкость — ещё одна ключевая особенность AU-Harness. Каждая модель в процессе оценки может иметь свои собственные гиперпараметры, такие как температура или настройки максимального количества токенов, без нарушения стандартизации. Конфигурации позволяют фильтровать наборы данных (например, по акценту, длине аудио или профилю шума), обеспечивая целенаправленную диагностику.

Что особенно важно, AU-Harness поддерживает оценку многоэтапного диалога. Более ранние наборы инструментов были ограничены задачами с одним этапом, но современные голосовые агенты работают в рамках расширенных бесед. С помощью AU-Harness исследователи могут оценивать непрерывность диалога, контекстуальное рассуждение и адаптивность в рамках многоэтапного взаимодействия.

Какие задачи охватывает AU-Harness?

AU-Harness значительно расширяет охват задач, поддерживая более 50 наборов данных, 380 подмножеств и 21 задачу по шести категориям:
* Распознавание речи: от простого ASR до речи в длинной форме и с переключением кодов.
* Паралингвистика: эмоции, акцент, гендер и распознавание говорящего.
* Понимание аудио: понимание сцены и музыки.
* Понимание устной речи: ответы на вопросы, перевод и обобщение диалогов.
* Рассуждение на основе устной речи: преобразование речи в кодирование, вызов функций и выполнение многоэтапных инструкций.
* Безопасность: оценка надёжности и обнаружение подделок.

Две инновации, которые выделяются:

* Адаптация к LLM при определении говорящего, которая оценивает определение говорящего с помощью подсказок, а не специализированных нейронных моделей.
* Рассуждение на основе устной речи, которое проверяет способность моделей обрабатывать устные инструкции и делать на их основе выводы, а не просто транскрибировать их.

Что показывают тесты о современных моделях?

При применении к ведущим системам, таким как GPT-4o, Qwen2.5-Omni и Voxtral-Mini-3B, AU-Harness подчёркивает как сильные, так и слабые стороны. Модели отлично справляются с распознаванием речи и ответами на вопросы, показывая высокую точность в задачах распознавания речи и устных ответах на вопросы. Но они отстают в задачах временного анализа, таких как определение говорящего, и в выполнении сложных инструкций, особенно когда инструкции даются в аудиоформе.

Ключевой вывод — это разрыв в модальности инструкций: когда идентичные задачи представлены в виде устных инструкций вместо текста, производительность падает на целых 9,5 пункта. Это говорит о том, что, хотя модели и умеют работать с текстовыми рассуждениями, адаптация этих навыков к аудиомодальности остаётся открытой задачей.

Резюме

AU-Harness знаменует собой важный шаг на пути к стандартизированной и масштабируемой оценке аудиоязыковых моделей. Сочетая эффективность, воспроизводимость и широкий охват задач, включая определение говорящего и устное рассуждение, он устраняет давние пробелы в оценке голосового ИИ. Открытый исходный код и публичная таблица лидеров приглашают сообщество к сотрудничеству, сравнению и расширению границ того, чего могут достичь системы с голосовым управлением.

Ознакомьтесь с [статьёй](https://arxiv.org/pdf/2509.08031), [проектом](https://github.com/) и [страницей GitHub](https://github.com/). Не стесняйтесь посетить нашу [страницу GitHub](https://github.com/) для получения инструкций, кодов и записных книжек. Также подписывайтесь на нас в [Twitter](https://twitter.com/) и присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) (более 100 тысяч участников) и подписывайтесь на [наш информационный бюллетень](https://www.marktechpost.com/category/newsletter).

1. Какие проблемы существующих аудиотестов решает AU-Harness?

Ответ: AU-Harness решает три основные проблемы существующих аудиотестов: узкие места пропускной способности, непоследовательность запросов и ограниченный объём задач. Он обеспечивает скорость, стандартизацию и расширяемость, позволяя тестировать модели по широкому спектру задач в рамках единой системы.

2. Какие ключевые особенности AU-Harness делают его более эффективным по сравнению с существующими наборами инструментов?

Ответ: ключевые особенности AU-Harness включают скорость, гибкость и поддержку многоэтапного диалога. Он интегрируется с механизмом логического вывода vLLM, вводит планировщик запросов на основе токенов и разбивает наборы данных на части для более эффективного распределения рабочих нагрузок. Это обеспечивает почти линейное масштабирование оценок и полную загрузку оборудования.

3. Какие задачи охватывает AU-Harness и какие категории задач он поддерживает?

Ответ: AU-Harness охватывает более 50 наборов данных, 380 подмножеств и 21 задачу по шести категориям: распознавание речи, паралингвистика, понимание аудио, понимание устной речи, рассуждение на основе устной речи и безопасность. Он поддерживает задачи от простого ASR до речи в длинной форме, распознавания эмоций, акцента, гендерной идентификации и определения говорящего, а также понимания устной речи, ответов на вопросы, перевода и обобщения диалогов.

4. Какие инновации выделяются в рамках использования AU-Harness для оценки аудиоязыковых моделей?

Ответ: две инновации, которые выделяются в рамках использования AU-Harness, — это адаптация к LLM при определении говорящего и рассуждение на основе устной речи. Адаптация к LLM при определении говорящего оценивает определение говорящего с помощью подсказок, а не специализированных нейронных моделей. Рассуждение на основе устной речи проверяет способность моделей обрабатывать устные инструкции и делать на их основе выводы, а не просто транскрибировать их.

5. Какие выводы можно сделать о современных моделях на основе тестов с использованием AU-Harness?

Ответ: на основе тестов с использованием AU-Harness можно сделать вывод, что современные модели отлично справляются с распознаванием речи и ответами на вопросы, но отстают в задачах временного анализа, таких как определение говорящего, и в выполнении сложных инструкций, особенно когда инструкции даются в аудиоформе. Ключевой вывод — это разрыв в модальности инструкций: когда идентичные задачи представлены в виде устных инструкций вместо текста, производительность падает. Это говорит о том, что адаптация текстовых рассуждений к аудиомодальности остаётся открытой задачей.

Источник