Переосмысление аудиовзамодействия человека и машины
Системы, способные реагировать на человеческую речь с помощью столь же выразительного и естественного аудио, стали основной целью в разработке интеллектуальных систем взаимодействия. Моделирование аудиоязыка расширяет эту концепцию, объединяя распознавание речи, понимание естественного языка и генерацию аудио. Вместо того чтобы полагаться на текстовые преобразования, модели в этой области стремятся понимать и отвечать, используя только голос. Это имеет решающее значение не только для доступности и инклюзивности, но и для более плавного, человекоподобного взаимодействия машин в таких приложениях, как голосовые помощники, аудиорассказы и управление без помощи рук.
Ограничения каскадных речевых конвейеров
Несмотря на достижения в области понимания аудио, остаётся очевидная проблема: большинство систем по-прежнему полагаются на цепочку отдельных модулей для преобразования речи в текст, обработки текста и преобразования текста в речь. Такой модульный подход может снижать производительность и скорость реагирования из-за накопления ошибок и задержек. Кроме того, таким конвейерам не хватает выразительного контроля, что делает их непригодными для таких тонких задач, как эмоциональный диалог или динамический синтез речи.
Идеальным решением была бы полностью унифицированная модель, способная понимать аудиовопрос и генерировать выразительный аудиоответ напрямую, тем самым исключая все текстовые посредники.
От токен-ориентированных моделей к полностью унифицированным LALM
Несколько методов пытались решить эту проблему. Ранние подходы, такие как HuggingGPT и AudioGPT, использовали каскадные архитектуры, объединяющие отдельные речевые и языковые модели. Хотя они расширили охват задач, эти системы испытывали трудности с взаимодействием в реальном времени.
Поздние работы, такие как VALL-E, SpeechGPT, AudioPaLM и Qwen2-Audio, представили токен-ориентированные системы, преобразующие аудио в дискретные представления. Однако даже эти модели в основном выдают текст и требуют отдельных вокодеров, что ограничивает их способность генерировать выразительные, немедленные аудиоответы.
Введение Step-Audio-AQAA: полностью интегрированная система AQAA
Исследователи из StepFun представили Step-Audio-AQAA — полностью интегрированную большую аудиоязыковую модель, разработанную специально для задач аудиозапроса — аудиоответа. В отличие от предыдущих моделей, Step-Audio-AQAA напрямую преобразует устный ввод в выразительный устный вывод без преобразования его в промежуточный текст.
Эта архитектура сочетает в себе двухкодовый токенизатор, базовую языковую модель с 130 миллиардами параметров под названием Step-Omni и вокодер для естественного синтеза речи. Интеграция этих компонентов обеспечивает бесперебойное взаимодействие с низкой задержкой.
Токензация, архитектура и голосовой контроль
Метод начинается с двух отдельных аудиотокенизаторов — одного для лингвистических характеристик и другого для семантической просодии. Лингвистический токенизатор, основанный на Paraformer, извлекает структурированные элементы речи, такие как фонемы, со скоростью 16,7 Гц, используя кодовую книгу из 1024 токенов. Тем временем семантический токенизатор (вдохновлённый CosyVoice 1.0) кодирует акустическое богатство со скоростью 25 Гц с помощью 4096 токенов. Они чередуются в соотношении 2:3 и передаются в Step-Omni, мультимодальную модель LLM, обученную на текстовых, аудио- и визуальных данных.
После этого модель выводит последовательности аудио- и текстовых токенов с тремя кодовыми книгами, которые вокодер преобразует в плавную речь. Такая настройка обеспечивает детальный голосовой контроль, включая эмоциональный тон и скорость речи.
Оценка по контрольным показателям и результаты
Модель была оценена с использованием бенчмарка StepEval-Audio-360, который включает в себя многоязычные, мультидиалектные аудиозадачи по девяти категориям, включая креативность, игры, контроль эмоций, ролевые игры и понимание голоса.
По сравнению с современными моделями, такими как Kimi-Audio и Qwen-Omni, Step-Audio-AQAA достигла наивысших средних оценок мнения в большинстве категорий. В частности, в экспериментах с соотношением токенов текста и аудио конфигурация с соотношением 10:15 показала лучшие результаты с оценками Chat (4,03), Relevance (0,65) и Factuality (0,67).
Среди различных методов чередования аудиоданных лучше всего себя зарекомендовала конкатенация с сохранением маркеров, с оценками Chat (4,22), Relevance (0,57) и Factuality (0,57). Эти цифры отражают её сильные стороны в создании семантически точных, эмоционально насыщенных и контекстно-зависимых аудиоответов.
Заключение: на пути к выразительной машинной речи
Step-Audio-AQAA предлагает надёжное решение ограничений модульных конвейеров речевой обработки. Объединяя выразительную аудиотокенизацию, мощную мультимодальную LLM и передовые стратегии пост-обучения, такие как прямая оптимизация предпочтений и слияние моделей, она успешно генерирует высококачественные, эмоционально резонансные аудиоответы.
Эта работа знаменует собой значительный шаг вперёд в обеспечении возможности машинам общаться с помощью речи, которая является не только функциональной, но и выразительной и плавной.
Ознакомиться с документом и моделью можно на Hugging Face. Все заслуги за это исследование принадлежат исследователям этого проекта. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.