NVIDIA представила PersonaPlex-7B-v1: модель для естественных и полнодуплексных разговоров в реальном времени

Исследователи из NVIDIA выпустили модель PersonaPlex-7B-v1 — это полнодуплексная модель для разговоров, которая обеспечивает естественное взаимодействие с точным контролем личности.

От каскада к единой модели

Традиционные голосовые помощники обычно работают по каскадной схеме:
* автоматическое распознавание речи (ASR) преобразует речь в текст;
* языковая модель генерирует текстовый ответ;
* преобразование текста в речь (TTS) преобразует текст обратно в аудио.

Каждый этап добавляет задержку, а конвейер не может обрабатывать перекрывающуюся речь, естественные прерывания или плотные бэк-каналы.

PersonaPlex заменяет этот каскад единой моделью Transformer, которая выполняет потоковое распознавание и генерацию речи в одной сети. Модель работает с непрерывным аудио, закодированным с помощью нейронного кодека, и прогнозирует как текстовые, так и аудиотокены авторегрессивно.

Входящий аудиопоток пользователя постепенно кодируется, а PersonaPlex одновременно генерирует собственную речь, что позволяет осуществлять прерывания, наложения, быстрые переходы и контекстуальные бэк-каналы.

Персональные подсказки и гибридное управление

PersonaPlex использует две подсказки для определения диалоговой идентичности:
* голосовая подсказка — это последовательность аудиотокенов, которая кодирует вокальные характеристики, стиль речи и просодию;
* текстовая подсказка описывает роль, предысторию, информацию об организации и контекст сценария.

Вместе эти подсказки ограничивают как лингвистическое содержание, так и акустическое поведение агента. Кроме того, системная подсказка поддерживает такие поля, как имя, название компании, имя агента и бизнес-информация, с бюджетом до 200 токенов.

Архитектура, основа Helium и аудиопуть

Модель PersonaPlex имеет 7 миллиардов параметров и следует архитектуре Moshi. Кодировщик речи Mimi, который сочетает слои ConvNet и Transformer, преобразует аудиосигнал в дискретные токены. Временные и глубинные трансформеры обрабатывают несколько каналов, представляющих аудио пользователя, текст агента и аудио агента. Декодер речи Mimi, который также сочетает слои Transformer и ConvNet, генерирует выходные аудиотокены.

Аудио использует частоту дискретизации 24 кГц как для входа, так и для выхода. PersonaPlex построена на основе весов Moshi и использует Helium в качестве базовой языковой модели.

Обучение и данные

Обучение состоит из одного этапа и использует смесь реальных и синтетических диалогов. Реальные разговоры взяты из корпуса Fisher English, который включает около 7 303 звонков продолжительностью примерно 1 217 часов. Эти разговоры аннотированы с помощью подсказок GPT-OSS-120B.

Синтетические данные охватывают роли ассистента и службы поддержки клиентов. Команда NVIDIA сообщает о 39 322 синтетических разговорах с ассистентом, продолжительностью около 410 часов, и 105 410 синтетических разговорах службы поддержки клиентов, продолжительностью около 1 840 часов.

Оценка на FullDuplexBench и ServiceDuplexBench

PersonaPlex оценивается на FullDuplexBench, бенчмарке для полнодуплексных моделей диалога, и на новом расширении под названием ServiceDuplexBench для сценариев обслуживания клиентов.

PersonaPlex превосходит многие другие открытые и закрытые системы по динамике разговора, задержке ответа, задержке прерывания и соблюдению задач как в роли ассистента, так и в роли службы поддержки клиентов.

https://research.nvidia.com/labs/adlr/personaplex/

Ключевые выводы

* PersonaPlex-7B-v1 — это полнодуплексная модель для разговоров от NVIDIA, построенная на архитектуре Moshi с основой языковой модели Helium.
* Модель использует двухпотоковый Transformer с кодировщиком и декодировщиком речи Mimi на частоте 24 кГц, кодирует непрерывное аудио в дискретные токены и генерирует текстовые и аудиотокены одновременно, что обеспечивает возможность прерываний, наложений, быстрых переходов и естественных бэк-каналов.
* Контроль личности осуществляется с помощью гибридных подсказок: голосовая подсказка из аудиотокенов задаёт тембр и стиль, а текстовая и системная подсказки до 200 токенов определяют роль, бизнес-контекст и ограничения.
* Обучение использует смесь 7 303 разговоров Fisher, около 1 217 часов, аннотированных с помощью GPT-OSS-120B, а также синтетические диалоги с ассистентом и службой поддержки клиентов, около 410 часов и 1 840 часов.
* На FullDuplexBench и ServiceDuplexBench PersonaPlex достигает показателя перехвата при плавных переходах 0,908 и показателя перехвата при прерывании пользователя 0,950 с субсекундной задержкой и улучшенным соблюдением задач.

1. Какие преимущества предлагает модель PersonaPlex-7B-v1 по сравнению с традиционными голосовыми помощниками?

Ответ: модель PersonaPlex-7B-v1 заменяет каскадную схему работы традиционных голосовых помощников единой моделью Transformer. Это позволяет осуществлять потоковое распознавание и генерацию речи в одной сети, работать с непрерывным аудио и прогнозировать как текстовые, так и аудиотокены авторегрессивно. В результате модель обеспечивает более естественное взаимодействие с точным контролем личности, а также позволяет осуществлять прерывания, наложения, быстрые переходы и контекстуальные бэк-каналы.

2. Какие типы подсказок используются для определения диалоговой идентичности в модели PersonaPlex-7B-v1?

Ответ: для определения диалоговой идентичности в модели PersonaPlex-7B-v1 используются две подсказки: голосовая подсказка и текстовая подсказка. Голосовая подсказка кодирует вокальные характеристики, стиль речи и просодию, а текстовая подсказка описывает роль, предысторию, информацию об организации и контекст сценария.

3. На каких данных обучается модель PersonaPlex-7B-v1?

Ответ: модель PersonaPlex-7B-v1 обучается на смеси реальных и синтетических диалогов. Реальные разговоры взяты из корпуса Fisher English, который включает около 7 303 звонков продолжительностью примерно 1 217 часов. Синтетические данные охватывают роли ассистента и службы поддержки клиентов. Команда NVIDIA сообщает о 39 322 синтетических разговорах с ассистентом, продолжительностью около 410 часов, и 105 410 синтетических разговорах службы поддержки клиентов, продолжительностью около 1 840 часов.

4. Как оценивается модель PersonaPlex-7B-v1?

Ответ: модель PersonaPlex-7B-v1 оценивается на FullDuplexBench, бенчмарке для полнодуплексных моделей диалога, и на новом расширении под названием ServiceDuplexBench для сценариев обслуживания клиентов. PersonaPlex превосходит многие другие открытые и закрытые системы по динамике разговора, задержке ответа, задержке прерывания и соблюдению задач как в роли ассистента, так и в роли службы поддержки клиентов.

5. Какие ключевые выводы можно сделать о модели PersonaPlex-7B-v1?

Ответ: ключевые выводы о модели PersonaPlex-7B-v1 включают следующее:
* PersonaPlex-7B-v1 — это полнодуплексная модель для разговоров от NVIDIA, построенная на архитектуре Moshi с основой языковой модели Helium.
* Модель использует двухпотоковый Transformer с кодировщиком и декодировщиком речи Mimi на частоте 24 кГц, кодирует непрерывное аудио в дискретные токены и генерирует текстовые и аудиотокены одновременно, что обеспечивает возможность прерываний, наложений, быстрых переходов и естественных бэк-каналов.
* Контроль личности осуществляется с помощью гибридных подсказок: голосовая подсказка из аудиотокенов задаёт тембр и стиль, а текстовая и системная подсказки до 200 токенов определяют роль, бизнес-контекст и ограничения.
* Обучение использует смесь реальных разговоров Fisher и синтетических диалогов с ассистентом и службой поддержки клиентов.
* На FullDuplexBench и ServiceDuplexBench PersonaPlex достигает высоких показателей перехвата при плавных переходах и прерывании пользователя с субсекундной задержкой и улучшенным соблюдением задач.

Источник