Tavus запускает Phoenix-4: модель гауссовой диффузии, обеспечивающая эмоциональный интеллект в реальном времени и задержку менее 600 мс в генеративном видеоискусстве

«Зыбкая долина» — последний рубеж для генеративного видео. Мы видели аватары с искусственным интеллектом, которые могут говорить, но им часто не хватает души человеческого взаимодействия. Они страдают от скованности движений и отсутствия эмоционального контекста. Tavus стремится исправить это с запуском Phoenix-4 — новой модели генеративного искусственного интеллекта, разработанной для диалогового видеоинтерфейса (CVI).

Три силы: Ворон, Воробей и Феникс

Для достижения истинного реализма Tavus использует трёхкомпонентную архитектуру модели. Понимание того, как эти модели взаимодействуют, является ключевым для разработчиков, стремящихся создать интерактивных агентов.

* Ворон-1 (восприятие): эта модель действует как «глаза и уши». Она анализирует выражение лица пользователя и тон голоса, чтобы понять эмоциональный контекст разговора.
* Воробей-1 (время): эта модель управляет ходом беседы. Она определяет, когда ИИ должен прервать, сделать паузу или подождать, пока пользователь закончит, обеспечивая естественность взаимодействия.
* Феникс-4 (рендеринг): основной механизм рендеринга. Он использует гауссову диффузию для синтеза фотореалистичного видео в реальном времени.

Технический прорыв: рендеринг с гауссовой диффузией

Phoenix-4 отходит от традиционных подходов, основанных на генеративно-состязательных сетях (GAN). Вместо этого он использует запатентованную модель рендеринга с гауссовой диффузией. Это позволяет ИИ рассчитывать сложные движения лица, такие как то, как натяжение кожи влияет на свет или как микровыражения появляются вокруг глаз.

Это означает, что модель лучше справляется с пространственной согласованностью, чем предыдущие версии. Если цифровой человек поворачивает голову, текстуры и освещение остаются стабильными. Модель генерирует эти высокоточные кадры со скоростью, поддерживающей потоковую передачу со скоростью 30 кадров в секунду (fps), что необходимо для поддержания иллюзии жизни.

Преодоление барьера задержки: менее 600 мс

В CVI скорость имеет решающее значение. Если задержка между речью пользователя и ответом ИИ слишком велика, ощущение «человечности» теряется. Tavus разработала конвейер Phoenix 4 для достижения сквозной задержки диалога менее 600 мс.

Это достигается за счёт архитектуры «сначала поток». Модель использует WebRTC (Web Real-Time Communication) для потоковой передачи видеоданных непосредственно в браузер клиента. Вместо того чтобы генерировать полный видеофайл, а затем воспроизводить его, Phoenix-4 выполняет рендеринг и отправляет видеопакеты постепенно. Это обеспечивает минимальное время до первого кадра.

Программный контроль эмоций

Одной из самых мощных функций является API управления эмоциями. Разработчики теперь могут явно определять эмоциональное состояние персонажа во время разговора.

Передавая параметр эмоции в запросе API, можно вызвать определённые поведенческие реакции. В настоящее время модель поддерживает основные эмоциональные состояния, включая:
* радость;
* грусть;
* гнев;
* удивление.

Когда эмоция установлена на радость, механизм Phoenix-4 корректирует геометрию лица, чтобы создать искреннюю улыбку, воздействуя на щёки и глаза, а не только на рот. Это форма условной генерации видео, где на выходе влияют как фонемы преобразования текста в речь, так и эмоциональный вектор.

Создание реплик

Для создания персонализированной «реплики» (цифрового двойника) требуется всего 2 минуты видеоматериала для обучения. После завершения обучения «реплика» может быть развёрнута через Tavus CVI SDK.

Рабочий процесс:
1. Обучите: загрузите 2 минуты речи человека, чтобы создать уникальный replica_id.
2. Разверните: используйте конечную точку POST /conversations, чтобы начать сеанс.
3. Настройте: установите personaid и conversationname.
4. Подключите: свяжите предоставленный URL WebRTC с вашим фронтенд-видеокомпонентом.

Ключевые выводы

* Рендеринг с гауссовой диффузией: Phoenix-4 выходит за рамки традиционных GAN и использует гауссову диффузию, обеспечивая высококачественные, фотореалистичные движения лица и микровыражения, которые решают проблему «зыбкой долины».
* Триединство ИИ (Ворон, Воробей, Феникс): архитектура основана на трёх различных моделях: Ворон-1 для эмоционального восприятия, Воробей-1 для управления временем беседы и Phoenix-4 для окончательного синтеза видео.
* Ультранизкая задержка: оптимизированная для диалогового видеоинтерфейса (CVI), модель обеспечивает сквозную задержку менее 600 мс, используя WebRTC для потоковой передачи видеопакетов в реальном времени.
* Программный контроль эмоций: вы можете использовать API управления эмоциями, чтобы указать такие состояния, как радость, грусть, гнев или удивление, которые динамически корректируют геометрию лица персонажа и выражения.
* Быстрое обучение реплик: создание персонализированного цифрового двойника (реплики) высокоэффективно: требуется всего 2 минуты видеоматериала для обучения уникальной идентичности для развёртывания через Tavus SDK.

1. Какие инновационные технологии используются в модели Phoenix-4 для достижения эмоционального интеллекта в реальном времени?

В модели Phoenix-4 используется трёхкомпонентная архитектура, включающая модели «Ворон-1» для анализа эмоционального контекста, «Воробей-1» для управления ходом беседы и «Феникс-4» для рендеринга видео. Также применяется запатентованная модель рендеринга с гауссовой диффузией, которая позволяет рассчитывать сложные движения лица и обеспечивает фотореалистичность видео в реальном времени.

2. Какие преимущества предоставляет модель Phoenix-4 по сравнению с традиционными подходами, основанными на генеративно-состязательных сетях (GAN)?

Модель Phoenix-4 использует гауссову диффузию вместо традиционных GAN, что позволяет ей лучше справляться с пространственной согласованностью и генерировать высокоточные кадры со скоростью 30 кадров в секунду (fps). Это обеспечивает более плавное и реалистичное взаимодействие, поддерживая иллюзию жизни.

3. Какие эмоциональные состояния поддерживает модель Phoenix-4 и как они влияют на поведение цифрового персонажа?

Модель Phoenix-4 поддерживает основные эмоциональные состояния: радость, грусть, гнев и удивление. Эти состояния динамически корректируют геометрию лица персонажа и выражения, создавая соответствующие поведенческие реакции. Например, при установке эмоции на радость механизм Phoenix-4 корректирует геометрию лица для создания искренней улыбки.

4. Какие шаги необходимо выполнить для создания персонализированной «реплики» (цифрового двойника) с использованием модели Phoenix-4?

Для создания персонализированной «реплики» необходимо выполнить следующие шаги:
1. Обучить модель: загрузить 2 минуты речи человека для создания уникального replica_id.
2. Развернутть: использовать конечную точку POST /conversations для начала сеанса.
3. Настроить: установить personaid и conversationname.
4. Подключить: связать предоставленный URL WebRTC с вашим фронтенд-видеокомпонентом.

5. Какие технические характеристики обеспечивают низкую задержку в модели Phoenix-4?

Низкая задержка в модели Phoenix-4 обеспечивается за счёт архитектуры «сначала поток» и использования WebRTC для потоковой передачи видеоданных непосредственно в браузер клиента. Это позволяет выполнять рендеринг и отправку видеопакетов постепенно, обеспечивая минимальное время до первого кадра и сквозную задержку диалога менее 600 мс.

Источник