Inworld AI выпустила TTS-1.5 для голосовых агентов в режиме реального времени

Компания Inworld AI представила Inworld TTS-1.5 — обновление линейки TTS-1, предназначенное для голосовых агентов в режиме реального времени со строгими ограничениями по задержкам, качеству и стоимости.

Основные характеристики TTS-1.5:

Выразительность и стабильность. TTS-1.5 обеспечивает более выразительную речь и более высокую стабильность по сравнению с предыдущими поколениями.

Производительность в реальном времени. TTS-1.5 фокусируется на времени отклика P90 до первого аудио, которое составляет менее 250 мс для TTS-1.5 Max и менее 130 мс для TTS-1.5 Mini.

Поддержка потоковой передачи. TTS-1.5 поддерживает потоковую передачу через WebSocket, что позволяет начать синтез и воспроизведение сразу после генерации первого аудиофрагмента.

Конфигурации TTS-1.5:

TTS-1.5 Max рекомендуется для большинства приложений, так как он обеспечивает баланс между задержкой около 200 мс и более высокой стабильностью и качеством.

TTS-1.5 Mini предназначен для задач, чувствительных к задержкам, таких как игры в реальном времени или сверхчувствительные голосовые агенты, где важна каждая миллисекунда.

Выразительность, стабильность и позиция в бенчмарках

TTS-1.5 обеспечивает примерно на 30 % больший диапазон выразительности и примерно на 40 % более высокую стабильность по сравнению с предыдущими моделями.

Выразительность включает такие функции, как просодия, акцент и эмоциональные вариации. Стабильность измеряется такими показателями, как частота ошибок в словах и согласованность вывода в длинных последовательностях и различных подсказках. Снижение частоты ошибок в словах уменьшает такие проблемы, как усечённые предложения, непреднамеренные замены слов или артефакты.

Ценовой профиль и стоимость на потребительском уровне

TTS-1.5 предлагается в двух основных конфигурациях:

TTS-1.5 Mini стоит 5 долларов за 1 миллион символов, что составляет около 0,005 долларов за минуту речи.

TTS-1.5 Max стоит 10 долларов за 1 миллион символов, что составляет около 0,01 доллара за минуту.

Такой ценовой профиль позволяет непрерывно использовать TTS в продуктах с высоким уровнем использования, таких как голосовые помощники, образовательные платформы или линии поддержки клиентов, без того, чтобы TTS стал доминирующей переменной стоимостью.

Многоязычная поддержка, клонирование голоса и варианты развёртывания

TTS-1.5 поддерживает 15 языков, включая английский, испанский, французский, корейский, голландский, китайский, немецкий, итальянский, японский, польский, португальский, русский, хинди, арабский и иврит.

Система обеспечивает мгновенное клонирование голоса и профессиональное клонирование голоса. Мгновенное клонирование голоса может создать собственный голос примерно из 15 секунд аудио и доступно непосредственно на портале Inworld и через API. Профессиональное клонирование голоса использует не менее 30 минут чистого аудио, причём для достижения наилучших результатов рекомендуется использовать 20 минут или более.

Для развёртывания TTS-1.5 доступен как облачный API, так и решение для установки на собственном оборудовании, где полная модель работает внутри инфраструктуры клиента для обеспечения суверенитета данных и соответствия требованиям.

Ключевые выводы:

TTS 1.5 обеспечивает производительность в реальном времени, время отклика P90 до первого аудио составляет менее 250 мс для модели Max и менее 130 мс для модели Mini, что примерно в 4 раза быстрее, чем у предыдущего поколения.

Модель увеличивает выразительность примерно на 30 % и улучшает стабильность примерно на 40 % за счёт снижения частоты ошибок в словах.

Цены оптимизированы для потребительского масштаба: TTS 1.5 Mini стоит около 5 долларов за 1 миллион символов, а TTS 1.5 Max — около 10 долларов за 1 миллион символов, что значительно дешевле в минуту, чем у многих конкурирующих систем.

TTS 1.5 поддерживает 15 языков и предлагает мгновенное и профессиональное клонирование голоса, позволяя создавать собственные и фирменные голоса на основе коротких эталонных аудиозаписей или более длинных записанных наборов данных.

Система доступна как в виде облачного API, так и в виде решения для установки на собственном оборудовании, и интегрируется с существующими стеками голосовых агентов, что делает её пригодной для производственных агентов в реальном времени, требующих явных гарантий по задержкам, качеству и контролю данных.

1. Какие основные характеристики отличают Inworld TTS-1.5 от предыдущих поколений?

Ответ: Inworld TTS-1.5 отличается более выразительной речью, более высокой стабильностью, улучшенной производительностью в реальном времени с меньшим временем отклика (менее 250 мс для TTS-1.5 Max и менее 130 мс для TTS-1.5 Mini), поддержкой потоковой передачи через WebSocket.

2. Какие конфигурации TTS-1.5 предлагает компания Inworld AI и для каких задач они предназначены?

Ответ: Inworld AI предлагает две конфигурации TTS-1.5: TTS-1.5 Max, который рекомендуется для большинства приложений и обеспечивает баланс между задержкой и качеством, и TTS-1.5 Mini, предназначенный для задач, чувствительных к задержкам, таких как игры в реальном времени или сверхчувствительные голосовые агенты.

3. Какие языки поддерживает TTS-1.5 и какие возможности предоставляет для клонирования голоса?

Ответ: TTS-1.5 поддерживает 15 языков, включая английский, испанский, французский, корейский, голландский, китайский, немецкий, итальянский, японский, польский, португальский, русский, хинди, арабский и иврит. Система обеспечивает мгновенное клонирование голоса из 15 секунд аудио и профессиональное клонирование голоса из 30 минут аудио (рекомендуется использовать 20 минут или более).

4. Какие преимущества предлагает TTS-1.5 с точки зрения стоимости по сравнению с конкурирующими системами?

Ответ: TTS-1.5 предлагает оптимизированные цены для потребительского масштаба: TTS-1.5 Mini стоит около 5 долларов за 1 миллион символов, а TTS-1.5 Max — около 10 долларов за 1 миллион символов, что значительно дешевле в минуту, чем у многих конкурирующих систем.

5. Какие варианты развёртывания предлагает Inworld AI для TTS-1.5?

Ответ: Для развёртывания TTS-1.5 доступен как облачный API, так и решение для установки на собственном оборудовании, где полная модель работает внутри инфраструктуры клиента для обеспечения суверенитета данных и соответствия требованиям.

Источник