Компания Inworld AI представила Inworld TTS-1.5 — обновление линейки TTS-1, предназначенное для голосовых агентов в режиме реального времени со строгими ограничениями по задержкам, качеству и стоимости.
Основные характеристики TTS-1.5:
- Выразительность и стабильность. TTS-1.5 обеспечивает более выразительную речь и более высокую стабильность по сравнению с предыдущими поколениями.
- Производительность в реальном времени. TTS-1.5 фокусируется на времени отклика P90 до первого аудио, которое составляет менее 250 мс для TTS-1.5 Max и менее 130 мс для TTS-1.5 Mini.
- Поддержка потоковой передачи. TTS-1.5 поддерживает потоковую передачу через WebSocket, что позволяет начать синтез и воспроизведение сразу после генерации первого аудиофрагмента.
Конфигурации TTS-1.5:
- TTS-1.5 Max рекомендуется для большинства приложений, так как он обеспечивает баланс между задержкой около 200 мс и более высокой стабильностью и качеством.
- TTS-1.5 Mini предназначен для задач, чувствительных к задержкам, таких как игры в реальном времени или сверхчувствительные голосовые агенты, где важна каждая миллисекунда.
Выразительность, стабильность и позиция в бенчмарках
TTS-1.5 обеспечивает примерно на 30 % больший диапазон выразительности и примерно на 40 % более высокую стабильность по сравнению с предыдущими моделями.
Выразительность включает такие функции, как просодия, акцент и эмоциональные вариации. Стабильность измеряется такими показателями, как частота ошибок в словах и согласованность вывода в длинных последовательностях и различных подсказках. Снижение частоты ошибок в словах уменьшает такие проблемы, как усечённые предложения, непреднамеренные замены слов или артефакты.
Ценовой профиль и стоимость на потребительском уровне
TTS-1.5 предлагается в двух основных конфигурациях:
- TTS-1.5 Mini стоит 5 долларов за 1 миллион символов, что составляет около 0,005 долларов за минуту речи.
- TTS-1.5 Max стоит 10 долларов за 1 миллион символов, что составляет около 0,01 доллара за минуту.
Такой ценовой профиль позволяет непрерывно использовать TTS в продуктах с высоким уровнем использования, таких как голосовые помощники, образовательные платформы или линии поддержки клиентов, без того, чтобы TTS стал доминирующей переменной стоимостью.
Многоязычная поддержка, клонирование голоса и варианты развёртывания
TTS-1.5 поддерживает 15 языков, включая английский, испанский, французский, корейский, голландский, китайский, немецкий, итальянский, японский, польский, португальский, русский, хинди, арабский и иврит.
Система обеспечивает мгновенное клонирование голоса и профессиональное клонирование голоса. Мгновенное клонирование голоса может создать собственный голос примерно из 15 секунд аудио и доступно непосредственно на портале Inworld и через API. Профессиональное клонирование голоса использует не менее 30 минут чистого аудио, причём для достижения наилучших результатов рекомендуется использовать 20 минут или более.
Для развёртывания TTS-1.5 доступен как облачный API, так и решение для установки на собственном оборудовании, где полная модель работает внутри инфраструктуры клиента для обеспечения суверенитета данных и соответствия требованиям.
Ключевые выводы:
- TTS 1.5 обеспечивает производительность в реальном времени, время отклика P90 до первого аудио составляет менее 250 мс для модели Max и менее 130 мс для модели Mini, что примерно в 4 раза быстрее, чем у предыдущего поколения.
- Модель увеличивает выразительность примерно на 30 % и улучшает стабильность примерно на 40 % за счёт снижения частоты ошибок в словах.
- Цены оптимизированы для потребительского масштаба: TTS 1.5 Mini стоит около 5 долларов за 1 миллион символов, а TTS 1.5 Max — около 10 долларов за 1 миллион символов, что значительно дешевле в минуту, чем у многих конкурирующих систем.
- TTS 1.5 поддерживает 15 языков и предлагает мгновенное и профессиональное клонирование голоса, позволяя создавать собственные и фирменные голоса на основе коротких эталонных аудиозаписей или более длинных записанных наборов данных.
- Система доступна как в виде облачного API, так и в виде решения для установки на собственном оборудовании, и интегрируется с существующими стеками голосовых агентов, что делает её пригодной для производственных агентов в реальном времени, требующих явных гарантий по задержкам, качеству и контролю данных.
1. Какие основные характеристики отличают Inworld TTS-1.5 от предыдущих поколений?
Ответ: Inworld TTS-1.5 отличается более выразительной речью, более высокой стабильностью, улучшенной производительностью в реальном времени с меньшим временем отклика (менее 250 мс для TTS-1.5 Max и менее 130 мс для TTS-1.5 Mini), поддержкой потоковой передачи через WebSocket.
2. Какие конфигурации TTS-1.5 предлагает компания Inworld AI и для каких задач они предназначены?
Ответ: Inworld AI предлагает две конфигурации TTS-1.5: TTS-1.5 Max, который рекомендуется для большинства приложений и обеспечивает баланс между задержкой и качеством, и TTS-1.5 Mini, предназначенный для задач, чувствительных к задержкам, таких как игры в реальном времени или сверхчувствительные голосовые агенты.
3. Какие языки поддерживает TTS-1.5 и какие возможности предоставляет для клонирования голоса?
Ответ: TTS-1.5 поддерживает 15 языков, включая английский, испанский, французский, корейский, голландский, китайский, немецкий, итальянский, японский, польский, португальский, русский, хинди, арабский и иврит. Система обеспечивает мгновенное клонирование голоса из 15 секунд аудио и профессиональное клонирование голоса из 30 минут аудио (рекомендуется использовать 20 минут или более).
4. Какие преимущества предлагает TTS-1.5 с точки зрения стоимости по сравнению с конкурирующими системами?
Ответ: TTS-1.5 предлагает оптимизированные цены для потребительского масштаба: TTS-1.5 Mini стоит около 5 долларов за 1 миллион символов, а TTS-1.5 Max — около 10 долларов за 1 миллион символов, что значительно дешевле в минуту, чем у многих конкурирующих систем.
5. Какие варианты развёртывания предлагает Inworld AI для TTS-1.5?
Ответ: Для развёртывания TTS-1.5 доступен как облачный API, так и решение для установки на собственном оборудовании, где полная модель работает внутри инфраструктуры клиента для обеспечения суверенитета данных и соответствия требованиям.