Знакомьтесь: Kani-TTS-2 — модель синтеза речи с открытым исходным кодом на 400 млн параметров, которая работает в 3 ГБ видеопамяти и поддерживает клонирование голоса

Команда nineninesix.ai выпустила новую модель синтеза речи с открытым исходным кодом — Kani-TTS-2. Эта модель отличается от традиционных систем синтеза речи, требующих больших вычислительных мощностей. Она обрабатывает аудио как язык, обеспечивая высококачественный синтез речи при удивительно низком объёме занимаемой памяти.

Архитектура: LFM2 и NanoCodec

Kani-TTS-2 следует философии «Аудио как язык». Модель не использует традиционные конвейеры мел-спектрограмм. Вместо этого она преобразует необработанный аудиосигнал в дискретные токены с помощью нейронного кодека.

Система основана на двухэтапном процессе:

1. Основа языка: модель построена на архитектуре LiquidAI LFM2 (350 млн параметров). Эта основа генерирует «намерение аудио», предсказывая следующие аудиотокены. Поскольку LFM (Liquid Foundation Models) разработаны для повышения эффективности, они обеспечивают более быструю альтернативу стандартным трансформерам.
2. Нейронный кодек: он использует NVIDIA NanoCodec для преобразования этих токенов в звуковые сигналы с частотой 22 кГц.

Используя эту архитектуру, модель улавливает человеческую просодию — ритм и интонацию речи — без «роботизированных» артефактов, присущих старым системам синтеза речи.

Эффективность: 10 000 часов за 6 часов

Показатели обучения для Kani-TTS-2 — настоящий мастер-класс по оптимизации. Английская модель была обучена на 10 000 часов высококачественных речевых данных.

Впечатляет не только масштаб, но и скорость обучения. Исследовательская группа обучила модель всего за 6 часов, используя кластер из 8 графических процессоров NVIDIA H100. Это доказывает, что для обучения масштабных наборов данных больше не требуются недели вычислительного времени, если использовать эффективные архитектуры, такие как LFM2.

Клонирование голоса без примеров

Ключевой особенностью для разработчиков является клонирование голоса без примеров. В отличие от традиционных моделей, которым требуется тонкая настройка для новых голосов, Kani-TTS-2 использует встраивания динамиков.

Как это работает: вы предоставляете короткий эталонный аудиоклип.

Результат: модель извлекает уникальные характеристики этого голоса и применяет их к генерируемому тексту мгновенно.

С точки зрения развёртывания модель отличается высокой доступностью:

* Количество параметров: 400 млн (0,4 млрд) параметров.
* Скорость: модель имеет коэффициент реального времени (RTF) 0,2. Это означает, что она может генерировать 10 секунд речи примерно за 2 секунды.
* Аппаратные требования: для работы требуется всего 3 ГБ видеопамяти, что делает её совместимой с потребительскими видеокартами, такими как RTX 3060 или 4050.
* Лицензия: выпущена под лицензией Apache 2.0, что позволяет использовать её в коммерческих целях.

Основные выводы:

* Эффективная архитектура: модель использует 400-миллионную параметрическую основу, основанную на LiquidAI LFM2 (350 млн). Такой подход «Аудио как язык» обрабатывает речь как дискретные токены, что обеспечивает более быструю обработку и более человеческую интонацию по сравнению с традиционными архитектурами.
* Быстрое обучение в масштабе: Kani-TTS-2-EN была обучена на 10 000 часах высококачественных речевых данных всего за 6 часов с использованием 8 графических процессоров NVIDIA H100.
* Мгновенное клонирование голоса без примеров: нет необходимости в тонкой настройке для воспроизведения определённого голоса. Предоставив короткий эталонный аудиоклип, модель использует встраивания динамиков для мгновенного синтеза текста голосом целевого диктора.
* Высокая производительность на периферийном оборудовании: с коэффициентом реального времени (RTF) 0,2 модель может генерировать 10 секунд аудио примерно за 2 секунды. Она требует всего 3 ГБ видеопамяти, что делает её полностью функциональной на потребительских видеокартах, таких как RTX 3060.
* Удобная для разработчиков лицензия: выпущенная под лицензией Apache 2.0, Kani-TTS-2 готова к коммерческой интеграции. Она предлагает локальную альтернативу дорогостоящим закрытым API синтеза речи с низкой задержкой.

1. Какие ключевые особенности отличают модель Kani-TTS-2 от традиционных систем синтеза речи?

Ответ: модель Kani-TTS-2 отличается от традиционных систем синтеза речи тем, что работает при низком объёме занимаемой памяти и использует архитектуру «Аудио как язык». Вместо традиционных конвейеров мел-спектрограмм она преобразует необработанный аудиосигнал в дискретные токены с помощью нейронного кодека. Также модель способна улавливать человеческую просодию — ритм и интонацию речи — без «роботизированных» артефактов.

2. Какие аппаратные требования необходимы для работы модели Kani-TTS-2?

Ответ: для работы модели Kani-TTS-2 требуется всего 3 ГБ видеопамяти. Это делает её совместимой с потребительскими видеокартами, такими как RTX 3060 или 4050.

3. Какие преимущества предоставляет модель Kani-TTS-2 с точки зрения обучения и производительности?

Ответ: модель Kani-TTS-2 демонстрирует впечатляющую скорость обучения. Английская модель была обучена на 10 000 часов высококачественных речевых данных всего за 6 часов, используя кластер из 8 графических процессоров NVIDIA H100. Кроме того, модель имеет коэффициент реального времени (RTF) 0,2, что означает, что она может генерировать 10 секунд речи примерно за 2 секунды.

4. Какие возможности предоставляет модель Kani-TTS-2 для разработчиков?

Ответ: разработчики могут использовать модель Kani-TTS-2 для мгновенного клонирования голоса без необходимости тонкой настройки для новых голосов. Предоставив короткий эталонный аудиоклип, модель извлекает уникальные характеристики этого голоса и применяет их к генерируемому тексту. Модель также имеет удобную для разработчиков лицензию Apache 2.0, что позволяет использовать её в коммерческих целях.

5. Какие выводы можно сделать о модели Kani-TTS-2 на основе предоставленных данных?

Ответ: на основе предоставленных данных можно сделать вывод, что модель Kani-TTS-2 представляет собой эффективную архитектуру для синтеза речи с открытым исходным кодом. Она обеспечивает быструю обработку и более человеческую интонацию по сравнению с традиционными архитектурами, а также позволяет мгновенно клонировать голос без необходимости тонкой настройки. Кроме того, модель имеет высокую производительность на периферийном оборудовании и удобную для разработчиков лицензию.

Источник