Neuphonic выпустила NeuTTS Air — речевую языковую модель с открытым исходным кодом для преобразования текста в речь (TTS), предназначенную для локального запуска в режиме реального времени на процессорах.
Основные характеристики модели
* Параметры: модель содержит 748 миллионов параметров (архитектура Qwen2) и представлена в квантованиях GGUF (Q4/Q8), что позволяет делать выводы с помощью llama.cpp/llama-cpp-python без облачных зависимостей.
* Развёртывание на устройстве: система распределена в GGUF (Q4/Q8) с путями для процессоров; подходит для ноутбуков, телефонов и плат типа Raspberry Pi.
* Мгновенное клонирование диктора: перенос стиля с ~3 секунд эталонного аудио (эталонный WAV + расшифровка).
* Компактный стек LM+codec: основа Qwen 0.5B в сочетании с аудиокодеком NeuCodec (0,8 кбит/с / 24 кГц) для балансировки задержки, занимаемой памяти и качества вывода.
Архитектура модели и путь выполнения
* Основа: Qwen 0.5B используется как облегчённая языковая модель для управления генерацией речи; размещённый артефакт сообщается как 748 миллионов параметров в архитектуре Qwen2 на Hugging Face.
* Кодек: NeuCodec обеспечивает акустическую токенизацию/декодирование с низким битрейтом; он нацелен на 0,8 кбит/с с частотой вывода 24 кГц, что позволяет создавать компактные представления для эффективного использования на устройстве.
* Квантование и формат: доступны предварительно созданные основы GGUF (Q4/Q8); репозиторий включает инструкции для llama-cpp-python и дополнительный путь декодера ONNX.
* Зависимости: использует espeak для фонемизации; примеры и записная книжка Jupyter предоставлены для сквозного синтеза.
Фокус на производительности на устройстве
NeuTTS Air демонстрирует «генерацию в реальном времени на устройствах среднего уровня» и предлагает настройки для процессоров по умолчанию; квантование GGUF предназначено для ноутбуков и одноплатных компьютеров.
Рабочий процесс клонирования голоса
Для NeuTTS Air требуются:
* (1) эталонный WAV;
* (2) текст расшифровки для эталона.
Он кодирует ссылку в стиле токенов, а затем синтезирует произвольный текст в тембре эталонного диктора. Команда Neuphonic рекомендует использовать чистое моноаудио длительностью 3–15 секунд и предоставляет предварительно закодированные образцы.
Конфиденциальность, ответственность и водяные знаки
Neuphonic ориентирует модель на конфиденциальность на устройстве (никакой аудио/текст не покидает машину без одобрения пользователя) и отмечает, что весь сгенерированный аудиоконтент включает в себя водяной знак Perth (Perceptual Threshold) для поддержки ответственного использования и происхождения.
Сравнение с аналогами
Существуют открытые локальные системы TTS (например, конвейеры на базе GGUF), но NeuTTS Air отличается тем, что объединяет небольшую языковую модель и нейронный кодек с мгновенным клонированием, квантованиями для процессоров и водяными знаками под разрешительной лицензией.
Наши комментарии
Основное внимание уделяется компромиссам в системе: основа Qwen-класса ~0,7B с квантованием GGUF в сочетании с NeuCodec на 0,8 кбит/с / 24 кГц — это прагматичный рецепт для TTS в реальном времени только для процессора, который сохраняет тембр с помощью ~3–15-секундных эталонных образцов, сохраняя при этом предсказуемость задержки и памяти.
Лицензирование Apache-2.0 и встроенный механизм водяных знаков удобны для развёртывания, но публикация RTF/задержки на обычных процессорах и графиков качества клонирования по сравнению с кривыми длины эталона позволила бы провести тщательное сравнение с существующими локальными конвейерами.
Ознакомьтесь с [карточкой модели на Hugging Face](ссылка) и [страницей GitHub](ссылка). Не стесняйтесь посетить нашу [страницу GitHub](ссылка), чтобы узнать о руководствах, кодах и ноутбуках. Также подписывайтесь на нас в [Twitter](ссылка) и присоединяйтесь к нашему [ML SubReddit](ссылка) с более чем 100 тысячами участников и подписывайтесь на нашу [рассылку](ссылка). А если вы в Telegram, присоединяйтесь к нам и там!
1. Какие основные характеристики модели NeuTTS Air и как они влияют на её использование?
Основные характеристики модели NeuTTS Air включают:
* 748 миллионов параметров в архитектуре Qwen2;
* квантования GGUF (Q4/Q8), что позволяет делать выводы с помощью llama.cpp/llama-cpp-python без облачных зависимостей;
* система распределена в GGUF (Q4/Q8) с путями для процессоров;
* мгновенное клонирование диктора с использованием эталонного аудио (WAV + расшифровка);
* компактный стек LM+codec, сочетающий Qwen 0.5B и аудиокодек NeuCodec.
Эти характеристики обеспечивают генерацию речи в реальном времени на устройствах среднего уровня и позволяют использовать модель на ноутбуках, телефонах и платах типа Raspberry Pi.
2. Какие преимущества предлагает NeuTTS Air по сравнению с аналогичными системами TTS?
NeuTTS Air отличается от других открытых локальных систем TTS тем, что объединяет небольшую языковую модель и нейронный кодек с мгновенным клонированием, квантованиями для процессоров и водяными знаками под разрешительной лицензией. Это обеспечивает более эффективное использование на устройстве и сохранение тембра с помощью эталонных образцов.
3. Какие требования необходимы для работы NeuTTS Air и как осуществляется процесс клонирования голоса?
Для работы NeuTTS Air требуются:
* эталонный WAV;
* текст расшифровки для эталона.
Процесс клонирования голоса включает кодирование ссылки в стиле токенов и синтез произвольного текста в тембре эталонного диктора. Команда Neuphonic рекомендует использовать чистое моноаудио длительностью 3–15 секунд и предоставляет предварительно закодированные образцы.
4. Какие меры предпринимаются для обеспечения конфиденциальности и ответственного использования модели NeuTTS Air?
Neuphonic ориентирует модель на конфиденциальность на устройстве, обеспечивая, что никакой аудио- или текст не покидает машину без одобрения пользователя. Весь сгенерированный аудиоконтент включает водяной знак Perth (Perceptual Threshold) для поддержки ответственного использования и происхождения.
5. Какие лицензии и механизмы водяных знаков используются в модели NeuTTS Air?
Модель NeuTTS Air лицензирована под Apache-2.0 и включает встроенный механизм водяных знаков. Это удобно для развёртывания и обеспечивает контроль над использованием модели.