StepFun AI выпускает Step-Audio-EditX: новую модель для редактирования аудио на уровне открытых исходников, превосходящую в выразительном и итеративном редактировании

Компания StepFun AI представила Step-Audio-EditX — модель для редактирования аудио, основанную на языковой модели с 3 миллиардами параметров. Она превращает редактирование выразительной речи в операцию, подобную работе с текстом на уровне токенов, вместо обработки сигналов на уровне волновых форм.

Почему разработчикам важно контролируемое преобразование текста в речь (TTS)?

Большинство систем TTS без дополнительных данных (zero shot TTS) копируют эмоции, стиль, акцент и тембр напрямую из эталонного аудио. Они могут звучать естественно, но контроль над ними слабый. Промпты в виде текста помогают только для голосов в домене, а клонированный голос часто игнорирует запрошенные эмоции или стиль речи.

Архитектура Step-Audio-EditX

Step-Audio-EditX использует двойной кодовый токенизатор Step-Audio. Речь преобразуется в два потока токенов: лингвистический (16,7 Гц, кодовая книга на 1024 записи) и семантический (25 Гц, кодовая книга на 4096 записей). Токены чередуются в соотношении 2:3. Токензатор сохраняет информацию о просодии и эмоциях, поэтому она не полностью разделена.

На основе этого токенизатора команда StepFun создаёт аудиоязыковую модель с 3 миллиардами параметров. Модель инициализируется из текстовой языковой модели, затем обучается на смешанном корпусе с соотношением чистого текста и аудио-токенов в соотношении 1:1 в стиле чата. Аудиоязыковая модель читает текстовые токены, аудиотокены или оба и всегда генерирует аудиотокены с двойной кодовой книгой в качестве вывода.

Отдельный аудиодекодер занимается реконструкцией. Модуль, основанный на диффузионном трансформаторе, предсказывает мел-спектрограммы из аудио-токенов, эталонного аудио и встраивания динамика, а вокадер BigVGANv2 преобразует мел-спектрограммы в волновую форму.

Обучение на основе большого запаса синтетических данных вместо сложных энкодеров

Ключевая идея — обучение с большим запасом. Модель дообучается на тройках и четвёрках, где текст остаётся неизменным, а изменяется только один атрибут с чётким зазором.

Для TTS без дополнительных данных Step-Audio-EditX использует высококачественный внутренний набор данных, в основном на китайском и английском языках, с небольшим количеством кантонского и сычуаньского диалектов, и около 60 000 динамиков. Данные охватывают широкий диапазон вариаций стиля и эмоций между и внутри динамиков.

Редактирование эмоций и стиля речи

Для редактирования эмоций и стиля речи команда создаёт синтетические тройки с большим запасом (текст, нейтральное аудио, аудио с эмоциями или стилем). Голосовые актёры записывают около 10-секундных клипов для каждой эмоции и стиля. Затем StepTTS производит нулевые версии для того же текста и диктора. Модель оценки запаса, обученная на небольшом наборе данных с метками, оценивает пары по шкале от 1 до 10, и сохраняются только пары с оценкой не менее 6.

Паралингвистическое редактирование

Паралингвистическое редактирование, которое охватывает дыхание, смех, заполненные паузы и другие теги, использует полусинтетическую стратегию на основе набора данных NVSpeech. Команда исследования создаёт четвёрки, где целью является исходное аудио NVSpeech и расшифровка, а входными данными — клонированная версия с удалёнными тегами из текста. Это даёт возможность редактировать временную область без модели запаса.

Данные для обучения с подкреплением

Данные для обучения с подкреплением используют два источника предпочтений. Аннотаторы-люди оценивают 20 кандидатов по запросу по 5-балльной шкале на предмет правильности, просодии и естественности, и сохраняются пары с разницей более 3 баллов. Модель понимания оценивает эмоции и стиль речи по шкале от 1 до 10, и сохраняются пары с разницей более 8 баллов.

Пост-тренинг

Пост-тренинг состоит из двух этапов: контролируемая точная настройка, за которой следует PPO.

В контролируемой точной настройке системные подсказки определяют задачи TTS и редактирования в едином формате чата. Для TTS волновая форма подсказки кодируется в двойные кодовые токены, преобразуется в строковую форму и вставляется в системную подсказку в качестве информации о динамике. Пользовательское сообщение — это целевой текст, а модель возвращает новые аудиотокены. Для редактирования пользовательское сообщение включает исходные аудиотокены плюс инструкцию на естественном языке, а модель выводит отредактированные токены.

Тестирование модели Step-Audio-Edit-Test

Чтобы количественно оценить контроль, команда исследования представила Step-Audio-Edit-Test. Он использует Gemini 2.5 Pro в качестве языковой модели для оценки эмоций, стиля речи и паралингвистической точности.

Основные выводы

* Step Audio EditX использует двойной кодовый токенизатор и аудиоязыковую модель с 3 миллиардами параметров, чтобы обрабатывать речь как дискретные токены и редактировать аудио как текст.
* Модель опирается на синтетические данные с большим запасом для эмоций, стиля речи, паралингвистических сигналов, скорости и шума, а не на дополнительные энкодеры для разделения.
* Контролируемая точная настройка плюс PPO с моделью вознаграждения на уровне токенов выравнивает аудиоязыковую модель для выполнения инструкций на естественном языке как для задач TTS, так и для редактирования.
* Тест Step Audio Edit Test с Gemini 2.5 Pro в качестве судьи показывает явный прирост точности за 3 итерации редактирования для контроля эмоций, стиля и паралингвистики как на китайском, так и на английском языках.

Step Audio EditX может пост-процессить и улучшать речь из закрытых систем TTS, а полный стек, включая код и контрольные точки, доступен в виде открытого исходного кода для разработчиков.

1. Какие преимущества предлагает Step-Audio-EditX по сравнению с традиционными системами TTS?

Ответ: Step-Audio-EditX использует двойной кодовый токенизатор и аудиоязыковую модель с 3 миллиардами параметров для обработки речи как дискретных токенов и редактирования аудио как текста. Это позволяет более гибко и точно редактировать аудио, в отличие от традиционных систем TTS, которые часто ограничены в контроле над эмоциями, стилем и другими параметрами речи.

2. Какие методы используются для обучения Step-Audio-EditX?

Ответ: Step-Audio-EditX обучается на основе большого запаса синтетических данных, где текст остаётся неизменным, а изменяется только один атрибут с чётким зазором. Это позволяет модели адаптироваться к различным стилям и эмоциям, не требуя сложных энкодеров для разделения.

3. Какие технологии используются для паралингвистического редактирования в Step-Audio-EditX?

Ответ: Паралингвистическое редактирование в Step-Audio-EditX использует полусинтетическую стратегию на основе набора данных NVSpeech. Команда исследования создаёт четвёрки, где целью является исходное аудио NVSpeech и расшифровка, а входными данными — клонированная версия с удалёнными тегами из текста. Это даёт возможность редактировать временную область без модели запаса.

4. Какие этапы включает в себя пост-тренинг Step-Audio-EditX?

Ответ: Пост-тренинг Step-Audio-EditX состоит из двух этапов: контролируемая точная настройка, за которой следует PPO. Контролируемая точная настройка использует системные подсказки для определения задач TTS и редактирования в едином формате чата. Затем следует PPO, который выравнивает аудиоязыковую модель для выполнения инструкций на естественном языке.

5. Какие выводы можно сделать о возможностях Step-Audio-EditX на основе представленного текста?

Ответ: Step Audio EditX может пост-процессить и улучшать речь из закрытых систем TTS. Модель опирается на синтетические данные с большим запасом для эмоций, стиля речи, паралингвистических сигналов, скорости и шума, а не на дополнительные энкодеры для разделения. Контролируемая точная настройка плюс PPO с моделью вознаграждения на уровне токенов выравнивает аудиоязыковую модель для выполнения инструкций на естественном языке как для задач TTS, так и для редактирования. Это показывает явный прирост точности за 3 итерации редактирования для контроля эмоций, стиля и паралингвистики как на китайском, так и на английском языках.

Источник