Недавние достижения в области улучшения речи (SE) вышли за рамки традиционных методов маскировки или прогнозирования сигналов. Вместо этого используются предварительно обученные аудиомодели для извлечения более богатых и передаваемых признаков. Такие модели, как WavLM, извлекают значимые аудиовложения, которые повышают производительность SE.
Некоторые подходы используют эти вложения для прогнозирования масок или комбинируют их со спектральными данными для повышения точности. Другие исследуют генеративные методы, используя нейронные вокодеры для реконструкции чистой речи непосредственно из зашумлённых вложений.
Хотя эти методы эффективны, они часто предполагают заморозку предварительно обученных моделей или требуют тщательной настройки, что ограничивает адаптивность и увеличивает вычислительные затраты, усложняя перенос на другие задачи.
Лёгкий и гибкий метод улучшения речи от MiLM Plus, Xiaomi Inc.
Исследователи из MiLM Plus, Xiaomi Inc., представляют лёгкий и гибкий метод улучшения речи, использующий предварительно обученные модели.
1. Зашумлённая речь проходит через предварительно обученный аудиокодер, который генерирует зашумлённые аудиовложения.
2. Затем небольшой шумоподавляющий кодер очищает эти вложения, чтобы получить более чистые версии.
3. Наконец, вокодер преобразует очищенные вложения обратно в речь.
Аудиокодер и вокодер обучаются отдельно, что делает систему адаптируемой к таким задачам, как дереверберация или разделение.
Эксперименты показали, что генеративные модели превосходят дискриминантные по качеству речи и точности передачи голоса. Несмотря на свою простоту, система высокоэффективна и даже превосходит ведущую модель SE в тестах на прослушивание.
Компоненты системы улучшения речи
1. Предварительно обученный аудиокодер: генерирует зашумлённые аудиовложения из зашумлённой речи.
2. Шумоподавляющий кодер: очищает зашумлённые вложения, чтобы получить более чистые версии.
3. Вокодер: преобразует очищенные вложения обратно в речь.
Во время обучения шумоподавляющий кодер минимизирует разницу между зашумленными и чистыми вложениями, оба из которых генерируются параллельно из парных образцов речи, используя среднеквадратичную ошибку. Этот кодер построен с использованием архитектуры ViT со стандартными слоями активации и нормализации.
Для вокодера обучение проводится в режиме самоконтроля с использованием только чистых речевых данных. Вокодер учится восстанавливать речевые сигналы из аудиовложений, прогнозируя коэффициенты Фурье, которые затем преобразуются обратно в аудио через обратное кратковременное преобразование Фурье.
Оценка системы
Оценка показала, что генеративные аудиокодеры, такие как Dasheng, последовательно превосходят дискриминантные. На наборе данных DNS1 Dasheng достиг показателя сходства говорящего 0,881, тогда как WavLM и Whisper набрали 0,486 и 0,489 соответственно.
С точки зрения качества речи, неинтрузивные метрики, такие как DNSMOS и NISQAv2, показали заметные улучшения даже при использовании небольших шумоподавляющих кодеров. Например, ViT3 достиг DNSMOS 4,03 и NISQAv2 4,41.
Субъективные тесты на прослушивание с участием 17 участников показали, что Dasheng получил среднюю оценку мнения (MOS) 3,87, превзойдя Demucs с 3,11 и LMS с 2,98, что подчёркивает его высокие перцептивные характеристики.
В заключение, исследование представляет практическую и адаптивную систему улучшения речи, которая опирается на предварительно обученные генеративные аудиокодеры и вокодеры, избегая необходимости полной настройки модели. Благодаря очистке аудиовложений с помощью лёгкого кодера и реконструкции речи с помощью предварительно обученного вокодера система обеспечивает как вычислительную эффективность, так и высокие показатели производительности.
1. Какие методы улучшения речи используются в статье и чем они отличаются от традиционных?
В статье описаны методы улучшения речи, которые используют предварительно обученные аудиомодели для извлечения более богатых и передаваемых признаков. В отличие от традиционных методов маскировки или прогнозирования сигналов, эти методы позволяют повысить производительность систем улучшения речи.
2. Какие компоненты включает в себя система улучшения речи, представленная в статье?
Система улучшения речи включает в себя три компонента: предварительно обученный аудиокодер, шумоподавляющий кодер и вокодер. Аудиокодер генерирует зашумлённые аудиовложения из зашумлённой речи, шумоподавляющий кодер очищает эти вложения, а вокодер преобразует очищенные вложения обратно в речь.
3. Почему система улучшения речи, представленная в статье, считается лёгкой и гибкой?
Система улучшения речи считается лёгкой и гибкой, потому что аудиокодер и вокодер обучаются отдельно, что делает систему адаптируемой к различным задачам, таким как дереверберация или разделение. Это позволяет использовать систему в различных условиях и для различных задач.
4. Какие преимущества имеет генеративный метод улучшения речи по сравнению с дискриминантным?
Генеративные модели превосходят дискриминантные по качеству речи и точности передачи голоса. Они также более адаптивны и эффективны, что позволяет им достигать высоких показателей производительности при меньших вычислительных затратах.
5. Какие метрики использовались для оценки качества речи в статье?
Для оценки качества речи использовались неинтрузивные метрики, такие как DNSMOS и NISQAv2, а также субъективные тесты на прослушивание с участием участников. Эти метрики позволили оценить как объективные, так и перцептивные характеристики системы улучшения речи.