Google AI выпускает WAXAL: мультилингвальный набор данных для обучения моделей автоматического распознавания речи и синтеза речи

Технологии обработки речи всё ещё сталкиваются с проблемой распределения данных. Системы автоматического распознавания речи (ASR) и синтеза речи (TTS) быстро совершенствовались для языков с большими ресурсами, но многие африканские языки по-прежнему плохо представлены в открытых корпусах.

Команда исследователей из Google и других организаций представляет WAXAL — открытый мультилингвальный набор данных для африканских языков, охватывающий 24 языка. Он включает в себя компонент ASR, построенный на основе транскрибированной естественной речи, и компонент TTS, построенный на основе студийных записей одного диктора.

Структура WAXAL

WAXAL структурирован как два отдельных ресурса, поскольку ASR и TTS имеют разные требования к данным.

ASR: ориентирована на разнообразных дикторов, естественные условия и спонтанное производство речи.

TTS: ориентирована на контролируемые условия записи, фонетически сбалансированные скрипты и более чистое аудио одного диктора, подходящее для синтеза.

Сбор данных для ASR

Записи производились в естественных условиях каждого диктора, каждая длительностью не менее 15 секунд. В процессе сбора данных отслеживались такие метаданные, как возраст диктора, пол, язык и условия записи.

Только часть собранного аудио была расшифрована: исследовательская группа сообщает, что текущий выпуск ASR включает транскрипции примерно 10% от общего объёма записанного аудио. Эти транскрипции были выполнены платными местными лингвистами, использующими местные скрипты, где это было возможно, и транслитерацию английского алфавита в противном случае.

Это важно для тех, кто создаёт многоязычные системы ASR. Речь, вызванная изображением, обычно отражает более естественные лексические и синтаксические вариации, чем строгое чтение по сценарию, но также усложняет транскрипцию и увеличивает вариативность между дикторами, доменами и акустическими условиями.

Сбор данных для TTS

Часть WAXAL, предназначенная для TTS, была собрана совсем иначе. Набор данных TTS был разработан для высококачественных синтетических голосов одного диктора. Для каждого целевого языка исследовательская группа создала фонетически сбалансированный скрипт примерно из 108 500 слов.

Они привлекли 72 участников сообщества, поровну разделённых между мужчинами и женщинами, и записали их в профессиональных студийных условиях, чтобы уменьшить фоновый шум и сохранить качество звука. Целью было примерно 16 часов чистого отредактированного аудио на каждого диктора.

Это правильный выбор дизайна для синтеза. Модели TTS гораздо больше внимания уделяют согласованности произношения, условиям записи, качеству микрофона и идентичности диктора, чем системы ASR. Поэтому WAXAL избегает распространённой ошибки, когда «речевые данные» рассматриваются как единая категория, хотя на практике ASR и TTS требуют совершенно разных сигналов управления.

Ключевые выводы

WAXAL — это открытый мультилингвальный речевой корпус, созданный для африканских языков с ограниченными ресурсами для ASR и TTS.

Данные для ASR используют естественную речь, вызванную изображением, собранную в реальных условиях.

Данные для TTS используют студийные записи одного диктора с фонетически сбалансированными скриптами.

Ознакомиться с документом и набором данных можно здесь. Подписывайтесь на нас в Twitter, присоединяйтесь к нашему сообществу в SubReddit (более 120 тысяч участников) и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.

1. Какие проблемы существуют в области автоматического распознавания речи (ASR) и синтеза речи (TTS) для африканских языков?

В статье указано, что технологии обработки речи сталкиваются с проблемой распределения данных. Системы ASR и TTS быстро совершенствовались для языков с большими ресурсами, но многие африканские языки по-прежнему плохо представлены в открытых корпусах.

2. Какие особенности имеет набор данных WAXAL, разработанный для африканских языков?

WAXAL — это открытый мультилингвальный речевой корпус, охватывающий 24 африканских языка. Он включает в себя компонент ASR, построенный на основе транскрибированной естественной речи, и компонент TTS, построенный на основе студийных записей одного диктора. Данные для ASR используют естественную речь, вызванную изображением, собранную в реальных условиях. Данные для TTS используют студийные записи одного диктора с фонетически сбалансированными скриптами.

3. Какие методы использовались для сбора данных для компонента ASR в наборе WAXAL?

Часть WAXAL, предназначенная для ASR, была собрана с использованием речи, вызванной изображением. Дикторам показывали изображения и просили описать то, что они видели, на своём родном языке. Записи производились в естественных условиях каждого диктора, каждая длительностью не менее 15 секунд. В процессе сбора данных отслеживались такие метаданные, как возраст диктора, пол, язык и условия записи. Только часть собранного аудио была расшифрована.

4. Какие особенности имеет компонент TTS в наборе данных WAXAL?

Часть WAXAL, предназначенная для TTS, была собрана в профессиональных студийных условиях. Для каждого целевого языка исследовательская группа создала фонетически сбалансированный скрипт примерно из 108 500 слов. Они привлекли 72 участника сообщества, поровну разделённых между мужчинами и женщинами, и записали их в профессиональных студийных условиях, чтобы уменьшить фоновый шум и сохранить качество звука. Целью было примерно 16 часов чистого отредактированного аудио на каждого диктора.

5. Почему важно разделение данных для ASR и TTS в наборе WAXAL?

Такое разделение важно технически: набор данных, полезный для надёжного распознавания в шумных условиях реального мира, обычно отличается от набора данных, который используется для создания моделей TTS с одним диктором. Это правильный выбор дизайна для синтеза. Модели TTS гораздо больше внимания уделяют согласованности произношения, условиям записи, качеству микрофона и идентичности диктора, чем системы ASR. Поэтому WAXAL избегает распространённой ошибки, когда «речевые данные» рассматриваются как единая категория, хотя на практике ASR и TTS требуют совершенно разных сигналов управления.

Источник