Kyutai выпустила модель Hibiki-Zero для одновременного перевода речи

Компания Kyutai представила Hibiki-Zero — новую модель для одновременного перевода речи (S2ST) и перевода речи в текст (S2TT). Система переводит исходную речь на целевой язык в режиме реального времени и обрабатывает немонотонные зависимости между словами в процессе. В отличие от предыдущих моделей, Hibiki-Zero не требует для обучения данных с выравниванием на уровне слов. Это устраняет основное препятствие для масштабирования машинного перевода на большее количество языков.

Архитектура с несколькими потоками

Hibiki-Zero — это модель, использующая только декодер. Она использует архитектуру с несколькими потоками для совместной обработки последовательностей токенов. Модель обрабатывает три конкретных потока:
* Исходный поток: аудиотокены из исходной речи.
* Целевой поток: сгенерированные аудиотокены для переведённой речи.
* Внутренний монолог: поток дополненных текстовых токенов, соответствующих целевому аудио.

Система использует нейронный аудиокодек Mimi. Mimi — это каузальный и потоковый кодек, который кодирует формы сигналов в дискретные токены. Он работает со скоростью 12,5 Гц. Модель использует RQ-Transformer для обработки этих аудиопотоков.

Технические характеристики модели:
* Общее количество параметров: 3B.
* Временной трансформер: 28 слоёв со скрытым измерением 2048.
* Глубинный трансформер: 6 слоёв на кодовую книгу со скрытым измерением 1024.
* Контекстное окно: 4 минуты.
* Аудиокодек: 16 уровней для высококачественной речи.

Обучение без данных с интерпретацией человека

Hibiki-Zero обучается в два основных этапа:
1. Обучение с грубым выравниванием: модель сначала обучается на данных с выравниванием на уровне предложений. Эти данные гарантируют, что i-е предложение в целевом языке является переводом i-го предложения в исходном языке. Исследовательская группа использует технику вставки искусственного молчания в целевую речь, чтобы задержать её содержание относительно исходного.
2. Обучение с подкреплением (RL): модель использует групповую относительную оптимизацию политики (GRPO) для уточнения своей политики. Этот этап снижает задержку перевода, сохраняя качество.

Процесс RL использует вознаграждения, основанные только на оценке BLEU. Он вычисляет промежуточные вознаграждения в нескольких точках во время перевода. Гиперпараметр ⍺ балансирует компромисс между скоростью и точностью. Меньшее значение ⍺ снижает задержку, но может немного снизить качество.

Масштабирование на итальянский за рекордное время

Исследователи продемонстрировали, как легко Hibiki-Zero адаптируется к новым языкам. Они добавили итальянский в качестве входного языка, используя менее 1000 часов речевых данных.

Они провели контролируемую тонкую настройку, за которой последовал процесс GRPO. Модель достигла компромисса между качеством и задержкой, аналогичного модели Meta Seamless. Она превзошла Seamless по сходству с диктором более чем на 30 пунктов.

Результаты

Hibiki-Zero достигает современных результатов в 5 задачах X-to-English. Она была протестирована на бенчмарке Audio-NTREX-4L, который включает 15 часов речи для каждой системы TTS.

| Метрика | Hibiki-Zero (французский) | Seamless (французский) |
| — | — | — |
| ASR-BLEU (↑) | 28,7 | 23,9 |
| Сходство с диктором (↑) | 61,3 | 44,4 |
| Средняя задержка (LAAL) (↓) | 2,3 | 6,2 |

В задачах с короткими формами (Europarl-ST) Hibiki-Zero достигла ASR-BLEU 34,6 с задержкой в 2,8 секунды. Эксперты также оценили модель значительно выше базовых показателей по естественности речи и передаче голоса.

Ключевые выводы

* Отсутствие необходимости в данных с выравниванием на уровне слов: Hibiki-Zero устраняет необходимость в дорогостоящих выравниваниях на уровне слов между исходной и целевой речью, которые ранее были основным препятствием для масштабирования одновременного перевода на новые языки.
* Оптимизация задержки с помощью GRPO: модель использует групповую относительную оптимизацию политики (GRPO) и простую систему вознаграждений, основанную только на оценках BLEU, чтобы автоматически научиться эффективной стратегии перевода, балансируя высокое качество перевода с низкой задержкой.
* Стратегия обучения от общего к частному: процесс обучения начинается с данных с выравниванием на уровне предложений, чтобы научить модель базовому переводу при высокой задержке, за которым следует этап обучения с подкреплением, который «обучает» модель, когда говорить, а когда слушать.
* Превосходство по голосу и естественности: в сравнении с предыдущими передовыми системами, такими как Seamless, Hibiki-Zero достигла преимущества в 30 пунктов по сходству с диктором и значительно более высоких оценок по естественности речи и качеству звука в пяти языковых задачах.
* Быстрая адаптация к новому языку: архитектура высокомобильна; исследователи продемонстрировали, что Hibiki-Zero можно адаптировать к новому входному языку (итальянскому) с использованием менее 1000 часов речевых данных, сохраняя при этом исходную производительность на других языках.

1. Какие основные преимущества модели Hibiki-Zero по сравнению с предыдущими моделями для перевода речи?

Ответ: Hibiki-Zero не требует для обучения данных с выравниванием на уровне слов, что устраняет основное препятствие для масштабирования машинного перевода на большее количество языков. Также модель использует групповую относительную оптимизацию политики (GRPO) для уточнения своей политики и снижения задержки перевода, сохраняя качество.

2. Какие технические характеристики имеет модель Hibiki-Zero?

Ответ: Hibiki-Zero имеет следующие технические характеристики:
* Общее количество параметров: 3B.
* Временной трансформер: 28 слоёв со скрытым измерением 2048.
* Глубинный трансформер: 6 слоёв на кодовую книгу со скрытым измерением 1024.
* Контекстное окно: 4 минуты.
* Аудиокодек: 16 уровней для высококачественной речи.

3. Какие этапы включает в себя обучение модели Hibiki-Zero?

Ответ: обучение модели Hibiki-Zero включает в себя два основных этапа:
1. Обучение с грубым выравниванием: модель сначала обучается на данных с выравниванием на уровне предложений.
2. Обучение с подкреплением (RL): модель использует групповую относительную оптимизацию политики (GRPO) для уточнения своей политики.

4. Какие результаты показала модель Hibiki-Zero в задачах X-to-English?

Ответ: Hibiki-Zero достигает современных результатов в 5 задачах X-to-English. Она была протестирована на бенчмарке Audio-NTREX-4L, который включает 15 часов речи для каждой системы TTS. Модель достигла высоких показателей по метрикам ASR-BLEU, сходству с диктором и средней задержке (LAAL), превзойдя другие модели по качеству перевода и естественности речи.

5. Какие ключевые выводы можно сделать о модели Hibiki-Zero на основе текста?

Ответ: ключевые выводы о модели Hibiki-Zero:
* Отсутствие необходимости в данных с выравниванием на уровне слов.
* Оптимизация задержки с помощью GRPO.
* Стратегия обучения от общего к частному.
* Превосходство по голосу и естественности.
* Быстрая адаптация к новому языку.

Источник