Google AI выпускает TranslateGemma: новое семейство открытых моделей машинного перевода на основе Gemma 3 с поддержкой 55 языков

Компания Google AI выпустила TranslateGemma — набор открытых моделей машинного перевода, созданных на основе Gemma 3 и ориентированных на 55 языков. Семейство представлено в размерах 4B, 12B и 27B параметров. Оно предназначено для работы на различных устройствах: от мобильных и периферийных устройств до ноутбуков, а также на одном экземпляре H100 GPU или TPU в облаке.

TranslateGemma — это не отдельная архитектура, а специализация Gemma 3 для перевода через двухэтапный процесс пост-тренинга:
1. Контролируемая точная настройка на больших параллельных корпусах.
2. Обучение с подкреплением, которое оптимизирует качество перевода с помощью ансамбля многосигнальных вознаграждений.

Цель — повысить качество перевода, сохранив при этом общее поведение Gemma 3, связанное с выполнением инструкций.

Контролируемая точная настройка на синтетических и параллельных данных, созданных человеком

Этап контролируемой точной настройки начинается с общедоступных контрольных точек Gemma 3 4B, 12B и 27B. Исследовательская группа использует параллельные данные, которые сочетают переводы, выполненные человеком, с высококачественными синтетическими переводами, созданными моделями Gemini.

Синтетические данные производятся из одноязычных источников с помощью многоступенчатой процедуры. Конвейер выбирает предложения-кандидаты и короткие документы, передаёт их в Gemini 2.5 Flash, а затем фильтрует выходные данные с помощью MetricX 24 QE, чтобы оставить только примеры, демонстрирующие явное повышение качества. Это применяется ко всем языковым парам WMT24 плюс ещё 30 языковым парам.

Языки с ограниченными ресурсами получают параллельные данные, созданные человеком, из наборов данных SMOL и GATITOS. SMOL охватывает 123 языка, а GATITOS — 170 языков. Это улучшает охват письменностей и языковых семейств, которые недостаточно представлены в общедоступных веб-параллельных данных.

Обучение с подкреплением с ансамблем вознаграждений, ориентированным на перевод

После контролируемой точной настройки TranslateGemma запускает этап обучения с подкреплением на основе той же смеси данных для перевода. Цель обучения с подкреплением использует несколько моделей вознаграждения.

Ансамбль вознаграждений включает:
* MetricX 24 XXL QE — изученную регрессионную метрику, которая аппроксимирует оценки MQM и используется здесь в режиме оценки качества без эталона.
* Gemma AutoMQM QE — предиктор ошибок на уровне промежутков, настроенный на MQM-помеченных данных. Он выдаёт вознаграждения на уровне токенов на основе типа и серьёзности ошибки.
* ChrF — метрика перекрытия n-грамм символов, которая сравнивает выходные данные модели с синтетическими ссылками и пересчитывается для соответствия другим вознаграждениям.
* Naturalness Autorater — модель-политик, которая использует модель LLM в качестве судьи и выдаёт штрафы за сегменты, которые звучат не так, как нативный текст.
* Модель вознаграждения общего назначения из настройки пост-тренинга Gemma 3, которая сохраняет способность к рассуждению и выполнению инструкций.

TranslateGemma использует алгоритмы обучения с подкреплением, которые сочетают вознаграждения на уровне последовательностей с преимуществами на уровне токенов. Вознаграждения на уровне промежутков от AutoMQM и Naturalness Autorater прикрепляются непосредственно к затронутым токенам. Эти преимущества токенов добавляются к преимуществам последовательности, вычисленным из вознаграждения, чтобы затем нормализовать пакет. Это улучшает назначение кредитов по сравнению с чистым обучением с подкреплением на уровне последовательностей.

Результаты тестирования на WMT24++

TranslateGemma оценивается на основе WMT24++ с использованием MetricX 24 и Comet22. MetricX — чем меньше, тем лучше, и коррелирует с подсчётом ошибок MQM. Comet22 — чем больше, тем лучше, и измеряет адекватность и беглость.

Таблица из исследовательской статьи обобщает результаты для оценки, ориентированной на английский язык, по 55 языковым парам.

* 27B: базовый уровень Gemma 3 имеет MetricX 4,04 и Comet22 83,1. TranslateGemma 27B достигает MetricX 3,09 и Comet22 84,4.
* 12B: базовый уровень Gemma 3 имеет MetricX 4,86 и Comet22 81,6. TranslateGemma 12B достигает MetricX 3,60 и Comet22 83,5.
* 4B: базовый уровень Gemma 3 имеет MetricX 6,97 и Comet22 77,2. TranslateGemma 4B достигает MetricX 5,32 и Comet22 80,1.

Ключевая закономерность заключается в том, что TranslateGemma улучшает качество для каждого размера модели. В то же время масштаб модели взаимодействует со специализацией. Модель TranslateGemma 12B превосходит базовый уровень Gemma 3 27B. Модель TranslateGemma 4B достигает качества, аналогичного базовому уровню Gemma 3 12B. Это означает, что меньшая специализированная модель перевода может заменить более крупную базовую модель для многих рабочих нагрузок машинного перевода.

Многомодальный перевод и интерфейс для разработчиков

TranslateGemma наследует стек понимания изображений Gemma 3. Исследовательская группа оценивает перевод изображений на основе Vistra. Они выбирают 264 изображения, каждое из которых содержит один текстовый экземпляр. Модель получает только изображение и запрос, который просит её перевести текст на изображении. Нет отдельного ввода ограничивающей рамки и явного шага OCR.

В этих условиях TranslateGemma 27B улучшает MetricX с 2,03 до 1,58 и Comet22 с 76,1 до 77,7. Вариант 4B показывает меньшие, но положительные результаты. Модель 12B улучшает MetricX, но имеет немного более низкий показатель Comet22, чем базовая модель.

В целом исследовательская группа приходит к выводу, что TranslateGemma сохраняет мультимодальные способности Gemma 3 и что улучшения текстового перевода в основном переносятся на перевод изображений.

Ключевые выводы:
* TranslateGemma — это специализированный вариант Gemma 3 для перевода.
* Модели TranslateGemma оптимизированы для 55 языков с помощью двухэтапного конвейера: контролируемой точной настройки, затем обучения с подкреплением с вознаграждениями, ориентированными на перевод.
* Обучение сочетает синтетические данные Gemini с параллельными корпусами, созданными человеком.
* Модели сохраняют мультимодальные способности и выпускаются как открытые веса.

1. Какие основные этапы включает в себя процесс создания TranslateGemma?

Ответ: процесс создания TranslateGemma включает в себя два этапа: контролируемую точную настройку на больших параллельных корпусах и обучение с подкреплением, которое оптимизирует качество перевода с помощью ансамбля многосигнальных вознаграждений.

2. Какие модели и инструменты используются для создания синтетических данных в процессе разработки TranslateGemma?

Ответ: для создания синтетических данных используются модели Gemini 2.5 Flash и MetricX 24 QE. Конвейер выбирает предложения-кандидаты и короткие документы, передаёт их в Gemini 2.5 Flash, а затем фильтрует выходные данные с помощью MetricX 24 QE, чтобы оставить только примеры, демонстрирующие явное повышение качества.

3. Какие метрики используются для оценки качества перевода TranslateGemma?

Ответ: для оценки качества перевода используются MetricX 24 XXL QE, Gemma AutoMQM QE, ChrF, Naturalness Autorater и модель вознаграждения общего назначения из настройки пост-тренинга Gemma 3. Также используются MetricX 24 и Comet22 для оценки на основе WMT24++.

4. Какие результаты были получены при тестировании TranslateGemma на WMT24++?

Ответ: при тестировании на WMT24++ было обнаружено, что TranslateGemma улучшает качество перевода для каждого размера модели. Например, TranslateGemma 27B достигает MetricX 3,09 и Comet22 84,4, в то время как базовый уровень Gemma 3 имеет MetricX 4,04 и Comet22 83,1.

5. Какие выводы можно сделать о мультимодальных способностях TranslateGemma?

Ответ: исследовательская группа приходит к выводу, что TranslateGemma сохраняет мультимодальные способности Gemma 3 и что улучшения текстового перевода в основном переносятся на перевод изображений. Это означает, что TranslateGemma может быть использована для перевода текста на изображениях без отдельного ввода ограничивающей рамки и явного шага OCR.

Источник