Tencent выпускает в открытый доступ модели многоязычного перевода Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B

Введение

Команда Hunyuan от Tencent выпустила модель перевода Hunyuan-MT-7B и ансамблевую модель Hunyuan-MT-Chimera-7B. Обе модели разработаны специально для многоязычного машинного перевода и были представлены в связи с участием Tencent в общем конкурсе машинного перевода WMT2025, где Hunyuan-MT-7B заняла первое место в 30 из 31 языковых пар.

📃 [Подробнее можно ознакомиться здесь](https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/HunyuanMTTechnical_Report.pdf)

Обзор моделей

Hunyuan-MT-7B

* Модель перевода с 7 миллиардами параметров.
* Поддерживает взаимный перевод на 33 языках, включая языки этнических меньшинств Китая, такие как тибетский, монгольский, уйгурский и казахский.
* Оптимизирована для задач перевода как с большим, так и с малым объёмом ресурсов, достигая передовых результатов среди моделей сопоставимого размера.

Hunyuan-MT-Chimera-7B

* Интегрированная модель слияния от слабого к сильному.
* Объединяет несколько вариантов перевода во время логического вывода и производит уточнённый перевод с использованием методов обучения с подкреплением и агрегирования.
* Представляет собой первую модель перевода с открытым исходным кодом такого типа, улучшая качество перевода по сравнению с односистемными выходами.

📃 [Подробнее можно ознакомиться здесь](https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/HunyuanMTTechnical_Report.pdf)

Структура обучения

Модели были обучены с использованием пятиступенчатой структуры, разработанной для задач перевода:

1. Общее предварительное обучение

* 1,3 триллиона токенов, охватывающих 112 языков и диалектов.
* Многоязычные корпуса, оценённые на предмет ценности знаний, аутентичности и стиля письма.
* Разнообразие поддерживается за счёт дисциплинарных, отраслевых и тематических систем тегов.

2. Предварительное обучение, ориентированное на машинный перевод

* Одноязычные корпуса из mC4 и OSCAR, отфильтрованные с помощью fastText (идентификатор языка), minLSH (дедупликация) и KenLM (фильтрация перплексии).
* Параллельные корпуса из OPUS и ParaCrawl, отфильтрованные с помощью CometKiwi.
* Воспроизведение данных общего предварительного обучения (20%) для предотвращения катастрофического забывания.

3. Контролируемая тонкая настройка (SFT)

* Этап I: около 3 миллионов параллельных пар (Flores-200, тестовые наборы WMT, кураторские данные на мандаринском языке и языках меньшинств, синтетические пары, данные для настройки инструкций).
* Этап II: около 268 тысяч высококачественных пар, отобранных с помощью автоматизированной оценки (CometKiwi, GEMBA) и ручной проверки.

4. Обучение с подкреплением (RL)

* Алгоритм: GRPO.
* Функции вознаграждения: XCOMET-XXL и DeepSeek-V3-0324 для оценки качества.
* Терминологические вознаграждения (TAT-R1).
* Штрафы за повторение для предотвращения вырожденных выходов.

5. Слабое к сильному RL

* Генерация и агрегирование нескольких вариантов выходных данных на основе вознаграждения.
* Применяется в Hunyuan-MT-Chimera-7B, повышая надёжность перевода и уменьшая повторяющиеся ошибки.

Результаты тестирования

Автоматическая оценка

* WMT24pp (English⇔XX): Hunyuan-MT-7B достигла 0,8585 (XCOMET-XXL), превзойдя более крупные модели, такие как Gemini-2.5-Pro (0,8250) и Claude-Sonnet-4 (0,8120).
* FLORES-200 (33 языка, 1056 пар): Hunyuan-MT-7B набрала 0,8758 (XCOMET-XXL), превзойдя базовые модели с открытым исходным кодом, включая Qwen3-32B (0,7933).
* Mandarin⇔Minority Languages: набрала 0,6082 (XCOMET-XXL), выше, чем Gemini-2.5-Pro (0,5811), что свидетельствует о значительных улучшениях в условиях ограниченных ресурсов.

Сравнительные результаты

* Превосходит Google Translator на 15–65% по категориям оценки.
* Превосходит специализированные модели перевода, такие как Tower-Plus-9B и Seed-X-PPO-7B, несмотря на меньшее количество параметров.
* Chimera-7B добавляет около 2,3% улучшения по FLORES-200, особенно в переводах с китайского на другие языки и с неанглийских на некитайские.

Оценка качества

Специальный набор для оценки (охватывающий социальные, медицинские, юридические и интернет-домены) сравнил Hunyuan-MT-7B с современными моделями:

* Hunyuan-MT-7B: в среднем 3,189.
* Gemini-2.5-Pro: в среднем 3,223.
* DeepSeek-V3: в среднем 3,219.
* Google Translate: в среднем 2,344.

Это показывает, что Hunyuan-MT-7B, несмотря на меньший размер в 7 миллиардов параметров, приближается к качеству гораздо более крупных проприетарных моделей.

Примеры из практики

В отчёте освещаются несколько реальных случаев:

* Культурные отсылки: правильно переводит «小红薯» как платформу «REDnote», в отличие от Google Translate, который переводит как «сладкий картофель».
* Идиомы: интерпретирует «You are killing me» как «你真要把我笑死了» (выражающее amusement), избегая буквального неправильного толкования.
* Медицинские термины: точно переводит «камни в почках из мочевой кислоты», в то время как базовые модели генерируют искажённые выходные данные.
* Языки меньшинств: для казахского и тибетского Hunyuan-MT-7B производит согласованные переводы, где базовые модели терпят неудачу или выдают бессмысленный текст.
* Улучшения Chimera: добавляет улучшения в игровом жаргоне, усилителях и спортивной терминологии.

Заключение

Выпуск Tencent моделей Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B устанавливает новый стандарт для многоязычного машинного перевода с открытым исходным кодом. Сочетая тщательно разработанную структуру обучения со специализированным фокусом на переводе с малым объёмом ресурсов и языков меньшинств, модели достигают качества, сравнимого с более крупными закрытыми системами или превосходящего их. Запуск этих двух моделей предоставляет исследовательскому сообществу ИИ доступные высокопроизводительные инструменты для исследований и развёртывания в области многоязычного перевода.

1. Какие уникальные особенности и преимущества моделей Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B делают их конкурентоспособными на рынке машинного перевода?

Ответ: Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B разработаны специально для многоязычного машинного перевода. Они поддерживают взаимный перевод на 33 языках, включая языки этнических меньшинств Китая. Hunyuan-MT-Chimera-7B объединяет несколько вариантов перевода во время логического вывода и производит уточнённый перевод с использованием методов обучения с подкреплением и агрегирования. Обе модели достигли передовых результатов среди моделей сопоставимого размера, в том числе на конкурсе WMT2025, где Hunyuan-MT-7B заняла первое место в 30 из 31 языковых пар.

2. Какие методы и подходы были использованы для обучения моделей Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B, и как они влияют на качество перевода?

Ответ: Модели были обучены с использованием пятиступенчатой структуры, разработанной для задач перевода. Общее предварительное обучение включало 1,3 триллиона токенов, охватывающих 112 языков и диалектов. Затем проводилось предварительное обучение, ориентированное на машинный перевод, с использованием одноязычных и параллельных корпусов. Контролируемая тонкая настройка включала этап I с около 3 миллионов параллельных пар и этап II с около 268 тысяч высококачественных пар. Обучение с подкреплением (RL) использовало алгоритм GRPO и функции вознаграждения XCOMET-XXL и DeepSeek-V3-0324 для оценки качества. Эти методы и подходы позволили моделям достичь высокого качества перевода.

3. Какие результаты были получены при тестировании моделей Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B, и как они сравниваются с другими моделями машинного перевода?

Ответ: Hunyuan-MT-7B достигла 0,8585 (XCOMET-XXL) на WMT24pp (English⇔XX), превзойдя более крупные модели, такие как Gemini-2.5-Pro (0,8250) и Claude-Sonnet-4 (0,8120). На FLORES-200 (33 языка, 1056 пар) Hunyuan-MT-7B набрала 0,8758 (XCOMET-XXL), превзойдя базовые модели с открытым исходным кодом, включая Qwen3-32B (0,7933). В категории Mandarin⇔Minority Languages Hunyuan-MT-7B набрала 0,6082 (XCOMET-XXL), выше, чем Gemini-2.5-Pro (0,5811). Это свидетельствует о значительных улучшениях в условиях ограниченных ресурсов.

4. Какие примеры из практики демонстрируют преимущества моделей Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B по сравнению с другими моделями машинного перевода?

Ответ: В отчёте освещаются несколько реальных случаев, демонстрирующих преимущества моделей Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B. Например, Hunyuan-MT-7B правильно переводит «小红薯» как платформу «REDnote», в отличие от Google Translate, который переводит как «сладкий картофель». Также Hunyuan-MT-7B интерпретирует «You are killing me» как «你真要把我笑死了» (выражающее amusement), избегая буквального неправильного толкования. Кроме того, Hunyuan-MT-7B точно переводит «камни в почках из мочевой кислоты», в то время как базовые модели генерируют искажённые выходные данные.

Источник