Большие языковые модели (LLMs) способствуют прогрессу в машинном переводе, используя огромные обучающие корпуса для перевода десятков языков и диалектов, улавливая при этом тонкие лингвистические нюансы. Однако настройка этих моделей для повышения точности перевода часто ухудшает их способность следовать инструкциям и вести диалог, а универсальные версии с трудом соответствуют профессиональным стандартам точности.
Текущие подходы к настройке языковых моделей для точности перевода
Исследователи испробовали множество подходов для настройки языковых моделей для точности перевода. Для повышения адекватности и беглости переведённого текста использовалась тонкая настройка предварительно обученных больших языковых моделей на параллельных корпусах. Продолжение предварительного обучения на сочетании одноязычных и параллельных данных улучшает многоязычную беглость. Некоторые исследовательские группы дополнили обучение обучением с подкреплением на основе обратной связи от человека, чтобы привести результаты в соответствие с предпочтениями по качеству.
Проприетарные системы, такие как GPT-4o и Claude 3.7, продемонстрировали лидирующее качество перевода, а открытые адаптации веса, включая модели TOWER V2 и GEMMA 2, достигли паритета или превзошли закрытые модели в определённых языковых сценариях.
Введение TOWER+:
Исследователи из Unbabel, Instituto de Telecomunicações, Instituto Superior Técnico, Universidade de Lisboa (Lisbon ELLIS Unit) и MICS, CentraleSupélec, Université Paris-Saclay представили TOWER+, набор моделей. Исследовательская группа разработала варианты с несколькими параметрами: 2 миллиарда, 9 миллиардов и 72 миллиарда, чтобы изучить компромисс между специализацией в переводе и универсальностью общего назначения.
TOWER+: унифицированное обучение для перевода и общих языковых задач
Реализовав унифицированный процесс обучения, исследователи стремились позиционировать модели TOWER+ на границе Парето, достигая как высокой производительности перевода, так и надёжных общих возможностей, не жертвуя одним ради другого. Подход использует архитектуры для балансировки конкретных требований машинного перевода с гибкостью, необходимой для диалоговых и инструктивных задач, поддерживая ряд сценариев применения.
TOWER+ Pipeline: предварительное обучение, контролируемая настройка, предпочтения и RL
Процесс обучения начинается с продолжения предварительного обучения на тщательно отобранных данных, которые включают одноязычный контент, отфильтрованные параллельные предложения, отформатированные в виде инструкций по переводу, и небольшую часть примеров, похожих на инструкции.
Затем контролируемая тонкая настройка уточняет модель, используя комбинацию задач перевода и разнообразных сценариев выполнения инструкций, включая генерацию кода, решение математических задач и ответы на вопросы.
Этап оптимизации предпочтений
На этапе оптимизации предпочтений используется взвешенная оптимизация предпочтений и групповые относительные обновления политики, обученные на внеполитических сигналах и отредактированных человеком вариантах перевода.
Наконец, обучение с подкреплением с помощью проверяемых вознаграждений усиливает точное соблюдение руководящих принципов трансформации, используя проверки на основе регулярных выражений и аннотации предпочтений для улучшения способности модели следовать явным инструкциям во время перевода.
Эта комбинация предварительного обучения, контролируемой настройки и обновлений, основанных на вознаграждении, обеспечивает устойчивый баланс между специализированной точностью перевода и универсальными языковыми навыками.
Результаты тестирования: TOWER+ достигает современного уровня перевода и выполнения инструкций
Модель TOWER+ 9B достигла показателя 33,47% в многоязычных общих чатах, получив оценку XCOMET-XXL 84,38 по 24 языковым парам, опередив аналогичные по размеру модели с открытым весом.
Флагманский вариант с 72 миллиардами параметров обеспечил 54,52% побед в M-ArenaHard, зафиксировал оценку выполнения инструкций IFEval 89,02 и достиг уровня XCOMET-XXL 83,29 на полном бенчмарке WMT24++.
На комбинированном тесте по переводу и выполнению инструкций IF-MT получил 5,55 балла за выполнение инструкций и 88,95 за точность перевода, установив современные результаты среди моделей с открытым весом.
Ключевые технические особенности моделей TOWER+
Модели TOWER+, разработанные Unbabel и академическими партнёрами, охватывают 2B, 9B и 72B параметров, чтобы изучить границы производительности между специализацией в переводе и универсальностью общего назначения.
Посттренировочный конвейер объединяет четыре этапа: продолжение предварительного обучения (66% одноязычных, 33% параллельных и 1% инструкций), контролируемая тонкая настройка (22,3% перевода), взвешенная оптимизация предпочтений и проверяемое обучение с подкреплением, чтобы сохранить навыки чата при повышении точности перевода.
Заключение: Парето-оптимальная система для будущих LLM, ориентированных на перевод
В заключение, объединив крупномасштабное предварительное обучение со специализированными этапами выравнивания, TOWER+ демонстрирует, что переводное мастерство и диалоговая универсальность могут сосуществовать в рамках единого набора моделей с открытым весом. Модели достигают Парето-оптимального баланса между точностью перевода, выполнением инструкций и общими возможностями чата, предлагая масштабируемый план для разработки будущих доменных LLM.
1. Какие подходы к настройке языковых моделей для точности перевода существуют?
В статье описаны несколько подходов:
* тонкая настройка предварительно обученных больших языковых моделей на параллельных корпусах для повышения адекватности и беглости переведённого текста;
* продолжение предварительного обучения на сочетании одноязычных и параллельных данных для улучшения многоязычной беглости;
* обучение с подкреплением на основе обратной связи от человека для приведения результатов в соответствие с предпочтениями по качеству.
2. Какие параметры моделей TOWER+ были разработаны исследователями?
Исследовательская группа разработала варианты моделей TOWER+ с несколькими параметрами: 2 миллиарда, 9 миллиардов и 72 миллиарда. Это было сделано для изучения компромисса между специализацией в переводе и универсальностью общего назначения.
3. Какие этапы включает в себя процесс обучения TOWER+?
Процесс обучения TOWER+ включает в себя несколько этапов:
* предварительное обучение на тщательно отобранных данных, которые включают одноязычный контент, отфильтрованные параллельные предложения, отформатированные в виде инструкций по переводу, и небольшую часть примеров, похожих на инструкции;
* контролируемая тонкая настройка, которая уточняет модель, используя комбинацию задач перевода и разнообразных сценариев выполнения инструкций;
* этап оптимизации предпочтений, на котором используется взвешенная оптимизация предпочтений и групповые относительные обновления политики;
* обучение с подкреплением с помощью проверяемых вознаграждений, которое усиливает точное соблюдение руководящих принципов трансформации.
4. Какие результаты тестирования были получены для модели TOWER+ 9B?
Модель TOWER+ 9B достигла показателя 33,47% в многоязычных общих чатах, получила оценку XCOMET-XXL 84,38 по 24 языковым парам, опередив аналогичные по размеру модели с открытым весом.
5. Какие ключевые технические особенности имеют модели TOWER+?
Ключевые технические особенности моделей TOWER+ включают:
* охват 2B, 9B и 72B параметров для изучения границ производительности между специализацией в переводе и универсальностью общего назначения;
* посттренировочный конвейер, который объединяет четыре этапа: продолжение предварительного обучения, контролируемая тонкая настройка, взвешенная оптимизация предпочтений и проверяемое обучение с подкреплением;
* сохранение навыков чата при повышении точности перевода.