Unbabel представляет TOWER+: унифицированная система для высококачественного перевода и выполнения инструкций в многоязычных больших языковых моделях

Большие языковые модели (LLMs) способствуют прогрессу в машинном переводе, используя огромные обучающие корпуса для перевода десятков языков и диалектов, улавливая при этом тонкие лингвистические нюансы. Однако настройка этих моделей для повышения точности перевода часто ухудшает их способность следовать инструкциям и вести диалог, а универсальные версии с трудом соответствуют профессиональным стандартам точности.

Текущие подходы к настройке языковых моделей для точности перевода

Исследователи испробовали множество подходов для настройки языковых моделей для точности перевода. Для повышения адекватности и беглости переведённого текста использовалась тонкая настройка предварительно обученных больших языковых моделей на параллельных корпусах. Продолжение предварительного обучения на сочетании одноязычных и параллельных данных улучшает многоязычную беглость. Некоторые исследовательские группы дополнили обучение обучением с подкреплением на основе обратной связи от человека, чтобы привести результаты в соответствие с предпочтениями по качеству.

Проприетарные системы, такие как GPT-4o и Claude 3.7, продемонстрировали лидирующее качество перевода, а открытые адаптации веса, включая модели TOWER V2 и GEMMA 2, достигли паритета или превзошли закрытые модели в определённых языковых сценариях.

Введение TOWER+:

Исследователи из Unbabel, Instituto de Telecomunicações, Instituto Superior Técnico, Universidade de Lisboa (Lisbon ELLIS Unit) и MICS, CentraleSupélec, Université Paris-Saclay представили TOWER+, набор моделей. Исследовательская группа разработала варианты с несколькими параметрами: 2 миллиарда, 9 миллиардов и 72 миллиарда, чтобы изучить компромисс между специализацией в переводе и универсальностью общего назначения.

TOWER+: унифицированное обучение для перевода и общих языковых задач

Реализовав унифицированный процесс обучения, исследователи стремились позиционировать модели TOWER+ на границе Парето, достигая как высокой производительности перевода, так и надёжных общих возможностей, не жертвуя одним ради другого. Подход использует архитектуры для балансировки конкретных требований машинного перевода с гибкостью, необходимой для диалоговых и инструктивных задач, поддерживая ряд сценариев применения.

TOWER+ Pipeline: предварительное обучение, контролируемая настройка, предпочтения и RL

Процесс обучения начинается с продолжения предварительного обучения на тщательно отобранных данных, которые включают одноязычный контент, отфильтрованные параллельные предложения, отформатированные в виде инструкций по переводу, и небольшую часть примеров, похожих на инструкции.

Затем контролируемая тонкая настройка уточняет модель, используя комбинацию задач перевода и разнообразных сценариев выполнения инструкций, включая генерацию кода, решение математических задач и ответы на вопросы.

Этап оптимизации предпочтений

На этапе оптимизации предпочтений используется взвешенная оптимизация предпочтений и групповые относительные обновления политики, обученные на внеполитических сигналах и отредактированных человеком вариантах перевода.

Наконец, обучение с подкреплением с помощью проверяемых вознаграждений усиливает точное соблюдение руководящих принципов трансформации, используя проверки на основе регулярных выражений и аннотации предпочтений для улучшения способности модели следовать явным инструкциям во время перевода.

Эта комбинация предварительного обучения, контролируемой настройки и обновлений, основанных на вознаграждении, обеспечивает устойчивый баланс между специализированной точностью перевода и универсальными языковыми навыками.

Результаты тестирования: TOWER+ достигает современного уровня перевода и выполнения инструкций

Модель TOWER+ 9B достигла показателя 33,47% в многоязычных общих чатах, получив оценку XCOMET-XXL 84,38 по 24 языковым парам, опередив аналогичные по размеру модели с открытым весом.

Флагманский вариант с 72 миллиардами параметров обеспечил 54,52% побед в M-ArenaHard, зафиксировал оценку выполнения инструкций IFEval 89,02 и достиг уровня XCOMET-XXL 83,29 на полном бенчмарке WMT24++.

На комбинированном тесте по переводу и выполнению инструкций IF-MT получил 5,55 балла за выполнение инструкций и 88,95 за точность перевода, установив современные результаты среди моделей с открытым весом.

Ключевые технические особенности моделей TOWER+

Модели TOWER+, разработанные Unbabel и академическими партнёрами, охватывают 2B, 9B и 72B параметров, чтобы изучить границы производительности между специализацией в переводе и универсальностью общего назначения.

Посттренировочный конвейер объединяет четыре этапа: продолжение предварительного обучения (66% одноязычных, 33% параллельных и 1% инструкций), контролируемая тонкая настройка (22,3% перевода), взвешенная оптимизация предпочтений и проверяемое обучение с подкреплением, чтобы сохранить навыки чата при повышении точности перевода.

Заключение: Парето-оптимальная система для будущих LLM, ориентированных на перевод

В заключение, объединив крупномасштабное предварительное обучение со специализированными этапами выравнивания, TOWER+ демонстрирует, что переводное мастерство и диалоговая универсальность могут сосуществовать в рамках единого набора моделей с открытым весом. Модели достигают Парето-оптимального баланса между точностью перевода, выполнением инструкций и общими возможностями чата, предлагая масштабируемый план для разработки будущих доменных LLM.

1. Какие подходы к настройке языковых моделей для точности перевода существуют?

В статье описаны несколько подходов:
* тонкая настройка предварительно обученных больших языковых моделей на параллельных корпусах для повышения адекватности и беглости переведённого текста;
* продолжение предварительного обучения на сочетании одноязычных и параллельных данных для улучшения многоязычной беглости;
* обучение с подкреплением на основе обратной связи от человека для приведения результатов в соответствие с предпочтениями по качеству.

2. Какие параметры моделей TOWER+ были разработаны исследователями?

Исследовательская группа разработала варианты моделей TOWER+ с несколькими параметрами: 2 миллиарда, 9 миллиардов и 72 миллиарда. Это было сделано для изучения компромисса между специализацией в переводе и универсальностью общего назначения.

3. Какие этапы включает в себя процесс обучения TOWER+?

Процесс обучения TOWER+ включает в себя несколько этапов:
* предварительное обучение на тщательно отобранных данных, которые включают одноязычный контент, отфильтрованные параллельные предложения, отформатированные в виде инструкций по переводу, и небольшую часть примеров, похожих на инструкции;
* контролируемая тонкая настройка, которая уточняет модель, используя комбинацию задач перевода и разнообразных сценариев выполнения инструкций;
* этап оптимизации предпочтений, на котором используется взвешенная оптимизация предпочтений и групповые относительные обновления политики;
* обучение с подкреплением с помощью проверяемых вознаграждений, которое усиливает точное соблюдение руководящих принципов трансформации.

4. Какие результаты тестирования были получены для модели TOWER+ 9B?

Модель TOWER+ 9B достигла показателя 33,47% в многоязычных общих чатах, получила оценку XCOMET-XXL 84,38 по 24 языковым парам, опередив аналогичные по размеру модели с открытым весом.

5. Какие ключевые технические особенности имеют модели TOWER+?

Ключевые технические особенности моделей TOWER+ включают:
* охват 2B, 9B и 72B параметров для изучения границ производительности между специализацией в переводе и универсальностью общего назначения;
* посттренировочный конвейер, который объединяет четыре этапа: продолжение предварительного обучения, контролируемая тонкая настройка, взвешенная оптимизация предпочтений и проверяемое обучение с подкреплением;
* сохранение навыков чата при повышении точности перевода.

Источник

Оставьте комментарий