Prefix-RFT: единая платформа машинного обучения для сочетания контролируемого точного настраивания (SFT) и подкрепляющего точного настраивания (RFT)

Большие языковые модели обычно совершенствуются после предварительного обучения с помощью контролируемого точного настраивания (SFT) или подкрепляющего точного настраивания (RFT). Каждый из этих методов имеет свои сильные и слабые стороны.

SFT эффективно обучает выполнению инструкций на основе примеров, но может привести к ригидному поведению и плохому обобщению. RFT, с другой стороны, оптимизирует модели для достижения успеха в задачах с помощью сигналов вознаграждения, что может улучшить производительность, но также вносит нестабильность и зависимость от сильной начальной политики.

Хотя эти методы часто используются последовательно, их взаимодействие до сих пор плохо изучено. Возникает важный вопрос: как мы можем разработать единую платформу, которая сочетает структуру SFT с целенаправленным обучением RFT?

Исследование на стыке RL и LLM

Исследования на стыке обучения с подкреплением (RL) и посттренировки больших языковых моделей (LLM) набирают обороты, особенно для обучения моделям, способным рассуждать.

Оффлайн RL, который обучается на фиксированных наборах данных, часто даёт неоптимальные политики из-за ограниченного разнообразия данных. Это вызвало интерес к сочетанию оффлайн- и онлайн-подходов RL для повышения производительности. В LLM доминирующая стратегия заключается в том, чтобы сначала применить SFT для обучения желаемому поведению, а затем использовать RFT для оптимизации результатов.

Однако динамика между SFT и RFT до сих пор не изучена, и поиск эффективных способов их интеграции остаётся открытой исследовательской задачей.

Prefix-RFT: новая платформа

Исследователи из Эдинбургского университета, Университета Фудань, Alibaba Group, Stepfun и Амстердамского университета предлагают единую платформу, которая сочетает SFT и RFT, называемую Prefix-RFT.

Этот метод направляет исследование с помощью частичных демонстраций, позволяя модели продолжать генерировать решения с гибкостью и адаптивностью. Prefix-RFT был протестирован на задачах математического рассуждения и последовательно превосходит отдельные методы SFT, RFT и методы смешанной политики.

Он легко интегрируется в существующие платформы и доказывает свою устойчивость к изменениям качества и количества демонстраций.

Основные характеристики Prefix-RFT:

* Использует частичные демонстрации (префиксы) для направления обучения.
* Позволяет модели генерировать остальное, обеспечивая гибкость и адаптивность.
* Включает такие методы, как отсечение на основе энтропии и планировщик косинусного затухания для обеспечения стабильного обучения и эффективного обучения.
* Предлагает более сбалансированную и адаптивную стратегию тонкой настройки по сравнению с предыдущими методами.

Результаты

Prefix-RFT был протестирован на Qwen2.5-Math-7B, 1.5B и LLaMA-3.1-8B и оценён на таких бенчмарках, как AIME 2024/25, AMC, MATH500, Minerva и OlympiadBench. Prefix-RFT достиг наивысших средних показателей @32 и проходных баллов @1 по задачам, превосходя RFT, SFT, ReLIFT и LUFFY.

Используя Dr. GRPO, он обновлял только 20% токенов с высокой энтропией, причём длина префикса уменьшалась с 95% до 5%. Он поддерживал промежуточные потери SFT, что указывает на сильный баланс между подражанием и исследованием, особенно в сложных задачах (Trainhard).

Даже при использовании только 1% обучающих данных (450 запросов) Prefix-RFT сохраняет высокую производительность (средние показатели @32 падают только с 40,8 до 37,6), демонстрируя эффективность и надёжность.

Заключение

Prefix-RFT сочетает в себе сильные стороны SFT и RFT, используя выборочные демонстрационные префиксы для направления обучения. Несмотря на свою простоту, он последовательно превосходит SFT, RFT и гибридные базовые методы на различных моделях и наборах данных.

Его стратегия обновления 20% токенов на основе энтропии оказывается наиболее эффективной, достигая наивысших показателей на тестах с более короткими выводами. Более того, использование планировщика косинусного затухания для длины префикса повышает стабильность и динамику обучения по сравнению с равномерной стратегией, особенно в сложных задачах, таких как AIME.

1. Какие проблемы существуют при использовании методов SFT и RFT по отдельности, и как Prefix-RFT решает эти проблемы?

В тексте указано, что SFT эффективно обучает выполнению инструкций на основе примеров, но может привести к ригидному поведению и плохому обобщению. RFT оптимизирует модели для достижения успеха в задачах с помощью сигналов вознаграждения, что может улучшить производительность, но также вносит нестабильность и зависимость от сильной начальной политики.

Prefix-RFT решает эти проблемы, используя частичные демонстрации (префиксы) для направления обучения. Это позволяет модели генерировать решения с гибкостью и адаптивностью, сочетая сильные стороны обоих методов.

2. Какие основные характеристики отличают Prefix-RFT от других методов тонкой настройки языковых моделей?

Основные характеристики Prefix-RFT:
* использование частичных демонстраций (префиксов) для направления обучения;
* возможность модели генерировать остальное, обеспечивая гибкость и адаптивность;
* включение методов, таких как отсечение на основе энтропии и планировщик косинусного затухания для обеспечения стабильного обучения и эффективного обучения;
* предложение более сбалансированной и адаптивной стратегии тонкой настройки по сравнению с предыдущими методами.

3. Какие результаты были получены при тестировании Prefix-RFT на различных моделях и наборах данных?

Prefix-RFT был протестирован на Qwen2.5-Math-7B, 1.5B и LLaMA-3.1-8B и оценён на таких бенчмарках, как AIME 2024/25, AMC, MATH500, Minerva и OlympiadBench. Prefix-RFT достиг наивысших средних показателей @32 и проходных баллов @1 по задачам, превосходя RFT, SFT, ReLIFT и LUFFY.

Даже при использовании только 1% обучающих данных (450 запросов) Prefix-RFT сохраняет высокую производительность (средние показатели @32 падают только с 40,8 до 37,6), демонстрируя эффективность и надёжность.

4. Какие методы используются в Prefix-RFT для обеспечения стабильного и эффективного обучения?

Для обеспечения стабильного и эффективного обучения в Prefix-RFT используются такие методы, как:
* отсечение на основе энтропии;
* планировщик косинусного затухания для длины префикса.

Эти методы помогают поддерживать промежуточные потери SFT и обеспечивают сильный баланс между подражанием и исследованием, особенно в сложных задачах.

5. Какие преимущества предоставляет Prefix-RFT по сравнению с другими методами тонкой настройки языковых моделей?

Преимущества Prefix-RFT:
* последовательное превосходство над SFT, RFT и гибридными базовыми методами на различных моделях и наборах данных;
* эффективность и надёжность, даже при использовании небольшого количества обучающих данных;
* более сбалансированная и адаптивная стратегия тонкой настройки;
* возможность сочетания гибкости SFT и оптимизации RFT для достижения высоких показателей производительности.

Источник