RA3: промежуточное обучение с временными абстракциями действий для ускорения посттренировочного обучения с подкреплением в языковых моделях, работающих с кодом

Краткое содержание (TL;DR)

Новое исследование от Apple формализует, что должно делать промежуточное обучение перед посттренировочным обучением с подкреплением (RL), и представляет RA3 (Reasoning as Action Abstractions) — процедуру в стиле EM, которая изучает временно согласованные скрытые действия по следам экспертов, а затем точно настраивается на этих начатых следах.

RA3 улучшает HumanEval/MBPP примерно на 8/4 балла по сравнению с базовым уровнем/NTP и ускоряет RLVR на HumanEval+, MBPP+, LiveCodeBench и Codeforces.

Что представлено в исследовании?

Исследовательская группа представляет первое формальное описание того, как промежуточное обучение формирует посттренировочное обучение с подкреплением (RL): они разбивают результаты на (i) эффективность обрезки — насколько хорошо промежуточное обучение выбирает компактное, близкое к оптимальному подмножество действий, которое формирует начальную политику; и (ii) сходимость RL — как быстро посттренировочное обучение улучшается в рамках этого ограниченного набора.

Анализ показывает, что промежуточное обучение наиболее эффективно, когда пространство решений компактно, а эффективный горизонт планирования короток, что отдаёт предпочтение временным абстракциям по сравнению с примитивными действиями следующего токена.

Алгоритм: RA3 за один проход

RA3 выводит последовательную вариационную нижнюю границу (временную ELBO) и оптимизирует её с помощью EM-подобного цикла:

* E-шаг (обнаружение скрытого): используйте RL для вывода временно согласованных скрытых структур (абстракций), согласованных с экспертными последовательностями.
* M-шаг (обновление модели): выполните прогнозирование следующего токена на загруженных, аннотированных скрытыми данными следах, чтобы сделать эти абстракции частью политики модели.

Результаты: генерация кода и RLVR

В задачах по написанию кода на Python исследовательская группа сообщает, что в нескольких базовых моделях RA3 улучшает средний показатель pass@k на HumanEval и MBPP примерно на 8 и 4 балла по сравнению с базовой моделью и базовым уровнем промежуточного обучения NTP.

В посттренировочном периоде RLVR сходится быстрее и достигает более высокой конечной производительности на HumanEval+, MBPP+, LiveCodeBench и Codeforces при инициализации с помощью RA3.

Ключевые выводы

Исследовательская группа формализует промежуточное обучение по двум детерминантам — эффективности обрезки и влиянию на сходимость RL, утверждая, что эффективность возрастает, когда пространство решений компактно, а эффективный горизонт планирования короток.

RA3 оптимизирует последовательную вариационную нижнюю границу, итеративно обнаруживая временно согласованные скрытые структуры с помощью RL, а затем точно настраиваясь на загруженных следах (в стиле EM).

При генерации кода RA3 сообщает о приросте примерно +8 (HumanEval) и +4 (MBPP) средних показателей pass@k по сравнению с базовым/NTP промежуточным обучением в нескольких масштабах моделей.

Комментарии редакции

Вклад RA3 конкретен и узок: он формализует промежуточное обучение по двум детерминантам — эффективности обрезки и сходимости RL — и реализует их через временную ELBO, оптимизированную в EM-цикле для изучения устойчивых абстракций действий перед RLVR.

Исследователи сообщают о приросте примерно +8 (HumanEval) и +4 (MBPP) средних показателей pass@k по сравнению с базовым/NTP и более быстрой сходимости RLVR на HumanEval+, MBPP+, LiveCodeBench и Codeforces.

1. Какие основные проблемы решает RA3 в контексте посттренировочного обучения с подкреплением в языковых моделях, работающих с кодом?

RA3 решает проблему формализации промежуточного обучения перед посттренировочным обучением с подкреплением (RL). Он изучает временно согласованные скрытые действия по следам экспертов и затем точно настраивается на этих начатых следах. Это позволяет улучшить эффективность обрезки и сходимость RL.

2. Какие ключевые выводы можно сделать из исследования о RA3?

Исследовательская группа формализует промежуточное обучение по двум детерминантам — эффективности обрезки и влиянию на сходимость RL. Они утверждают, что эффективность возрастает, когда пространство решений компактно, а эффективный горизонт планирования короток. RA3 оптимизирует последовательную вариационную нижнюю границу, итеративно обнаруживая временно согласованные скрытые структуры с помощью RL, а затем точно настраиваясь на загруженных следах.

3. Какие результаты были получены при использовании RA3 в задачах по написанию кода на Python?

В задачах по написанию кода на Python исследовательская группа сообщает, что RA3 улучшает средний показатель pass@k на HumanEval и MBPP примерно на 8 и 4 балла по сравнению с базовой моделью и базовым уровнем промежуточного обучения NTP. В посттренировочном периоде RLVR сходится быстрее и достигает более высокой конечной производительности на HumanEval+, MBPP+, LiveCodeBench и Codeforces при инициализации с помощью RA3.

4. Как RA3 влияет на сходимость RLVR в посттренировочном обучении?

Инициализация посттренировочного обучения с помощью RA3 ускоряет сходимость RLVR и улучшает асимптотическую производительность на HumanEval+, MBPP+, LiveCodeBench и Codeforces. Это означает, что RA3 помогает RLVR быстрее достигать оптимальной производительности и улучшает его конечные результаты.

5. Какие преимущества предлагает RA3 по сравнению с базовым уровнем промежуточного обучения NTP?

RA3 предлагает значительные преимущества по сравнению с базовым уровнем промежуточного обучения NTP. Он улучшает средний показатель pass@k на HumanEval и MBPP примерно на 8 и 4 балла соответственно. Кроме того, RA3 ускоряет сходимость RLVR и улучшает асимптотическую производительность на HumanEval+, MBPP+, LiveCodeBench и Codeforces.

Источник