Краткое содержание (TL;DR)
Новое исследование от Apple формализует, что должно делать промежуточное обучение перед посттренировочным обучением с подкреплением (RL), и представляет RA3 (Reasoning as Action Abstractions) — процедуру в стиле EM, которая изучает временно согласованные скрытые действия по следам экспертов, а затем точно настраивается на этих начатых следах.
RA3 улучшает HumanEval/MBPP примерно на 8/4 балла по сравнению с базовым уровнем/NTP и ускоряет RLVR на HumanEval+, MBPP+, LiveCodeBench и Codeforces.
Что представлено в исследовании?
Исследовательская группа представляет первое формальное описание того, как промежуточное обучение формирует посттренировочное обучение с подкреплением (RL): они разбивают результаты на (i) эффективность обрезки — насколько хорошо промежуточное обучение выбирает компактное, близкое к оптимальному подмножество действий, которое формирует начальную политику; и (ii) сходимость RL — как быстро посттренировочное обучение улучшается в рамках этого ограниченного набора.
Анализ показывает, что промежуточное обучение наиболее эффективно, когда пространство решений компактно, а эффективный горизонт планирования короток, что отдаёт предпочтение временным абстракциям по сравнению с примитивными действиями следующего токена.
Алгоритм: RA3 за один проход
RA3 выводит последовательную вариационную нижнюю границу (временную ELBO) и оптимизирует её с помощью EM-подобного цикла:
* E-шаг (обнаружение скрытого): используйте RL для вывода временно согласованных скрытых структур (абстракций), согласованных с экспертными последовательностями.
* M-шаг (обновление модели): выполните прогнозирование следующего токена на загруженных, аннотированных скрытыми данными следах, чтобы сделать эти абстракции частью политики модели.
Результаты: генерация кода и RLVR
В задачах по написанию кода на Python исследовательская группа сообщает, что в нескольких базовых моделях RA3 улучшает средний показатель pass@k на HumanEval и MBPP примерно на 8 и 4 балла по сравнению с базовой моделью и базовым уровнем промежуточного обучения NTP.
В посттренировочном периоде RLVR сходится быстрее и достигает более высокой конечной производительности на HumanEval+, MBPP+, LiveCodeBench и Codeforces при инициализации с помощью RA3.
Ключевые выводы
Исследовательская группа формализует промежуточное обучение по двум детерминантам — эффективности обрезки и влиянию на сходимость RL, утверждая, что эффективность возрастает, когда пространство решений компактно, а эффективный горизонт планирования короток.
RA3 оптимизирует последовательную вариационную нижнюю границу, итеративно обнаруживая временно согласованные скрытые структуры с помощью RL, а затем точно настраиваясь на загруженных следах (в стиле EM).
При генерации кода RA3 сообщает о приросте примерно +8 (HumanEval) и +4 (MBPP) средних показателей pass@k по сравнению с базовым/NTP промежуточным обучением в нескольких масштабах моделей.
Инициализация посттренировочного обучения с помощью RA3 ускоряет сходимость RLVR и улучшает асимптотическую производительность на HumanEval+, MBPP+, LiveCodeBench и Codeforces.
Комментарии редакции
Вклад RA3 конкретен и узок: он формализует промежуточное обучение по двум детерминантам — эффективности обрезки и сходимости RL — и реализует их через временную ELBO, оптимизированную в EM-цикле для изучения устойчивых абстракций действий перед RLVR.
Исследователи сообщают о приросте примерно +8 (HumanEval) и +4 (MBPP) средних показателей pass@k по сравнению с базовым/NTP и более быстрой сходимости RLVR на HumanEval+, MBPP+, LiveCodeBench и Codeforces.
1. Какие основные проблемы решает RA3 в контексте посттренировочного обучения с подкреплением в языковых моделях, работающих с кодом?
RA3 решает проблему формализации промежуточного обучения перед посттренировочным обучением с подкреплением (RL). Он изучает временно согласованные скрытые действия по следам экспертов и затем точно настраивается на этих начатых следах. Это позволяет улучшить эффективность обрезки и сходимость RL.
2. Какие ключевые выводы можно сделать из исследования о RA3?
Исследовательская группа формализует промежуточное обучение по двум детерминантам — эффективности обрезки и влиянию на сходимость RL. Они утверждают, что эффективность возрастает, когда пространство решений компактно, а эффективный горизонт планирования короток. RA3 оптимизирует последовательную вариационную нижнюю границу, итеративно обнаруживая временно согласованные скрытые структуры с помощью RL, а затем точно настраиваясь на загруженных следах.
3. Какие результаты были получены при использовании RA3 в задачах по написанию кода на Python?
В задачах по написанию кода на Python исследовательская группа сообщает, что RA3 улучшает средний показатель pass@k на HumanEval и MBPP примерно на 8 и 4 балла по сравнению с базовой моделью и базовым уровнем промежуточного обучения NTP. В посттренировочном периоде RLVR сходится быстрее и достигает более высокой конечной производительности на HumanEval+, MBPP+, LiveCodeBench и Codeforces при инициализации с помощью RA3.
4. Как RA3 влияет на сходимость RLVR в посттренировочном обучении?
Инициализация посттренировочного обучения с помощью RA3 ускоряет сходимость RLVR и улучшает асимптотическую производительность на HumanEval+, MBPP+, LiveCodeBench и Codeforces. Это означает, что RA3 помогает RLVR быстрее достигать оптимальной производительности и улучшает его конечные результаты.
5. Какие преимущества предлагает RA3 по сравнению с базовым уровнем промежуточного обучения NTP?
RA3 предлагает значительные преимущества по сравнению с базовым уровнем промежуточного обучения NTP. Он улучшает средний показатель pass@k на HumanEval и MBPP примерно на 8 и 4 балла соответственно. Кроме того, RA3 ускоряет сходимость RLVR и улучшает асимптотическую производительность на HumanEval+, MBPP+, LiveCodeBench и Codeforces.