Постобучение с подкреплением (RL) стало важным инструментом для моделей LLM, ориентированных на рассуждения. Однако, в отличие от предварительного обучения, у него не было правил масштабирования для прогнозирования.
Команды вкладывают десятки тысяч часов работы на графических процессорах (GPU) в эксперименты, не имея обоснованного способа оценить, будет ли рецепт продолжать улучшаться с увеличением вычислительных ресурсов.
Новое исследование от Meta, UT Austin, UCL, Berkeley, Harvard и Periodic Labs предлагает:
* Рамочную модель производительности вычислений, проверенную более чем на 400 000 часов работы на GPU, которая моделирует прогресс RL с помощью сигмоидальной кривой и предоставляет проверенный рецепт ScaleRL, который следует этим прогнозируемым кривым вплоть до 100 000 часов работы на GPU.
Подбор сигмоиды, а не степенного закона
Предварительное обучение часто соответствует степенным законам (потеря vs вычислительные ресурсы). Тонкая настройка RL нацелена на ограниченные показатели (например, процент прохождения/среднее вознаграждение).
Исследовательская группа показывает, что сигмоидальные соответствия проценту прохождения по сравнению с вычислительными ресурсами обучения эмпирически более устойчивы и стабильны, чем степенные соответствия, особенно когда вы хотите экстраполировать от небольших экспериментов к более крупным бюджетам.
Они исключают очень ранний, шумный режим (примерно первые 1,5 тыс. часов работы на GPU) и подгоняют предсказуемую часть, которая следует за ним. Параметры сигмоиды имеют интуитивно понятные роли: один задаёт асимптотическую производительность (потолок), другой — эффективность/показатель степени, а третий — среднюю точку, где прирост происходит наиболее быстро.
Почему это важно:
После примерно 1–2 тыс. часов работы на GPU вы можете подогнать кривую и спрогнозировать, стоит ли тратить ресурсы на 10–100 тыс. часов работы на GPU — до того, как вы исчерпаете бюджет.
Исследование также показывает, что степенные соответствия могут создавать вводящие в заблуждение потолки, если вы подгоняете их только при очень высоких вычислительных ресурсах, что противоречит цели раннего прогнозирования.
ScaleRL: рецепт, который масштабируется предсказуемо
ScaleRL — это не просто новый алгоритм; это совокупность решений, которые обеспечили стабильное масштабирование в исследовании:
* Асинхронный конвейер RL (разделение генератора и тренера на GPU) для повышения пропускной способности вне политики.
* CISPO (усечённая важность выборки REINFORCE) в качестве RL-потери.
* Точность FP32 в логитах, чтобы избежать числового несоответствия между генератором и тренером.
* Усреднение потерь на уровне запросов и нормализация преимуществ на уровне пакетов.
* Принудительные прерывания по длине, чтобы ограничить уходящие следы.
* Фильтрация с нулевой дисперсией (удаляйте запросы, которые не дают градиентного сигнала).
* Отсутствие положительной повторной выборки (удалите запросы с высоким коэффициентом прохождения ≥0,9 из более поздних эпох).
Исследовательская группа подтвердила каждый компонент с помощью исключения по одному (LOO) на 16 тыс. часов работы на GPU и показала, что подогнанные кривые ScaleRL надёжно экстраполируются с 8 тыс. → 16 тыс., а затем удерживаются на гораздо больших масштабах, включая один прогон, расширенный до 100 тыс. часов работы на GPU.
Результаты и обобщение
Два ключевых демонстрационных примера:
* Предсказуемость в масштабе: для 8-битной плотной модели и Llama-4 17B×16 MoE («Scout») расширенное обучение точно следовало сигмоидальным экстраполяциям, полученным из сегментов с меньшими вычислительными ресурсами.
* Передача вниз по течению: улучшения в процентах прохождения на независимом и одинаково распределённом наборе проверки отслеживают последующую оценку (например, AIME-24), что позволяет предположить, что кривая производительности вычислений не является артефактом набора данных.
Исследование также сравнивает подогнанные кривые для распространённых рецептов (например, DeepSeek (GRPO), Qwen-2.5 (DAPO), Magistral, MiniMax-M1) и сообщает о более высокой асимптотической производительности и лучшей эффективности вычислений для ScaleRL в их настройке.
Какие ручки управления перемещают потолок по сравнению с эффективностью?
Эта структура позволяет классифицировать дизайнерские решения:
* Перемещение потолка (асимптота): масштабирование размера модели (например, MoE) и увеличение длины генерации (до 32 768 токенов) повышают асимптотическую производительность, но могут замедлять ранний прогресс. Более крупный глобальный размер пакета также может поднять окончательную асимптоту и стабилизировать обучение.
* Формирование эффективности: агрегация потерь, нормализация преимуществ, учебный план и внеполитический конвейер в основном меняют скорость приближения к потолку, а не сам потолок.
На практике исследовательская группа рекомендует подгонять кривые на раннем этапе и определять приоритеты вмешательств, которые поднимают потолок, а затем настраивать ручки управления эффективностью, чтобы достичь его быстрее при фиксированных вычислительных ресурсах.
Основные выводы
Исследовательская группа моделирует прогресс постобучения RL с помощью сигмоидальных кривых производительности вычислений (процент прохождения по сравнению с логарифмом вычислительных ресурсов), что позволяет надёжно экстраполировать — в отличие от степенных соответствий по ограниченным показателям.
Рецепт ScaleRL сочетает в себе PipelineRL-k (асинхронный генератор–тренер), потери CISPO, FP32 логиты, агрегацию на уровне запросов, нормализацию преимуществ, управление длиной на основе прерываний, фильтрацию с нулевой дисперсией и отсутствие положительной повторной выборки.
Используя эти соответствия, исследовательская группа предсказала и сопоставила расширенные прогоны вплоть до 100 тыс. часов работы на GPU (8B плотных) и примерно 50 тыс. часов работы на GPU (17B×16 MoE «Scout») на валидационных кривых.
Аблации показывают, что некоторые решения перемещают асимптотический потолок (A) (например, масштаб модели, увеличение длины генерации, больший глобальный пакет), в то время как другие в основном улучшают эффективность вычислений (B) (например, агрегация/нормализация, учебный план, внеполитический конвейер).
Эта структура обеспечивает раннее прогнозирование, чтобы решить, стоит ли масштабировать прогон, а улучшения на интра-дистрибутивной валидационной выборке отслеживают внешние метрики (например, AIME-24), поддерживая внешнюю валидность.
1. Какие проблемы решает использование сигмоидальных кривых в постобучении с подкреплением (RL) для больших языковых моделей (LLM)?
Использование сигмоидальных кривых в постобучении с подкреплением (RL) для больших языковых моделей (LLM) решает проблему отсутствия правил масштабирования для прогнозирования. Ранее команды вкладывали десятки тысяч часов работы на графических процессорах (GPU) в эксперименты, не имея обоснованного способа оценить, будет ли рецепт продолжать улучшаться с увеличением вычислительных ресурсов. Теперь же можно использовать сигмоидальные кривые для моделирования прогресса RL и прогнозирования результатов при различных бюджетах вычислительных ресурсов.
2. Какие преимущества предлагает модель ScaleRL по сравнению с другими методами постобучения RL?
Модель ScaleRL предлагает несколько преимуществ по сравнению с другими методами постобучения RL. Во-первых, она обеспечивает стабильное масштабирование благодаря совокупности решений, которые включают асинхронный конвейер RL, CISPO в качестве RL-потери, точность FP32 в логитах и другие компоненты. Во-вторых, ScaleRL позволяет надёжно экстраполировать результаты на большие масштабы, включая прогоны до 100 тыс. часов работы на GPU. В-третьих, ScaleRL показывает более высокую асимптотическую производительность и лучшую эффективность вычислений по сравнению с распространёнными рецептами.
3. Какие дизайнерские решения позволяют перемещать потолок производительности в постобучении RL?
Дизайнерские решения, которые позволяют перемещать потолок производительности в постобучении RL, включают масштабирование размера модели, увеличение длины генерации и увеличение глобального размера пакета. Эти решения могут поднять асимптотическую производительность, но могут замедлять ранний прогресс.
4. Какие методы используются для формирования эффективности в постобучении RL?
Для формирования эффективности в постобучении RL используются методы агрегации потерь, нормализации преимуществ, учебного плана и внеполитического конвейера. Эти методы в основном меняют скорость приближения к потолку производительности, а не сам потолок.
5. Какие выводы можно сделать из исследования о постобучении RL с использованием сигмоидальных кривых?
Из исследования можно сделать несколько выводов. Во-первых, сигмоидальные кривые позволяют надёжно экстраполировать результаты постобучения RL на большие масштабы. Во-вторых, модель ScaleRL обеспечивает стабильное масштабирование и показывает более высокую асимптотическую производительность и лучшую эффективность вычислений. В-третьих, дизайнерские решения, такие как масштабирование размера модели и увеличение длины генерации, позволяют перемещать потолок производительности, а методы агрегации потерь и нормализации преимуществ — формировать эффективность.