Введение: необходимость эффективного RL в LRM
Обучение с подкреплением (Reinforcement Learning, RL) всё чаще используется для улучшения больших языковых моделей (LLMs), особенно в задачах, требующих рассуждений. Эти модели, известные как Large Reasoning Models (LRMs), генерируют промежуточные «шаги мышления» перед предоставлением окончательных ответов, тем самым повышая производительность при решении сложных задач, таких как математика и программирование. Однако обучение LRM с помощью RL в масштабе является сложной задачей из-за необходимости массового распараллеливания и эффективной системной организации.
Текущие системы часто полагаются на синхронную пакетную обработку, где генерация должна ждать, пока самый долгий вывод в пакете не будет завершён, что приводит к недоиспользованию GPU. Даже новые методы всё ещё сталкиваются с узкими местами, поскольку они используют устаревшие развёртывания, но остаются пакетными.
Предыстория: влияние RL на способности LLM к рассуждению
RL стало широко используемой стратегией для улучшения способностей LLM к рассуждению, особенно для задач с чётко определёнными сигналами вознаграждения, таких как математика, кодирование, научное рассуждение и использование инструментов. Эти модели обычно улучшают свои показатели, расширяя цепочку рассуждений во время обучения.
Исследования с открытым исходным кодом показали, что дистиллированные, более мелкие модели также могут хорошо справляться с такими задачами. Асинхронные методы RL, доказавшие свою эффективность в играх, недавно были исследованы для LLM, но в основном в сценариях с коротким контекстом или ограниченным перекрытием.
Обзор системы: представление AREAL
Исследователи из IIIS, Университета Цинхуа, Ant Research и HKUST представляют AREAL — полностью асинхронную систему обучения с подкреплением, предназначенную для более эффективного обучения больших моделей для рассуждений.
В отличие от традиционных синхронных систем, AREAL разделяет процессы генерации и обучения; работники по развёртыванию непрерывно производят выходные данные, в то время как работники по обучению обновляют модель параллельно по мере поступления новых данных. Такая организация повышает использование GPU и ускоряет обучение.
Для обработки устаревших данных AREAL использует адаптированную версию PPO и включает такие оптимизации, как динамическое пакетирование и параллельные службы вознаграждения. В задачах по математике и кодированию AREAL обеспечивает до 2,77× более быстрое обучение, сохраняя или улучшая конечную производительность модели.
Техническая архитектура: ключевые компоненты и оптимизации
AREAL предназначен для разделения генерации и обучения в отдельных кластерах GPU, улучшая масштабируемость, эффективность оборудования и гибкость для обучения с подкреплением с использованием больших моделей.
Система включает четыре основных компонента:
* работники по развёртыванию, которые поддерживают прерывистую генерацию и обновления модели;
* служба вознаграждения, которая оценивает ответы;
* работники по обучению, которые выполняют обновления PPO;
* контроллер, который координирует поток данных.
Для решения таких задач, как устаревание данных и несогласованность версий политик, AREAL использует обучение с учётом устаревания и декорутированный PPO-объект.
Кроме того, оптимизации на уровне системы, такие как конвейерные операции CPU-GPU, небуферизованные асинхронные запросы и динамическая упаковка последовательностей, повышают скорость обучения и эффективность использования GPU.
Экспериментальные результаты: масштабирование и производительность
AREAL был протестирован на математических и кодовых задачах с использованием дистиллированных моделей Qwen2 различных размеров. Он достиг в 2–3 раза более быстрого обучения, чем предыдущие методы, такие как DeepScaleR и DeepCoder, сохраняя при этом сопоставимую точность.
Система эффективно масштабируется на GPU и обрабатывает длинные контексты (до 32 тыс. токенов), превосходя ключевые особенности синхронных методов, такие как прерывистая генерация и динамическое микропакетирование, которые повышают скорость обучения и использование оборудования.
Заключение: продвижение крупномасштабного RL для языковых моделей
AREAL — это асинхронная система обучения с подкреплением, разработанная для повышения эффективности обучения LLM, особенно в таких задачах, как кодирование и математические рассуждения.
В отличие от традиционных синхронных методов, которые ждут всех выходных данных перед обновлением, AREAL позволяет генерации и обучению работать параллельно. Это снижает время простоя GPU и повышает производительность.
Для обеспечения стабильности обучения AREAL вводит стратегии учёта устаревания и модифицированный алгоритм PPO, который эффективно обрабатывает устаревшие данные обучения. Эксперименты показывают, что он обеспечивает до 2,77 раз более быстрое обучение, чем синхронные системы, без ущерба для точности, что является шагом вперёд в масштабировании RL для больших моделей.