Недавние достижения в области больших языковых моделей (LLM), ориентированных на рассуждения, расширили возможности обучения с подкреплением (RL) за пределы узких, специфичных для задач приложений, обеспечивая более широкие возможности обобщения и рассуждения. Однако этот сдвиг создаёт значительные проблемы, особенно в масштабировании вычислительных ресурсов, необходимых для обучения на основе опыта.
В отличие от обучения имитации посредством предварительного обучения и тонкой настройки, RL требует более ресурсоёмкого подхода. Центральной проблемой является снижение энтропии политики, что влияет на баланс между использованием известных стратегий и исследованием новых. Этот компромисс между исследованием и эксплуатацией является фундаментальным в RL, и контроль над энтропией политики стал критически важным для поддержания эффективного исследования во время обучения.
Существующие подходы
Существующие усилия направлены на решение проблемы компромисса между исследованием и эксплуатацией в RL с использованием энтропии политики. RL с максимальной энтропией вводит член регуляризации в функцию вознаграждения, способствуя неопределённости при выборе действий и поощряя более широкое исследование. Хотя этот метод широко используется в традиционных алгоритмах RL, его применение к LLM остаётся предметом дискуссий.
Более того, предсказуемость в RL для LLM не изучена. Хотя нейронные законы масштабирования определяют развитие LLM, аналогичные прогнозирующие рамки для обучения RL остаются ограниченными. Существующие методы RL для LLM с поддающимися проверке вознаграждениями демонстрируют многообещающие улучшения в рассуждениях, но им не хватает глубокого понимания их основных механизмов.
Исследования лаборатории искусственного интеллекта Шанхая
Исследователи из Шанхайской лаборатории искусственного интеллекта, Университета Цинхуа, UIUC, Пекинского университета, Нанкинского университета и CUHK предлагают подход к решению проблемы коллапса энтропии политики в RL для LLM, ориентированных на рассуждения. Они установили уравнение преобразования:
$R = −a \text{exp} H + b$,
где $H$ — энтропия, $R$ — производительность, а $a$ и $b$ — коэффициенты подгонки. Этот эмпирический закон убедительно показывает, что производительность политики зависит от энтропии политики, которая ограничивается её истощением.
Исследователи изучают динамику энтропии, и их вывод подчёркивает, что изменение энтропии политики обусловлено ковариацией между вероятностью действия и изменением логитов. Они также предложили два метода: Clip-Cov и KL-Cov, которые ограничивают и применяют KL-штраф к токенам с высокой ковариацией соответственно.
Эксперименты
Для изучения и подтверждения феномена коллапса энтропии в RL-настроенных LLM исследователи применили RL к LLM в проверяемых задачах, таких как математика и кодирование, используя установку авторегрессионной генерации, где модели создают последовательности токенов на основе входных подсказок.
Исследование включает 11 широко используемых открытых моделей, охватывающих четыре семейства: Qwen2.5, Mistral, LLaMA и DeepSeek, с параметрами от 0,5 млрд до 32 млрд. Оценки проводятся на восьми общедоступных бенчмарках, включая MATH500, AIME 2024, AMC и Eurus-2-RL-Code.
Обучение RL проводится в рамках фреймворка veRL в условиях zero-shot, используя алгоритмы, такие как GRPO, REINFORCE++ и PRIME, для оптимизации производительности политики при наблюдении за динамикой энтропии.
Предложенные методы Clip-Cov и KL-Cov были оценены на моделях Qwen2.5 с использованием набора данных DAPOMATH для математических задач. Эти методы достигают нетривиальных приростов производительности по всем бенчмаркам. По сравнению с базовым уровнем GRPO эти методы улучшают производительность в среднем на 2,0% для модели 7 млрд и на 6,4% для модели 32 млрд.
Заключение
Исследователи преодолели проблему коллапса энтропии политики в RL для LLM, ориентированных на рассуждения. Результаты подчёркивают компромисс между улучшением производительности и снижением исследования, который в конечном итоге ограничивает дальнейшие достижения.
Благодаря теоретическому анализу и эмпирической проверке исследователи определяют динамику энтропии как ключевое узкое место и предлагают две эффективные стратегии регуляризации — Clip-Cov и KL-Cov — для управления токенами с высокой ковариацией и поддержания исследования.
По мере того как RL становится важной осью для масштабирования за пределы предварительного обучения, решение проблемы коллапса энтропии становится существенным. Эта работа предоставляет фундаментальные идеи о роли энтропии, направляя будущие усилия по масштабированию RL для создания более интеллектуальных и способных языковых моделей.