Обучение с подкреплением в режиме off-policy с использованием дивергенции KL обеспечивает превосходное рассуждение в больших языковых моделях

Методы градиента политики значительно продвинули возможности рассуждения больших языковых моделей (LLM), особенно через обучение с подкреплением (RL). Ключевым инструментом стабилизации этих методов является регуляризация Кульбака-Лейблера (KL), которая препятствует резким изменениям между текущей и эталонной стратегиями.

Хотя такие алгоритмы, как PPO, широко используют KL-регуляризацию, всё ещё многое предстоит изучить в том, как различные варианты KL, такие как Forward KL, Reverse KL и их ненормализованные формы, могут быть оценены и применены в функциях потерь.

Тонкости обучения LLM с учётом обратной связи от человека

Тонкая настройка LLM с учётом обратной связи от человека имеет решающее значение для создания согласованных систем искусственного интеллекта. Применяются две основные стратегии:
* оптимизация с помощью моделей вознаграждения с использованием методов градиента политики, таких как PPO;
* прямое обучение на основе человеческих предпочтений с помощью таких методов, как Direct Preference Optimization (DPO).

Хотя PPO стабилизирует обучение с помощью моделей вознаграждения, DPO и его варианты используют попарные сравнения для упрощения и масштабирования обучения, набирая популярность в последних моделях.

Обучение с подкреплением также всё чаще используется для улучшения рассуждений LLM, особенно в таких сложных задачах, как математика и программирование. Новые методы направлены на снижение вычислительных затрат и повышение стабильности обучения, часто путём замены ценностных сетей или модификации KL-штрафов.

Исследование UCLA, Университета Цинхуа и Шанхайского Qi Zhi

Исследователи из UCLA, Университета Цинхуа и Шанхайского Qi Zhi представляют Regularized Policy Gradient (RPG), единую структуру для градиентов политики с KL-регуляризацией в онлайн-обучении с подкреплением. Они выводят градиенты политики и суррогатные функции потерь, используя как прямую, так и обратную дивергенцию KL, рассматривая нормализованные и ненормализованные политики.

RPG поддерживает как полностью дифференцируемые цели, так и оценщики в стиле REINFORCE, адаптированные для обучения в режиме off-policy с выборкой по важности. Исследование также выявляет и устраняет теоретические проблемы существующих методов, таких как GRPO, и исследует регуляризацию KL в REINFORCE++.

Эксперименты по задачам рассуждения LLM демонстрируют, что RPG обеспечивает улучшенную стабильность и производительность по сравнению с ведущими базовыми показателями, включая GRPO, REINFORCE++ и DAPO.

Методы RPG

В исследовании представлены методы градиента политики, которые включают регуляризацию дивергенции KL как в онлайн-, так и в off-policy настройках с помощью выборки по важности из более старой политики. Для прямой KL градиент включает взвешенные по важности вознаграждения и член регуляризации, а его потери напоминают потери максимального правдоподобия, когда вознаграждения равны нулю. Ненормализованный прямой KL добавляет коррекцию для несогласованных масс распределения. Аналогично, обратный KL и его ненормализованная форма наказывают отклонение от эталонной политики, модифицируя вознаграждение на основе логарифмических соотношений вероятностей.

Все подходы имеют структуру градиента, подобную REINFORCE, что позволяет использовать альтернативные реализации с помощью оператора стоп-градиента, который поддерживает стабильную и эффективную оптимизацию на практике.

Оценка методов RPG

Исследователи провели тщательную оценку предложенных методов RPG — как дифференцируемых, так и в стиле REINFORCE — путём сравнения их с несколькими установленными базовыми показателями по комплексным задачам математического рассуждения с использованием языковых моделей Qwen2.5. Они обучались на наборе данных DAPO-Math-17k и оценивали производительность с помощью таких тестов, как AMC23 и AIME.

Варианты RPG последовательно демонстрировали высокую точность, стабильность обучения и эффективное использование памяти. Реализация использовала фреймворк Verl и такие методы, как KL-регуляризация, PPO-стилевое отсечение и Schedule-Free AdamW для более плавной оптимизации. Модели RPG в целом превосходили другие в формировании вознаграждений, контроле энтропии и длине ответов, подчёркивая их надёжность и пригодность для стабильного, высокопроизводительного обучения.

В заключение, RPG представляет собой комплексную структуру для проектирования и анализа методов градиента политики, которые включают KL-регуляризацию в онлайн- и off-policy обучении с подкреплением. Они исследуют ряд конфигураций, включая прямую и обратную дивергенции KL, нормализованные и ненормализованные распределения политик, а также два типа оценщиков: полностью дифференцируемые и в стиле REINFORCE.

RPG стремится предоставить структурированный подход к пониманию и реализации этих вариаций. Применительно к задачам рассуждения с большими языковыми моделями предложенные методы демонстрируют более стабильное обучение и конкурентоспособную или улучшенную производительность по сравнению с установленными базовыми показателями, такими как GRPO, REINFORCE++ и DAPO.

Источник

Оставьте комментарий