Обучение с подкреплением в режиме off-policy с использованием дивергенции KL обеспечивает превосходное рассуждение в больших языковых моделях
Методы градиента политики значительно продвинули возможности рассуждения больших языковых моделей (LLM), особенно через обучение с подкреплением (RL). Ключевым инструментом стабилизации этих методов является регуляризация Кульбака-Лейблера (KL), которая препятствует резким изменениям между текущей и эталонной стратегиями. Хотя такие алгоритмы, как PPO, широко используют KL-регуляризацию, всё ещё многое предстоит изучить в том, как различные варианты KL, такие … Читать далее