В обучении с подкреплением (Reinforcement Learning, RL) больших языковых моделей (Large Language Models, LLM) методы, не основанные на оценке ценности, такие как GRPO и DAPO, продемонстрировали высокую эффективность. Однако настоящий потенциал заключается в методах, основанных на оценке ценности, которые позволяют более точно распределять «заслуги», корректно отслеживая влияние каждого действия на последующие результаты. Такая точность имеет решающее значение для сложного логического вывода, где незначительные ошибки могут привести к катастрофическим последствиям.
Тем не менее, при обучении эффективным моделям оценки для задач с длинной цепочкой рассуждений (Chain-of-Thought, CoT) возникают трудности: достижение низкого смещения несмотря на длительные траектории, управление различными предпочтениями коротких и длинных ответов, а также решение проблемы разреженности сигналов вознаграждения. Несмотря на теоретические преимущества, эти трудности препятствуют полной реализации методов, основанных на оценке ценности.
Методы обучения с подкреплением, основанные на оценке ценности для LLM, сталкиваются с тремя значительными проблемами при применении к задачам сложного логического вывода с длинной цепочкой рассуждений.
1. Проблема смещения модели оценки, выявленная в VC-PPO, показывает, что инициализация моделей оценки с помощью моделей вознаграждения вводит положительное смещение.
2. Различные длины последовательностей в задачах сложного логического вывода создают трудности для стандартных подходов, таких как GAE с фиксированными параметрами, которые не могут эффективно адаптироваться к последовательностям от очень коротких до чрезвычайно длинных.
3. Разреженность сигнала вознаграждения становится проблематичной в задачах, основанных на проверке, которые предоставляют двоичную обратную связь, а не непрерывные значения. Эта разреженность усугубляется длинными ответами CoT, создавая сложное соотношение исследования и эксплуатации во время оптимизации.
Исследователи из ByteDance Seed предложили Value Augmented Proximal Policy Optimization (VAPO) — фреймворк для обучения с подкреплением, основанный на оценке ценности, для решения проблем, связанных с задачами длинного логического вывода. VAPO вносит три ключевых нововведения:
* детализированный фреймворк обучения, основанный на оценке ценности, с превосходными производительностью и эффективностью;
* механизм GAE с адаптацией к длине, который настраивает параметры в зависимости от длины ответа для оптимизации оценки преимущества;
* систематическая интеграция техник из предыдущих исследований.
Используя модель Qwen2.5-32B без данных SFT, VAPO повышает оценки с 5 до 60, превосходя предыдущие передовые методы на 10 баллов.
Анализ динамики обучения показывает превосходные характеристики VAPO по сравнению с DAPO, включая более плавные кривые обучения, указывающие на более стабильную оптимизацию, лучшее масштабирование по длине, которое улучшает способности к обобщению, более быстрый рост оценок благодаря детальным сигналам, предоставляемым моделью оценки, и более низкую энтропию на поздних этапах обучения. Хотя снижение энтропии потенциально может ограничивать исследование, метод эффективно балансирует этот компромисс, что приводит к минимальному влиянию на производительность при одновременном повышении воспроизводимости и стабильности.
В то время как DeepSeek R1, использующий GRPO, набирает 47 баллов на AIME24, а DAPO достигает 50 баллов, VAPO соответствует производительности DAPO на Qwen-32b, используя всего 60% шагов обновления, и достигает нового рекорда в 60,4 балла всего за 5000 шагов. Ablation-исследования подтвердили эффективность семи предложенных модификаций: предварительное обучение модели оценки предотвращает коллапс, раздельный GAE обеспечивает полную оптимизацию развёрнутых ответов, адаптивный GAE балансирует оптимизацию коротких и длинных ответов, Clip-higher поощряет тщательное исследование, потеря на уровне токена увеличивает вес длинных ответов, потеря LM на положительных примерах добавляет 6 баллов, а групповая выборка вносит 5 баллов в итоговую производительность.
В этой статье исследователи представили VAPO — алгоритм, использующий модель Qwen2.5-32B для достижения передовых результатов на бенчмарке AIME24. Внедряя семь инновационных техник на основе фреймворка PPO, VAPO значительно совершенствует обучение оценке и создаёт оптимальный баланс между исследованием и эксплуатацией. Этот подход, основанный на оценке ценности, убедительно превосходит методы, не основанные на оценке, такие как GRPO и DAPO, устанавливая новый уровень производительности для задач логического вывода. Он решает фундаментальные проблемы обучения моделей оценки для сценариев с длинной цепочкой рассуждений, обеспечивая надёжную основу для развития LLM в приложениях, требующих интенсивного логического вывода.
Добавить комментарий