Обучение с подкреплением (RL) играет решающую роль в масштабировании языковых моделей, позволяя им решать сложные задачи, такие как математика на уровне соревнований и программирование, благодаря более глубокому анализу. Однако достижение стабильной и надёжной динамики обучения — это сложная задача при масштабировании RL с использованием более крупных вычислительных ресурсов.
Современные передовые алгоритмы, такие как GRPO, сталкиваются с серьёзными проблемами стабильности при обучении гигантских языковых моделей, что часто приводит к катастрофическим сбоям. Эти нестабильности возникают из-за некорректного использования весовых коэффициентов важности, которые вносят шум с высокой дисперсией. Этот шум накапливается с увеличением длины ответов и усугубляется механизмами клиппинга. Это приводит к коллапсу модели и препятствует прогрессу.
Существующие методы
Существующие методы, такие как PPO и GRPO, используют механизмы клиппинга для решения проблем обучения вне политики, когда ответы берутся из устаревших политик. Однако эти подходы сталкиваются с ограничениями из-за плохо поставленных целей, особенно в больших моделях, работающих с задачами, требующими длинных ответов.
GRPO использует выборочный подход на уровне токенов, что вносит шум с высокой дисперсией и необратимый коллапс модели. Попытки восстановления после коллапса путём настройки гиперпараметров или восстановления контрольных точек терпят неудачу, что подчёркивает фундаментальный недостаток конструкции. Несоответствие между корректировками на уровне токенов и вознаграждениями на уровне последовательностей подчёркивает необходимость нового подхода, который оптимизирует непосредственно на уровне последовательностей для обеспечения стабильности и масштабируемости.
Группа исследователей из Alibaba Inc. предложила Group Sequence Policy Optimization (GSPO) — алгоритм RL, предназначенный для обучения LLM.
Основные инновации GSPO:
* теоретически обоснованное соотношение важности, полученное на основе последовательной вероятности, которое соответствует принципам выборочного подхода;
* расчёт нормализованных вознаграждений как преимуществ для нескольких ответов на запрос, что способствует согласованности между вознаграждениями на уровне последовательностей и целями оптимизации.
Эмпирические оценки показывают, что GSPO значительно превосходит GRPO по стабильности, эффективности и общей производительности. Решая проблемы стабильности при обучении больших моделей Mixture-of-Experts (MoE), GSPO устраняет необходимость в сложных методах стабилизации.
Эксперимент
Исследователи используют модель холодного старта, настроенную на Qwen3-30B-A3B-Base. Они сообщают о кривых вознаграждения за обучение и кривых производительности модели на основе AIME’24, LiveCodeBench и CodeForces. Во время обучения данные о развёртывании в каждом пакете делятся на четыре мини-пакета для обновления градиента. GSPO обрезает целые ответы, а не отдельные токены, причём диапазоны обрезки установлены на 3e-4 и 4e-4 в его формулировке. Это приводит к разнице в два порядка величины в доле обрезанных токенов по сравнению с GRPO. Несмотря на удаление большего количества токенов для оценки градиента, GSPO достигает более высокой эффективности обучения. Этот результат подчёркивает неэффективность зашумленных оценок на уровне токенов в GRPO.
GSPO предлагает значительные преимущества для обучения MoE, стабилизируя процесс за счёт согласованной активации экспертов во время обновлений градиента, в отличие от GRPO, который борется с нестабильностью активации экспертов. Это устраняет необходимость в сложных решениях, таких как Routing Replay, упрощая инфраструктуру и позволяя моделям использовать свою полную мощность.
В инфраструктуре RL оптимизация на уровне последовательностей в GSPO снижает зависимость от вероятностей на уровне токенов, делая её более устойчивой к несоответствию точности. Это позволяет напрямую использовать вероятности механизма логического вывода, избегая дорогостоящих перерасчётов и повышая эффективность частичных развёртываний и многоэтапного RL.
GSPO также упрощает инфраструктуру RL для крупномасштабного обучения языковым моделям.
В заключение, исследователи представили оптимизацию групповой последовательной политики (GSPO) — алгоритм RL, предназначенный для обучения LLM. GSPO основан на принципах выборочного подхода и вводит последовательный клиппинг, вознаграждение и оптимизацию для преодоления нестабильности и неэффективности, наблюдаемых в GRPO. Его превосходная производительность в плане стабильности обучения, эффективности и масштабируемости, особенно для моделей MoE, подчёркивает его важность как прочной алгоритмической основы.
Достижения, ставшие возможными благодаря GSPO, сыграли ключевую роль в замечательной производительности моделей Qwen3. Основываясь на GSPO как на основополагающем подходе, исследователи планируют расширить методы RL, открывая дверь для прорывного прогресса в области искусственного интеллекта.
Ознакомиться с документом можно на [сайте](ссылка). За дополнительными материалами, такими как руководства, коды и блокноты, вы можете обратиться к нашей [странице на GitHub](ссылка). Подписывайтесь на нас в [Twitter](ссылка) и присоединяйтесь к нашему сообществу в [ML SubReddit](ссылка), насчитывающему более 100 тысяч участников, а также подписывайтесь на нашу [рассылку](ссылка).
1. Какие проблемы решает алгоритм GSPO в контексте обучения с подкреплением для языковых моделей?
Алгоритм GSPO решает проблемы нестабильности и неэффективности при обучении гигантских языковых моделей. Он оптимизирует процесс обучения на уровне последовательностей, устраняя необходимость в сложных методах стабилизации и упрощая инфраструктуру RL.
2. Какие основные инновации предлагает GSPO по сравнению с другими алгоритмами RL?
Основные инновации GSPO включают:
* теоретически обоснованное соотношение важности, полученное на основе последовательной вероятности;
* расчёт нормализованных вознаграждений как преимуществ для нескольких ответов на запрос;
* последовательный клиппинг, вознаграждение и оптимизация для преодоления нестабильности и неэффективности.
3. Как GSPO влияет на производительность моделей Mixture-of-Experts (MoE)?
GSPO значительно превосходит GRPO по стабильности, эффективности и общей производительности при обучении моделей MoE. Он стабилизирует процесс за счёт согласованной активации экспертов во время обновлений градиента, что устраняет необходимость в сложных решениях, таких как Routing Replay, и упрощает инфраструктуру.
4. Какие экспериментальные данные подтверждают эффективность GSPO?
Исследователи использовали модель холодного старта, настроенную на Qwen3-30B-A3B-Base, и сообщили о кривых вознаграждения за обучение и кривых производительности модели на основе AIME’24, LiveCodeBench и CodeForces. Эксперименты показали, что GSPO достигает более высокой эффективности обучения и превосходит GRPO по стабильности и производительности.
5. Какие перспективы открывает использование GSPO для дальнейшего развития RL в области искусственного интеллекта?
Основываясь на GSPO как на основополагающем подходе, исследователи планируют расширить методы RL, открывая дверь для прорывного прогресса в области искусственного интеллекта. Это может привести к разработке новых алгоритмов и методов, которые улучшат производительность и стабильность обучения языковых моделей.