Microsoft представляет rStar2-Agent: модель математических рассуждений на 14 миллиардов параметров, обученная с помощью агентского обучения с подкреплением для достижения передовых показателей

Оглавление

1. Проблема «более длительного размышления».
2. Агентский подход.
3. Проблемы инфраструктуры и решения.
4. GRPO-RoC: обучение на высококачественных примерах.
5. Стратегия обучения: от простого к сложному.
6. Прорывные результаты.
7. Понимание механизмов.
8. Резюме.

Проблема «более длительного размышления»

Большие языковые модели добились впечатляющих успехов в математических рассуждениях, расширив свои процессы «Chain-of-Thought» (CoT) — по сути, «размышляя дольше» за счёт более детальных шагов рассуждения. Однако у этого подхода есть фундаментальные ограничения. Когда модели сталкиваются с тонкими ошибками в своих цепочках рассуждений, они часто усугубляют эти ошибки, а не обнаруживают и исправляют их. Внутреннее самоосмысление часто терпит неудачу, особенно когда изначально подход к рассуждению принципиально ошибочен.

В новом исследовательском отчёте Microsoft представлена модель rStar2-Agent, которая использует другой подход: вместо того чтобы просто «думать дольше», она учит модели «думать умнее», активно используя инструменты кодирования для проверки, изучения и уточнения своего процесса рассуждения.

Агентский подход

rStar2-Agent представляет собой сдвиг в сторону агентского обучения с подкреплением, где модель с 14 миллиардами параметров взаимодействует со средой выполнения Python на протяжении всего процесса рассуждения. Вместо того чтобы полагаться исключительно на внутреннее размышление, модель может писать код, выполнять его, анализировать результаты и корректировать свой подход на основе конкретной обратной связи.

Это создаёт динамический процесс решения проблем. Когда модель сталкивается со сложной математической задачей, она может генерировать начальные рассуждения, писать код Python для проверки гипотез, анализировать результаты выполнения и итерировать к решению. Подход отражает то, как часто работают математики-люди — используя вычислительные инструменты для проверки интуиции и изучения различных путей решения.

Проблемы инфраструктуры и решения

Масштабирование агентского RL представляет значительные технические трудности. Во время обучения одна партия может генерировать десятки тысяч одновременных запросов на выполнение кода, создавая узкие места, которые могут привести к снижению использования GPU. Исследователи решили эту проблему с помощью двух ключевых инноваций в инфраструктуре.

Во-первых, они создали распределённую службу выполнения кода, способную обрабатывать 45 000 одновременных вызовов инструментов с задержкой менее секунды. Система изолирует выполнение кода от основного процесса обучения, сохраняя при этом высокую пропускную способность за счёт тщательного балансировки нагрузки между работниками CPU.

Во-вторых, они разработали динамический планировщик развёртывания, который распределяет вычислительную работу в зависимости от доступности кэша GPU в режиме реального времени, а не от статического назначения. Это предотвращает время простоя GPU, вызванное неравномерным распределением рабочей нагрузки — распространённой проблемой, когда некоторые трассы рассуждений требуют значительно больше вычислений, чем другие.

Эти усовершенствования инфраструктуры позволили завершить весь процесс обучения всего за одну неделю с использованием 64 AMD MI300X GPU, продемонстрировав, что для достижения передовых возможностей рассуждений не требуются огромные вычислительные ресурсы при эффективной организации.

GRPO-RoC: обучение на высококачественных примерах

Основной алгоритмической инновацией является групповая относительная оптимизация политики с повторной выборкой на основе правильных (GRPO-RoC). Традиционное обучение с подкреплением в этом контексте сталкивается с проблемой качества: модели получают положительные вознаграждения за правильные окончательные ответы, даже если их процесс рассуждения включает в себя множество ошибок в коде или неэффективное использование инструментов.

GRPO-RoC решает эту проблему, реализуя асимметричную стратегию выборки. Во время обучения алгоритм:
* Перевыбирает начальные развёртывания для создания большего пула трасс рассуждений.
* Сохраняет разнообразие в неудачных попытках, чтобы поддерживать обучение на различных режимах ошибок.
* Фильтрует положительные примеры, чтобы подчеркнуть трассы с минимальными ошибками в инструментах и более чистым форматированием.

Этот подход гарантирует, что модель учится на основе высококачественных успешных рассуждений, сохраняя при этом воздействие различных моделей отказов. В результате повышается эффективность использования инструментов и сокращаются, более целенаправленные трассы рассуждений.

Стратегия обучения: от простого к сложному

Процесс обучения состоит из трёх тщательно разработанных этапов, начиная с ненаправленного супервизированного уточнения, которое фокусируется исключительно на следовании инструкциям и форматировании инструментов — намеренно избегая сложных примеров рассуждений, которые могут создать ранние предубеждения.

Этап 1 ограничивает ответы 8 000 токенами, заставляя модель разрабатывать краткие стратегии рассуждений. Несмотря на это ограничение, производительность резко возрастает — с почти нулевого до более 70% по сложным бенчмаркам.

Этап 2 увеличивает лимит токенов до 12 000, позволяя более сложные рассуждения, сохраняя при этом эффективность, достигнутую на первом этапе.

Этап 3 смещает фокус на наиболее сложные задачи, отфильтровывая те, которые модель уже освоила, обеспечивая непрерывное обучение на сложных примерах.

Этот переход от кратких к расширенным рассуждениям в сочетании с увеличением сложности задач максимизирует эффективность обучения при минимизации вычислительных затрат.

Прорывные результаты

Результаты поразительны. rStar2-Agent-14B достигает 80,6% точности на AIME24 и 69,8% на AIME25, превосходя гораздо более крупные модели, включая модель DeepSeek-R1 с 671 миллиардом параметров. Возможно, что более важно, это достигается со значительно более короткими трассами рассуждений — в среднем около 10 000 токенов по сравнению с более чем 17 000 для сопоставимых моделей.

Эффективность выходит за рамки математики. Несмотря на обучение исключительно на математических задачах, модель демонстрирует сильное трансферное обучение, превосходя специализированные модели на тестах научного рассуждения и сохраняя конкурентоспособную производительность в общих задачах выравнивания.

Понимание механизмов

Анализ обученной модели выявляет увлекательные поведенческие паттерны. Токены с высокой энтропией в трассах рассуждений делятся на две категории: традиционные «разветвляющиеся токены», которые запускают самоосмысление и исследование, и новая категория «токенов отражения», которые появляются специально в ответ на обратную связь от инструментов.

Эти токены отражения представляют собой форму рассуждений, управляемых средой, когда модель тщательно анализирует результаты выполнения кода, диагностирует ошибки и соответствующим образом корректирует свой подход. Это создаёт более сложное поведение при решении проблем, чем может достичь чистое CoT-рассуждение.

Резюме

rStar2-Agent демонстрирует, что модели среднего размера могут достичь передовых показателей рассуждений благодаря тщательному обучению, а не простому масштабированию. Подход предполагает более устойчивый путь к передовым возможностям искусственного интеллекта — тот, который делает упор на эффективность, интеграцию инструментов и интеллектуальные стратегии обучения, а не на необработанную вычислительную мощность.

Успех этого агентского подхода также указывает на будущие системы искусственного интеллекта, которые могут беспрепятственно интегрировать несколько инструментов и сред, выходя за рамки статического создания текста к динамическим, интерактивным возможностям решения проблем.

1. Какие проблемы существуют у больших языковых моделей при решении математических задач и как модель rStar2-Agent решает эти проблемы?

В тексте указано, что большие языковые модели сталкиваются с проблемой «более длительного размышления», когда они могут углубляться в детальные шаги рассуждения, но при этом могут усугублять ошибки в своих цепочках рассуждений. Модель rStar2-Agent решает эту проблему, обучая модель «думать умнее» с помощью инструментов кодирования для проверки, изучения и уточнения своего процесса рассуждения.

2. Какие технические трудности возникают при масштабировании агентского RL и как исследователи решили эти проблемы?

При масштабировании агентского RL возникают значительные технические трудности, связанные с созданием узких мест, которые могут привести к снижению использования GPU. Исследователи решили эту проблему с помощью двух ключевых инноваций в инфраструктуре: создали распределённую службу выполнения кода и разработали динамический планировщик развёртывания.

3. Какие этапы включает в себя процесс обучения rStar2-Agent и как они способствуют повышению эффективности обучения?

Процесс обучения rStar2-Agent состоит из трёх этапов: ненаправленное супервизированное уточнение, увеличение лимита токенов и смещение фокуса на наиболее сложные задачи. Эти этапы способствуют повышению эффективности обучения, так как позволяют модели разрабатывать краткие стратегии рассуждений, сохранять эффективность и обеспечивать непрерывное обучение на сложных примерах.

4. Какие результаты демонстрирует rStar2-Agent на AIME24 и AIME25 и как они сравниваются с результатами других моделей?

rStar2-Agent достигает 80,6% точности на AIME24 и 69,8% на AIME25, превосходя гораздо более крупные модели, включая модель DeepSeek-R1 с 671 миллиардом параметров. Это демонстрирует, что модель среднего размера может достичь передовых показателей рассуждений благодаря тщательному обучению.

5. Какие поведенческие паттерны выявляет анализ обученной модели rStar2-Agent?

Анализ обученной модели выявляет два типа токенов с высокой энтропией в трассах рассуждений: «разветвляющиеся токены», которые запускают самоосмысление и исследование, и «токены отражения», которые появляются в ответ на обратную связь от инструментов. Эти токены отражения представляют собой форму рассуждений, управляемых средой, когда модель анализирует результаты выполнения кода, диагностирует ошибки и корректирует свой подход.

Источник