Polaris-4B и Polaris-7B: дообучение с подкреплением для эффективного решения математических и логических задач

Растущая потребность в масштабируемых моделях рассуждений в машинном интеллекте

Современные модели рассуждений находятся на переднем крае машинного интеллекта, особенно в таких областях, как решение математических задач и символические рассуждения. Эти модели предназначены для выполнения многошаговых вычислений и логических выводов, часто генерируя решения, которые отражают процессы человеческого мышления.

Для повышения точности после предварительного обучения используются методы обучения с подкреплением (Reinforcement Learning, RL). Однако масштабирование этих методов при сохранении эффективности остаётся сложной задачей.

Поскольку растёт спрос на более мелкие и ресурсоэффективные модели, которые по-прежнему демонстрируют высокие способности к рассуждениям, исследователи обращаются к стратегиям, направленным на улучшение качества данных, методов исследования и обобщения в длинном контексте.

Проблемы в обучении с подкреплением для больших архитектур рассуждений

Постоянная проблема обучения с подкреплением для крупномасштабных моделей рассуждений — это несоответствие между возможностями модели и сложностью обучающих данных. Когда модель сталкивается с задачами, которые слишком просты, её кривая обучения стагнирует. И наоборот, слишком сложные данные могут перегрузить модель и не дать сигнала к обучению.

Ещё одна проблема — отсутствие методов для эффективной адаптации разнообразия роллаутов и длины выходных данных во время обучения и вывода. Это дополнительно ограничивает способности модели к рассуждениям на сложных бенчмарках.

Ограничения существующих подходов к дообучению для продвинутых моделей

Более ранние подходы, такие как DeepScaleR и GRPO, продемонстрировали, что обучение с подкреплением может улучшить производительность небольших моделей рассуждений с всего лишь 1,5 миллиардами параметров. Однако применение тех же методов к более мощным моделям, таким как Qwen3-4B или Deepseek-R1-Distill-Qwen-7B, приводит лишь к незначительным улучшениям или даже снижению производительности.

Одним из ключевых ограничений является статический характер распределения данных и ограниченное разнообразие выборки. Большинство этих подходов не фильтруют данные на основе возможностей модели, не корректируют температуру выборки или длину ответа с течением времени. В результате они часто неэффективно масштабируются при использовании с более продвинутыми архитектурами.

Введение Polaris: специальный рецепт для масштабируемого RL в задачах рассуждения

Исследователи из Университета Гонконга, Bytedance Seed и Фуданьского университета представили Polaris — рецепт дообучения, разработанный специально для масштабирования обучения с подкреплением для сложных задач рассуждения.

Polaris включает в себя две предварительные модели: Polaris-4B-Preview и Polaris-7B-Preview. Polaris-4B-Preview настроен на основе Qwen3-4B, а Polaris-7B-Preview основан на Deepseek-R1-Distill-Qwen-7B.

Исследователи сосредоточились на создании модели, не зависящей от конкретной модели, которая модифицирует сложность данных, поощряет разнообразные исследования за счёт контролируемой температуры выборки и расширяет возможности вывода за счёт экстраполяции длины.

Эти стратегии были разработаны с использованием наборов данных с открытым исходным кодом и обучающих конвейеров, а обе модели оптимизированы для работы на графических процессорах потребительского уровня (GPU).

Инновации Polaris: балансировка сложности, контролируемая выборка и вывод в длинном контексте

Polaris реализует несколько инноваций. Во-первых, данные для обучения курируются путём удаления задач, которые являются слишком простыми или нерешаемыми, создавая зеркальное J-образное распределение сложности. Это гарантирует, что данные для обучения будут развиваться вместе с растущими возможностями модели.

Во-вторых, исследователи динамически регулируют температуру выборки на разных этапах обучения — используя 1,4, 1,45 и 1,5 для Polaris-4B и 0,7, 1,0 и 1,1 для Polaris-7B — для поддержания разнообразия роллаутов.

Кроме того, метод использует технику экстраполяции на основе Yarn для увеличения длины контекста вывода до 96 тыс. токенов без дополнительного обучения. Это устраняет неэффективность обучения длинных последовательностей, позволяя использовать подход «тренируй коротко, тестируй долго».

Модель также использует такие методы, как механизм спасения роллаута и внутрипакетную информативную замену, чтобы предотвратить появление партий с нулевым вознаграждением и обеспечить сохранение полезных сигналов обучения, даже когда размер роллаута поддерживается на уровне 8.

Результаты тестирования: Polaris превосходит более крупные коммерческие модели

Модели Polaris демонстрируют современные результаты по ряду математических тестов. Polaris-4B-Preview показывает точность 81,2% на AIME24 и 79,4% на AIME25, опережая даже Qwen3-32B в тех же задачах, используя при этом менее 2% его параметров.

Он набирает 44,0% в Minerva Math, 69,1% на Olympiad Bench и 94,8% на AMC23. Polaris-7B-Preview также демонстрирует высокие результаты, набирая 72,6% на AIME24 и 52,6% на AIME25.

Эти результаты демонстрируют последовательное улучшение по сравнению с такими моделями, как Claude-4-Opus и Grok-3-Beta, утверждая Polaris как конкурентоспособную лёгкую модель, которая устраняет разрыв в производительности между небольшими открытыми моделями и коммерческими моделями объёмом 30 млрд+ параметров.

Заключение: эффективное обучение с подкреплением за счёт интеллектуальных стратегий дообучения

Исследователи продемонстрировали, что ключом к масштабированию моделей рассуждений является не только размер модели, но и интеллектуальный контроль над сложностью обучающих данных, разнообразием выборки и длиной вывода.

Polaris предлагает воспроизводимый рецепт, который эффективно настраивает эти элементы, позволяя меньшим моделям соперничать с мощными коммерческими системами.

1. Какие проблемы существуют при обучении с подкреплением для больших архитектур рассуждений и как они влияют на эффективность моделей?

В тексте указано, что одна из проблем — это несоответствие между возможностями модели и сложностью обучающих данных. Когда модель сталкивается с задачами, которые слишком просты, её кривая обучения стагнирует. И наоборот, слишком сложные данные могут перегрузить модель и не дать сигнала к обучению. Также упоминается отсутствие методов для эффективной адаптации разнообразия роллаутов и длины выходных данных во время обучения и вывода.

2. Какие инновации реализованы в модели Polaris для балансировки сложности, контролируемой выборки и вывода в длинном контексте?

В тексте указано, что данные для обучения в модели Polaris курируются путём удаления слишком простых или нерешаемых задач. Это создаёт зеркальное J-образное распределение сложности. Кроме того, исследователи динамически регулируют температуру выборки на разных этапах обучения для поддержания разнообразия роллаутов. Также используется техника экстраполяции на основе Yarn для увеличения длины контекста вывода до 96 тыс. токенов без дополнительного обучения.

3. Какие результаты показали модели Polaris на математических тестах и как они сравниваются с другими моделями?

В тексте указано, что Polaris-4B-Preview показывает точность 81,2% на AIME24 и 79,4% на AIME25, опережая даже Qwen3-32B в тех же задачах, используя при этом менее 2% его параметров. Он набирает 44,0% в Minerva Math, 69,1% на Olympiad Bench и 94,8% на AMC23. Polaris-7B-Preview также демонстрирует высокие результаты, набирая 72,6% на AIME24 и 52,6% на AIME25. Эти результаты демонстрируют последовательное улучшение по сравнению с такими моделями, как Claude-4-Opus и Grok-3-Beta.

4. Какие методы используются в модели Polaris для предотвращения появления партий с нулевым вознаграждением и сохранения полезных сигналов обучения?

В тексте указано, что модель использует такие методы, как механизм спасения роллаута и внутрипакетную информативную замену, чтобы предотвратить появление партий с нулевым вознаграждением и обеспечить сохранение полезных сигналов обучения, даже когда размер роллаута поддерживается на уровне 8.

5. Какие выводы можно сделать из результатов тестирования моделей Polaris и как они влияют на будущее масштабирования моделей рассуждений?

В тексте указано, что модели Polaris демонстрируют современные результаты по ряду математических тестов и превосходят более крупные коммерческие модели. Это позволяет сделать вывод о том, что ключом к масштабированию моделей рассуждений является не только размер модели, но и интеллектуальный контроль над сложностью обучающих данных, разнообразием выборки и длиной вывода. Polaris предлагает воспроизводимый рецепт, который эффективно настраивает эти элементы, позволяя меньшим моделям соперничать с мощными коммерческими системами.

Источник

Оставьте комментарий