NVIDIA AI представляет ProRL: расширенное обучение с подкреплением открывает новые возможности в языковых моделях

Недавние достижения в области языковых моделей, ориентированных на рассуждения, ознаменовали серьёзный сдвиг в сфере искусственного интеллекта за счёт масштабирования вычислений во время тестирования. Обучение с подкреплением (RL) играет ключевую роль в развитии способностей к рассуждениям и предотвращении проблем, связанных с «взломом вознаграждения». Однако остаётся фундаментальный вопрос: предоставляет ли RL новые возможности для рассуждений на основе базовой модели или просто помогает оптимизировать эффективность выборки существующих решений.

Текущие исследования сталкиваются с двумя критическими ограничениями:
* сильная зависимость от специализированных областей, таких как математика, где модели часто переобучаются и ограничивают потенциал исследования;
* преждевременное прекращение обучения RL до того, как модели смогут полностью развить новые способности к рассуждению, что обычно ограничивает обучение сотнями шагов.

Модели рассуждений

Модели рассуждений представляют собой специализированные системы искусственного интеллекта, которые участвуют в подробных, длительных процессах CoT (Chain-of-Thought, цепочка мыслей) перед генерацией окончательных ответов. DeepSeek и Kimi имеют подробные методологии для обучения моделей рассуждений с использованием RL с поддающимися проверке вознаграждениями (RLVR), что делает популярными такие алгоритмы, как GRPO, Mirror Descent и RLOO.

Недавние методы, такие как AlphaGo и AlphaZero, продемонстрировали, что агенты искусственного интеллекта могут бесконечно улучшать свою производительность, показывая, что обучение RL помогает агентам разрабатывать новые методы, которых нет в их базовых моделях.

Исследователи из NVIDIA предложили ProRL — метод, предназначенный для обеспечения расширенных периодов обучения RL, способствуя более глубокому изучению стратегий рассуждения. ProRL поддерживает более 2 000 шагов обучения и масштабирует обучающие данные для различных задач, таких как математика, программирование, научные задачи, логические головоломки и следование инструкциям.

Используя ProRL, исследователи разработали Nemotron-Research-Reasoning-Qwen-1.5B — лучшую в мире модель рассуждений на 1,5 миллиарда параметров, которая превосходит базовую модель DeepSeek-R1-1.5B и превосходит DeepSeek-R1-7B в различных тестах. Это демонстрирует, что RL может обнаруживать действительно новые пути решения, которых нет в базовых моделях, при наличии достаточного времени обучения и применении к новым задачам рассуждения.

Набор данных для обучения

Исследователи создали разнообразный и поддающийся проверке набор данных для обучения, включающий 136 000 примеров в пяти областях задач: математика, код, STEM, логические головоломки и следование инструкциям.

Для реализации RL используется фреймворк verl, применяющий усовершенствования метода GRPO, предложенного DAPO.

Оценка модели

Для тестирования предложенной модели используется широкий спектр оценочных тестов в нескольких областях:
* математическая оценка включает AIME2024, AIME2025, AMC, MATH, Minerva Math и Olympiad Bench;
* оценка кодирования использует набор проверки PRIME, HumanevalPlus и LiveCodeBench;
* оценка логических головоломок использует 100 образцов из задач Reasoning Gym;
* возможности STEM-рассуждений и следования инструкциям оцениваются с использованием специально подобранных подмножеств из GPQA Diamond и IFEval соответственно.

В математике Nemotron-Research-Reasoning-Qwen-1.5B демонстрирует среднее улучшение на 15,7 % по всем бенчмаркам, в то время как задачи по программированию показывают улучшение на 14,4 % в точности pass@1. Домены STEM-рассуждений и следования инструкциям демонстрируют прирост на 25,9 % в GPQA Diamond и на 22,0 % в IFEval.

Модель демонстрирует улучшение на 54,8 % в вознаграждении, показывая высокую точность в логических головоломках Reasoning Gym. Оценка вне распределения показывает значительные улучшения в трёх невидимых задачах Reasoning Gym, подчёркивая эффективное обобщение за пределами обучающего распределения.

По сравнению с узкоспециализированными моделями DeepScaleR-1.5B и DeepCoder-1.5B, обученная с помощью ProRL модель достигает более высоких показателей pass@1 как по математическим (+4,6 %), так и по кодовым (+6,5 %) бенчмаркам.

В этой статье исследователи представили ProRL, который доказывает, что расширенное, стабильное обучение RL развивает новые модели рассуждений, выходящие за рамки первоначальных возможностей базовой модели. На основе этого метода исследователи разработали Nemotron-Research-Reasoning-Qwen-1.5B — лучшую в мире модель рассуждений на 1,5 миллиарда параметров.

ProRL демонстрирует свою способность решать задачи, с которыми исходные модели изначально не справляются, показывая, что расширенное обучение RL помогает моделям усвоить абстрактные модели рассуждений, которые можно перенести за пределы обучающих распределений.

Эти результаты ставят под сомнение предыдущие предположения об ограничениях RL и доказывают, что достаточное время обучения с использованием надлежащих методов может расширить границы рассуждений, прокладывая путь для разработки более совершенных моделей рассуждений.

Источник

Оставьте комментарий