NVIDIA представляет ProRLv2: новые горизонты в обучении языковых моделей с расширенным подкрепляющим обучением (RL)

Что такое ProRLv2?

ProRLv2 — это новейшая версия технологии Prolonged Reinforcement Learning (ProRL) от NVIDIA, разработанная специально для расширения возможностей рассуждений в больших языковых моделях (LLM). Увеличивая количество шагов подкрепляющего обучения (RL) с 2000 до 3000, ProRLv2 систематически тестирует, как расширенное RL может открыть новые пространства решений, креативность и высокоуровневое рассуждение, которые ранее были недоступны — даже для более мелких моделей, таких как Nemotron-Research-Reasoning-Qwen-1.5B-v2 с 1,5 миллиардами параметров.

Ключевые инновации в ProRLv2

ProRLv2 включает несколько инноваций для преодоления распространённых ограничений RL при обучении LLM:

* REINFORCE++-Baseline: надёжный алгоритм RL, который обеспечивает долгосрочную оптимизацию более чем на тысячах шагов, справляясь со стабильностью, типичной для RL в LLM.
* KL Divergence Regularization & Reference Policy Reset: периодически обновляет эталонную модель с помощью текущего лучшего контрольного пункта, обеспечивая стабильный прогресс и продолжение исследований, предотвращая слишком раннее доминирование цели RL.
* Decoupled Clipping & Dynamic Sampling (DAPO): поощряет поиск разнообразных решений за счёт повышения вероятности появления маловероятных токенов и сосредоточения обучающих сигналов на подсказках средней сложности.
* Scheduled Length Penalty: применяется циклически, помогая поддерживать разнообразие и предотвращать коллапс энтропии по мере удлинения обучения.
* Масштабирование этапов обучения: ProRLv2 увеличивает горизонт обучения RL с 2000 до 3000 шагов, напрямую проверяя, насколько дольше RL может расширить возможности рассуждений.

Как ProRLv2 расширяет возможности рассуждений в LLM

Модель Nemotron-Research-Reasoning-Qwen-1.5B-v2, обученная с помощью ProRLv2 в течение 3000 шагов RL, устанавливает новый стандарт для моделей с открытым весом в 1,5 миллиарда параметров в задачах, требующих рассуждений, включая математику, кодирование, науку и логические головоломки:

* Производительность превосходит предыдущие версии и конкурентов, таких как DeepSeek-R1-1.5B.
* Продолжительное обучение с увеличением количества шагов RL приводит к постоянным улучшениям, особенно в задачах, где базовые модели работают плохо, демонстрируя реальное расширение границ рассуждений.
* Обобщение: ProRLv2 не только повышает точность pass@1, но и позволяет использовать новые стратегии рассуждений и решения задач, которые не встречались во время обучения.
* Бенчмарки: улучшения включают среднее улучшение pass@1 на 14,7% в математике, 13,9% в кодировании, 54,8% в логических головоломках, 25,1% в STEM-рассуждениях и 18,1% в задачах по выполнению инструкций, с дальнейшими улучшениями в версии 2 на невидимых и более сложных бенчмарках.

Почему это важно

Основной вывод ProRLv2 заключается в том, что продолжительное обучение RL с тщательным исследованием и регуляризацией надёжно расширяет возможности, которые LLM могут изучать и обобщать. Вместо того чтобы рано достигать плато или переобучения, продолжительное RL позволяет более мелким моделям конкурировать с гораздо более крупными в рассуждениях — демонстрируя, что масштабирование RL так же важно, как размер модели или набора данных.

Использование Nemotron-Research-Reasoning-Qwen-1.5B-v2

Новейший контрольный пункт доступен для тестирования на Hugging Face. Загрузка модели:

«`
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained(«nvidia/Nemotron-Research-Reasoning-Qwen-1.5B»)
model = AutoModelForCausalLM.from_pretrained(«nvidia/Nemotron-Research-Reasoning-Qwen-1.5B»)
«`

Заключение

ProRLv2 переопределяет границы рассуждений в языковых моделях, показывая, что законы масштабирования RL так же важны, как размер модели или данных. Благодаря передовой регуляризации и интеллектуальным графикам обучения он обеспечивает глубокое, творческое и обобщаемое рассуждение даже в компактных архитектурах. Будущее зависит от того, как далеко может зайти RL — а не только от того, насколько большими могут стать модели.

1. Какие ключевые инновации включает в себя технология ProRLv2 и как они помогают преодолеть ограничения RL при обучении LLM?

Ответ: ProRLv2 включает несколько инноваций, таких как REINFORCE++-Baseline для долгосрочной оптимизации, KL Divergence Regularization & Reference Policy Reset для стабильного прогресса, Decoupled Clipping & Dynamic Sampling (DAPO) для поиска разнообразных решений, Scheduled Length Penalty для поддержания разнообразия и предотвращения коллапса энтропии, а также масштабирование этапов обучения для увеличения горизонта обучения RL с 2000 до 3000 шагов.

2. Как ProRLv2 влияет на производительность языковых моделей в задачах, требующих рассуждений?

Ответ: Модель Nemotron-Research-Reasoning-Qwen-1.5B-v2, обученная с помощью ProRLv2, устанавливает новый стандарт для моделей с открытым весом в 1,5 миллиарда параметров в задачах, требующих рассуждений. Производительность превосходит предыдущие версии и конкурентов, таких как DeepSeek-R1-1.5B. ProRLv2 позволяет использовать новые стратегии рассуждений и решения задач, которые не встречались во время обучения.

3. Какие улучшения в производительности языковых моделей демонстрирует ProRLv2 в различных задачах?

Ответ: Улучшения включают среднее улучшение pass@1 на 14,7% в математике, 13,9% в кодировании, 54,8% в логических головоломках, 25,1% в STEM-рассуждениях и 18,1% в задачах по выполнению инструкций. Это демонстрирует реальное расширение границ рассуждений и улучшение производительности в различных областях.

4. Почему продолжительное обучение RL с помощью ProRLv2 важно для языковых моделей?

Ответ: Основной вывод ProRLv2 заключается в том, что продолжительное обучение RL с тщательным исследованием и регуляризацией надёжно расширяет возможности, которые LLM могут изучать и обобщать. Вместо того чтобы рано достигать плато или переобучения, продолжительное RL позволяет более мелким моделям конкурировать с гораздо более крупными в рассуждениях.

5. Как можно использовать модель Nemotron-Research-Reasoning-Qwen-1.5B-v2, обученную с помощью ProRLv2?

Ответ: Новейший контрольный пункт доступен для тестирования на Hugging Face. Модель можно загрузить и использовать для тестирования, используя код на Python, например:
«`
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained(«nvidia/Nemotron-Research-Reasoning-Qwen-1.5B»)
model = AutoModelForCausalLM.from_pretrained(«nvidia/Nemotron-Research-Reasoning-Qwen-1.5B»)
«`

Источник