NVIDIA выпускает Nemotron-Cascade 2: открытую модель MoE на 30 миллиардов параметров с 3 миллиардами активных параметров, обеспечивающую улучшенные возможности рассуждений и сильные агентские способности

NVIDIA объявила о выпуске Nemotron-Cascade 2 — модели Mixture-of-Experts (MoE) с открытым весом на 30 миллиардов параметров и 3 миллиардами активированных параметров. Модель ориентирована на максимизацию «плотности интеллекта», предоставляя расширенные возможности рассуждений при значительно меньшем масштабе параметров по сравнению с передовыми моделями.

Nemotron-Cascade 2 — вторая модель с открытым весом, достигшая уровня золотой медали на Международной математической олимпиаде (IMO) 2025 года, Международной олимпиаде по информатике (IOI) и финале ICPC World Finals.

Целевая производительность и стратегические компромиссы

Основное преимущество Nemotron-Cascade 2 — её специализированная производительность в математическом мышлении, кодировании, согласовании и выполнении инструкций. Хотя модель достигает передовых результатов в этих ключевых областях, требующих интенсивных рассуждений, она, безусловно, не является «панацеей» для всех тестов.

Производительность модели превосходит несколько целевых категорий по сравнению с недавно выпущенной Qwen3.5-35B-A3B (февраль 2026 года) и более крупной Nemotron-3-Super-120B-A12B:

  • Математическое мышление: превосходит Qwen3.5-35B-A3B на AIME 2025 (92,4 против 91,9) и HMMT Feb25 (94,6 против 89,0).

  • Кодирование: лидирует на LiveCodeBench v6 (87,2 против 74,6) и IOI 2025 (439,28 против 348,6+).

  • Согласование и выполнение инструкций: значительно выше на ArenaHard v2 (83,5 против 65,4+) и IFBench (82,9 против 70,2).

Техническая архитектура: каскадное RL и многодоменная дистилляция в соответствии с политикой (MOPD)

Возможности модели в области рассуждений основаны на её конвейере после обучения, начиная с модели Nemotron-3-Nano-30B-A3B-Base.

1. Супервизированное точное настройка (SFT).
Во время SFT исследовательская группа NVIDIA использовала тщательно подобранный набор данных, в котором образцы были упакованы в последовательности длиной до 256 тысяч токенов. Набор данных включал:

  • 1,9 миллиона следов рассуждений на Python и 1,3 миллиона образцов вызова инструментов Python для соревновательного кодирования.

  • 816 тысяч образцов для математических доказательств на естественном языке.

  • Специализированную смесь для разработки программного обеспечения (SWE), состоящую из 125 тысяч агентских и 389 тысяч безагентских образцов.

2. Каскадное обучение с подкреплением (Cascade RL).
После SFT модель прошла через Cascade RL, который применяет последовательное обучение в предметной области. Это предотвращает катастрофическое забывание, позволяя настраивать гиперпараметры для конкретных доменов без дестабилизации других. Конвейер включает этапы для выполнения инструкций (IF-RL), многодоменного RL, RLHF, RL с длинным контекстом и специализированного RL для кода и SWE.

3. Многодоменная дистилляция в соответствии с политикой (MOPD).
Критическим нововведением в Nemotron-Cascade 2 является интеграция MOPD в процессе Cascade RL. Ассамблея MOPD использует лучшие промежуточные модели-«учителя», уже полученные из той же инициализации SFT, для обеспечения преимущества плотной дистилляции на уровне токенов.

Исследовательская группа обнаружила, что MOPD значительно более эффективно использует выборки, чем алгоритмы вознаграждения на уровне последовательностей, такие как Group Relative Policy Optimization (GRPO). Например, на AIME25 MOPD достигла уровня учителя (92,0) за 30 шагов, в то время как GRPO достигла только 91,0 после такого же количества шагов.

Особенности вывода и агентское взаимодействие

Nemotron-Cascade 2 поддерживает два основных режима работы через свой чат-шаблон:

  • Режим мышления: инициируется одним токеном ``, за которым следует перевод строки. Это активирует глубокое рассуждение для сложных математических и кодовых задач.

  • Не-режим мышления: активируется путём добавления пустого блока `` для более эффективных и прямых ответов.

Для агентских задач модель использует структурированный протокол вызова инструментов в системном запросе. Доступные инструменты перечислены в тегах ``, а модели даются инструкции выполнять вызовы инструментов, заключённые в теги ``, чтобы обеспечить проверяемую обратную связь по выполнению.

Сосредоточившись на «плотности интеллекта», Nemotron-Cascade 2 демонстрирует, что специализированные возможности рассуждений, которые когда-то считались исключительной областью моделей фронтирного масштаба (600 миллиардов+ параметров), достижимы при масштабе в 30 миллиардов параметров с помощью обучения с подкреплением в предметной области.

Ознакомьтесь с [статьёй и моделью на HF](https://research.nvidia.com/labs/nemotron/files/Nemotron-Cascade-2.pdf). Подписывайтесь на нас в [Twitter](https://twitter.com), присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) и подписывайтесь на [наш Newsletter](https://www.marktechpost.com/newsletter/). А если вы в Telegram, присоединяйтесь к нам и там!

1. Какие ключевые преимущества предлагает модель Nemotron-Cascade 2 по сравнению с другими моделями?

Ответ: модель Nemotron-Cascade 2 выделяется своей специализированной производительностью в математическом мышлении, кодировании, согласовании и выполнении инструкций. Она достигает передовых результатов в этих областях, требующих интенсивных рассуждений, при значительно меньшем масштабе параметров по сравнению с передовыми моделями.

2. Какие задачи и соревнования модель Nemotron-Cascade 2 успешно решает?

Ответ: модель Nemotron-Cascade 2 достигла уровня золотой медали на Международной математической олимпиаде (IMO) 2025 года, Международной олимпиаде по информатике (IOI) и финале ICPC World Finals. Она также превосходит другие модели в таких задачах, как AIME 2025, HMMT Feb25, LiveCodeBench v6, IOI 2025, ArenaHard v2 и IFBench.

3. Какие методы и подходы использовались для обучения модели Nemotron-Cascade 2?

Ответ: для обучения модели Nemotron-Cascade 2 использовались методы супервизированного точной настройки (SFT), каскадного обучения с подкреплением (Cascade RL) и многодоменной дистилляции в соответствии с политикой (MOPD). Эти методы позволили модели достичь высоких результатов в различных задачах.

4. Какие режимы работы поддерживает модель Nemotron-Cascade 2 и для каких задач они предназначены?

Ответ: модель Nemotron-Cascade 2 поддерживает два основных режима работы: режим мышления и не-режим мышления. Режим мышления активируется для сложных математических и кодовых задач, требующих глубокого рассуждения. Не-режим мышления предназначен для более эффективных и прямых ответов в других задачах.

5. Какие инновационные подходы были применены в процессе обучения модели Nemotron-Cascade 2, и как они влияют на её производительность?

Ответ: в процессе обучения модели Nemotron-Cascade 2 были применены инновационные подходы, такие как каскадное обучение с подкреплением (Cascade RL) и многодоменная дистилляция в соответствии с политикой (MOPD). Эти подходы позволили модели эффективно использовать выборки и достигать высоких результатов в различных задачах.

Источник