NVIDIA выпускает Nemotron 3: гибридный стек MoE на основе Mamba Transformer для агентского ИИ с длинным контекстом

Компания NVIDIA выпустила семейство открытых моделей Nemotron 3 в рамках полноценного стека для агентского ИИ. В комплект входят веса моделей, наборы данных и инструменты для обучения с подкреплением.

Семейство моделей и целевые рабочие нагрузки

Семейство Nemotron 3 предназначено для эффективных агентских приложений. Линейка состоит из моделей Nano, Super и Ultra, каждая из которых настроена под разные профили рабочих нагрузок.

  • Nemotron 3 Nano — это гибридная языковая модель Mamba Transformer с примерно 31,6 миллиарда параметров. Только около 3,2 миллиарда параметров активны за один прямой проход, или 3,6 миллиарда, включая вложения. Такая разреженная активация позволяет модели сохранять высокую репрезентативную ёмкость при минимальных вычислениях.

  • Nemotron 3 Super имеет около 100 миллиардов параметров с до 10 миллиардов активных на токен.

  • Nemotron 3 Ultra масштабирует эту конструкцию примерно до 500 миллиардов параметров с до 50 миллиардов активных на токен.

Super нацелен на высокоточное рассуждение для крупных мультиагентных приложений, а Ultra предназначен для сложных исследовательских и планировочных рабочих процессов.

Nemotron 3 Nano доступен уже сейчас с открытыми весами и рецептами на Hugging Face и в виде микросервиса NVIDIA NIM. Модели Super и Ultra запланированы к выпуску в первой половине 2026 года.

NVIDIA Nemotron 3 Nano обеспечивает примерно в 4 раза более высокую пропускную способность токенов по сравнению с Nemotron 2 Nano и значительно сокращает использование токенов для рассуждений, поддерживая собственную длину контекста до 1 миллиона токенов.

Архитектура гибридного Mamba Transformer MoE

Основная конструкция Nemotron 3 — это гибридная архитектура Mixture of Experts Mamba Transformer. Модели сочетают последовательные блоки Mamba, блоки внимания и разреженные экспертные блоки внутри одного стека.

Для Nemotron 3 Nano исследовательская группа описывает шаблон, который перемежает блоки Mamba 2, блоки внимания и блоки MoE. Стандартные полносвязные слои из более ранних поколений Nemotron заменены слоями MoE.

Ключевые выводы

  • Nemotron 3 — это трёхъярусное семейство открытых моделей для агентского ИИ: Nano, Super и Ultra.

  • Модели Nemotron 3 используют гибридную архитектуру Mamba 2 и Transformer со sparse Mixture of Experts и поддерживают окно контекста в 1 миллион токенов.

  • Варианты Super и Ultra добавляют LatentMoE, где вычисления экспертов происходят в уменьшенном скрытом пространстве, что снижает стоимость связи и позволяет использовать больше экспертов, а также многомаркерные предсказания, которые генерируют несколько будущих токенов за один прямой проход.

  • Nemotron 3 предварительно обучен на данных в масштабе 25 триллионов токенов, с более чем 3 триллионами новых уникальных токенов по сравнению с поколением Nemotron 2. Модели Super и Ultra обучаются в основном в NVFP4, 4-битном формате с плавающей запятой для графических процессоров NVIDIA.

Ознакомьтесь с документом, техническим блогом и весами моделей на HF. Не стесняйтесь заглянуть на нашу страницу GitHub, чтобы найти учебные пособия, коды и блокноты. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.

1. Какие модели входят в семейство Nemotron 3 и для каких задач они предназначены?

Ответ: семейство Nemotron 3 включает модели Nano, Super и Ultra. Nano предназначена для эффективных агентских приложений, Super нацелен на высокоточное рассуждение для крупных мультиагентных приложений, а Ultra предназначен для сложных исследовательских и планировочных рабочих процессов.

2. Сколько параметров содержат модели Nemotron 3 Nano, Super и Ultra?

Ответ: модель Nemotron 3 Nano содержит примерно 31,6 миллиарда параметров, Nemotron 3 Super — около 100 миллиардов параметров, а Nemotron 3 Ultra — примерно 500 миллиардов параметров.

3. Какие ключевые особенности архитектуры гибридного Mamba Transformer MoE используются в моделях Nemotron 3?

Ответ: основная конструкция Nemotron 3 — это гибридная архитектура Mixture of Experts Mamba Transformer. Модели сочетают последовательные блоки Mamba, блоки внимания и разреженные экспертные блоки внутри одного стека. Для Nemotron 3 Nano исследовательская группа описывает шаблон, который перемежает блоки Mamba 2, блоки внимания и блоки MoE.

4. В чём преимущество использования LatentMoE в моделях Super и Ultra по сравнению с более ранними поколениями Nemotron?

Ответ: LatentMoE в моделях Super и Ultra снижает стоимость связи и позволяет использовать больше экспертов за счёт того, что вычисления экспертов происходят в уменьшенном скрытом пространстве. Кроме того, модели поддерживают многомаркерные предсказания, которые генерируют несколько будущих токенов за один прямой проход.

5. На каких данных предварительно обучено семейство моделей Nemotron 3?

Ответ: модели Nemotron 3 предварительно обучены на данных в масштабе 25 триллионов токенов, с более чем 3 триллионами новых уникальных токенов по сравнению с поколением Nemotron 2.

Источник