NVIDIA представляет Nemotron 3 Super: гибридная модель с 120 миллиардами параметров для агентского ИИ

NVIDIA официально представила Nemotron 3 Super — модель с 120 миллиардами параметров, разработанную специально для сложных мультиагентных приложений.

Основные характеристики

Сегодня представленная модель Nemotron 3 Super занимает промежуточное положение между более лёгкой моделью Nemotron 3 Nano с 30 миллиардами параметров и долгожданной Nemotron 3 Ultra с 500 миллиардами параметров, выход которой запланирован на 2026 год. Модель обеспечивает в 7 раз более высокую пропускную способность и вдвое большую точность по сравнению с предыдущим поколением.

Пять «чудес» Nemotron 3 Super

Уникальная производительность Nemotron 3 Super обусловлена пятью основными технологическими прорывами:

1. Гибридная архитектура MoE: модель интеллектуально сочетает экономичные слои Mamba с высокоточными слоями Transformer. Активируя лишь часть параметров для генерации каждого токена, она достигает 4-кратного увеличения эффективности использования кэша KV и SSM.
2. Многотокенное предсказание (MTP): модель может предсказывать несколько будущих токенов одновременно, что приводит к 3-кратному ускорению вывода для сложных задач рассуждения.
3. Контекстное окно на 1 миллион токенов: длина контекста в 7 раз больше, чем у предыдущего поколения. Разработчики могут загружать в память модели массивные технические отчёты или целые кодовые базы, устраняя необходимость повторного анализа в многошаговых рабочих процессах.
4. Латентный MoE: это позволяет модели сжимать информацию и активировать четырёх экспертов с той же вычислительной стоимостью, что и одного. Без этого нововведения модель должна была бы быть в 35 раз больше, чтобы достичь того же уровня точности.
5. Интеграция NeMo RL Gym: через интерактивные конвейеры обучения с подкреплением модель обучается на динамических циклах обратной связи, а не только на статическом тексте, что фактически удваивает её индекс интеллекта.

Все эти прорывы приводят к невероятной эффективности с точки зрения количества выходных токенов на GPU.

Почему Nemotron 3 Super — идеальный двигатель для мультиагентного ИИ?

Nemotron 3 Super — это не просто стандартная большая языковая модель; она специально позиционируется как механизм рассуждений, предназначенный для планирования, проверки и выполнения сложных задач в рамках более широкой системы специализированных моделей.

Высокая пропускная способность для более глубокого анализа: 7-кратное увеличение пропускной способности физически расширяет пространство поиска модели. Она может обрабатывать и генерировать токены быстрее, что позволяет ей исследовать значительно больше траекторий и оценивать лучшие ответы. Это позволяет разработчикам проводить более глубокий анализ при том же вычислительном бюджете, что важно для создания сложных автономных агентов.

Отсутствие «повторного анализа» в длинных рабочих процессах: в мультиагентных системах агенты постоянно передают контекст друг другу. Окно контекста в 1 миллион токенов позволяет модели сохранять огромные объёмы состояния, такие как целые кодовые базы или длинные многошаговые истории разговоров агентов, непосредственно в своей памяти. Это устраняет задержки и затраты, связанные с необходимостью повторной обработки контекста на каждом шаге.

Обучение в специализированных средах: вместо того чтобы полагаться исключительно на статические текстовые наборы данных, конвейер модели был расширен более чем 15 интерактивными средами обучения с подкреплением. Обучаясь в динамических симуляционных циклах (таких как выделенные среды для агентов разработки программного обеспечения и поиска с использованием инструментов), Nemotron 3 Super научился находить оптимальные траектории для автономного выполнения задач.

Расширенные возможности вызова инструментов: в реальных мультиагентных приложениях модели должны действовать, а не просто текстово отвечать. Nemotron 3 Super изначально доказал свою высокую квалификацию в вызове инструментов, успешно ориентируясь в огромных пулах доступных функций — например, динамически выбирая из более чем 100 различных инструментов в сложных рабочих процессах кибербезопасности.

Открытый исходный код и масштаб обучения

NVIDIA не просто выпускает веса; они полностью открывают исходный код всего стека модели, включая обучающие наборы данных, библиотеки и среды обучения с подкреплением.

Благодаря такому уровню прозрачности, Artificial Analysis помещает Nemotron 3 Super в «самый привлекательный квадрант», отмечая, что он достигает наивысшего показателя открытости, сохраняя при этом лидирующую точность наряду с проприетарными моделями.

Контроль над разработкой: введение «бюджетов рассуждений»

NVIDIA понимает, что разработчикам реальных корпоративных приложений нужен точный контроль над задержкой, пользовательским опытом и вычислительными затратами. Чтобы решить классическую дилемму «интеллект против скорости», Nemotron 3 Super вводит гибкие режимы рассуждений непосредственно через API, предоставляя разработчикам беспрецедентный уровень детального контроля.

«Золотой» конфигурация

Для извлечения максимальной производительности во всех этих динамических режимах NVIDIA рекомендует глобальную конфигурацию температуры 1,0 и Top P 0,95.

Реальные приложения и доступность

Nemotron 3 Super уже доказывает свою эффективность в требовательных корпоративных приложениях:

* Разработка программного обеспечения: модель обрабатывает запросы junior-уровня и превосходит ведущие проприетарные модели в локализации проблем, успешно находя точную строку кода, вызывающую ошибку.
* Кибербезопасность: модель превосходно справляется со сложными рабочими процессами кибербезопасности с помощью своей расширенной логики вызова инструментов.
* Суверенный ИИ: организации по всему миру в таких регионах, как Индия, Вьетнам, Южная Корея и Европа, используют архитектуру Nemotron для создания специализированных локализованных моделей, адаптированных для конкретных регионов и нормативных рамок.

Nemotron 3 Super выпущен в BF16, FP8 и NVFP4 квантизациях, причём NVFP4 требуется для запуска модели на DGX Spark.

Ознакомьтесь с моделями на Hugging Face. Вы можете найти подробности в исследовательской статье и техническом/разработческом блоге.

Спасибо команде NVIDIA AI за лидерство в области искусственного интеллекта. Команда NVIDIA AI поддержала и спонсировала этот контент/статью.

1. Какие технологические прорывы обеспечивают уникальность производительности Nemotron 3 Super?

Уникальная производительность Nemotron 3 Super обусловлена пятью основными технологическими прорывами:
* гибридная архитектура MoE;
* многотокенное предсказание (MTP);
* контекстное окно на 1 миллион токенов;
* латентный MoE;
* интеграция NeMo RL Gym.

2. Почему модель Nemotron 3 Super считается идеальным двигателем для мультиагентного ИИ?

Nemotron 3 Super — это не просто стандартная большая языковая модель; она специально позиционируется как механизм рассуждений, предназначенный для планирования, проверки и выполнения сложных задач в рамках более широкой системы специализированных моделей. Высокая пропускная способность для более глубокого анализа, отсутствие «повторного анализа» в длинных рабочих процессах, обучение в специализированных средах и расширенные возможности вызова инструментов делают её идеальным двигателем для мультиагентного ИИ.

3. Какие преимущества предоставляет гибридная архитектура MoE в модели Nemotron 3 Super?

Гибридная архитектура MoE в модели Nemotron 3 Super позволяет интеллектуально сочетать экономичные слои Mamba с высокоточными слоями Transformer. Активируя лишь часть параметров для генерации каждого токена, модель достигает 4-кратного увеличения эффективности использования кэша KV и SSM. Это обеспечивает высокую производительность при меньших вычислительных затратах.

4. Какие задачи может решать модель Nemotron 3 Super в корпоративных приложениях?

Модель Nemotron 3 Super уже доказывает свою эффективность в требовательных корпоративных приложениях, таких как разработка программного обеспечения и кибербезопасность. В разработке программного обеспечения модель обрабатывает запросы junior-уровня и превосходит ведущие проприетарные модели в локализации проблем. В кибербезопасности модель превосходно справляется со сложными рабочими процессами благодаря своей расширенной логике вызова инструментов.

5. Какие рекомендации даёт NVIDIA для извлечения максимальной производительности из модели Nemotron 3 Super?

NVIDIA рекомендует глобальную конфигурацию температуры 1,0 и Top P 0,95 для извлечения максимальной производительности из модели Nemotron 3 Super во всех динамических режимах.

Источник