NVIDIA представляет Nemotron-Nano-3-30B-A3B-NVFP4

Компания NVIDIA выпустила модель Nemotron-Nano-3-30B-A3B-NVFP4 — производственную контрольную точку, которая запускает модель рассуждений с 30 миллиардами параметров в формате 4-битного NVFP4, сохраняя при этом точность, близкую к базовому уровню BF16.

Что такое Nemotron-Nano-3-30B-A3B-NVFP4?

Это квантованная версия модели Nemotron-3-Nano-30B-A3B-BF16, обученная с нуля командой NVIDIA как единая модель для рассуждений и чата. Она построена как гибридная сеть Mamba2 Transformer MoE:
* 30 миллиардов параметров в общей сложности;
* 52 слоя в глубину;
* 23 слоя Mamba2 и MoE;
* 6 слоёв сгруппированного внимания с 2 группами;
* В каждом слое MoE 128 направленных экспертов и 1 общий эксперт;
* Активно 6 экспертов на токен, что даёт около 3,5 миллиардов активных параметров на токен.

Модель предварительно обучена на 25 триллионах токенов с использованием схемы обучения Warmup Stable Decay с размером пакета 3072, максимальной скоростью обучения 1e-3 и минимальной скоростью обучения 1e-5.

После обучения модель проходит трёхэтапную обработку:
1. Тонкая настройка под контролем учителя на синтетических и кураторских данных для кода, математики, науки, вызова инструментов, следования инструкциям и структурированных выходных данных.
2. Обучение с подкреплением с помощью синхронного GRPO при использовании нескольких шагов инструмента, многоходового чата и структурированных сред, а также RLHF с генеративной моделью вознаграждения.
3. Посттренировочная квантизация до NVFP4 с FP8 KV-кэшем и выборочным высокоточным макетом, после чего применяется QAD.

Контрольные точки NVFP4 сохраняют слои внимания и слои Mamba, которые в них входят, в формате BF16, квантуют оставшиеся слои до NVFP4 и используют FP8 для KV-кэша.

Формат NVFP4 и его значение

NVFP4 — это 4-битный формат с плавающей запятой, разработанный для обучения и вывода на последних графических процессорах NVIDIA.

Основные свойства NVFP4:
* По сравнению с FP8 NVFP4 обеспечивает в 2–3 раза более высокую арифметическую производительность.
* Он сокращает использование памяти примерно в 1,8 раза для весов и активаций.
* Он расширяет MXFP4 за счёт уменьшения размера блока с 32 до 16 и вводит двухуровневое масштабирование.

Для очень больших LLM простая посттренировочная квантизация (PTQ) до NVFP4 уже даёт достойную точность по бенчмаркам. Для небольших моделей, особенно тех, которые сильно зависят от почтовых конвейеров, PTQ вызывает заметное снижение точности, что мотивирует использование метода восстановления на основе обучения.

От QAT к QAD

Стандартный метод обучения с учётом квантования (QAT) вставляет псевдо-квантование в прямой проход и повторно использует исходную потерю задачи, такую как кросс-энтропия следующего токена. Это хорошо работает для свёрточных сетей, но команда исследователей выделяет 2 основные проблемы для современных LLM:
* Сложные многоэтапные конвейеры постобучения с SFT, RL и объединением моделей трудно воспроизвести.
* Исходные обучающие данные для открытых моделей часто недоступны.

Quantization Aware Distillation (QAD) меняет цель, а не весь конвейер. Замороженная модель BF16 выступает в роли учителя, а модель NVFP4 — в роли ученика. Обучение минимизирует расхождение KL между их распределениями выходных токенов, а не исходную задачу под наблюдением или RL.

Команда исследователей выделяет 3 свойства QAD:
* Она более точно выравнивает квантованную модель с высокоточным учителем, чем QAT.
* Она остаётся стабильной, даже когда учитель уже прошёл несколько этапов, таких как тонкая настройка под контролем учителя, обучение с подкреплением и объединение моделей, поскольку QAD пытается только сопоставить окончательное поведение учителя.
* Она работает с частичными, синтетическими или отфильтрованными данными, поскольку для запроса учителя и ученика нужен только входной текст, а не исходные метки или модели вознаграждения.

Бенчмарки на Nemotron-3-Nano-30B

Nemotron-3-Nano-30B-A3B — одна из моделей RL в исследовании QAD. В таблице ниже показана точность на AA-LCR, AIME25, GPQA-D, LiveCodeBench-v5 и SciCode-TQ, NVFP4-QAT и NVFP4-QAD.

[Источник: https://research.nvidia.com/labs/nemotron/files/NVFP4-QAD-Report.pdf]

Ключевые выводы

* Nemotron-3-Nano-30B-A3B-NVFP4 — это гибридная модель Mamba2 Transformer MoE с 30 миллиардами параметров, которая работает в 4-битном формате NVFP4 с FP8 KV-кэшем и небольшим набором слоёв BF16, сохранённых для стабильности, при этом поддерживая около 3,5 миллиардов активных параметров на токен и контекстные окна размером до 1 миллиона токенов.
* NVFP4 — это 4-битный формат с плавающей запятой с размером блока 16 и двухуровневым масштабированием, с использованием E4M3-FP8 на блок и FP32 на тензор, что обеспечивает примерно в 2–3 раза более высокую арифметическую производительность и примерно в 1,8 раза меньшую стоимость памяти, чем FP8 для весов и активаций.
* Quantization Aware Distillation (QAD) заменяет исходную потерю задачи на расхождение KL с замороженным учителем BF16, так что модель NVFP4 напрямую соответствует выходному распределению учителя, не воспроизводя при этом полный конвейер SFT, RL и слияния моделей или не нуждаясь в исходных моделях вознаграждения.
* Используя новый метод Quantization Aware Distillation, версия NVFP4 достигает точности до 99,4% уровня BF16.
* На AA-LCR, AIME25, GPQA-D, LiveCodeBench и SciCode NVFP4-PTQ показывает заметную потерю точности, а NVFP4-QAT ухудшается ещё больше, в то время как NVFP4-QAD восстанавливает производительность до уровня, близкого к BF16, сокращая разрыв всего до нескольких пунктов по этим бенчмаркам рассуждений и кодирования.

1. Какие преимущества предоставляет формат NVFP4 по сравнению с другими форматами?

Ответ: NVFP4 — это 4-битный формат с плавающей запятой, разработанный для обучения и вывода на последних графических процессорах NVIDIA. По сравнению с FP8 NVFP4 обеспечивает в 2–3 раза более высокую арифметическую производительность и сокращает использование памяти примерно в 1,8 раза для весов и активаций.

2. Какие этапы проходит модель Nemotron-Nano-3-30B-A3B-NVFP4 после обучения?

Ответ: после обучения модель Nemotron-Nano-3-30B-A3B-NVFP4 проходит трёхэтапную обработку: тонкую настройку под контролем учителя на синтетических и кураторских данных, обучение с подкреплением с помощью синхронного GRPO и RLHF с генеративной моделью вознаграждения, а также посттренировочную квантизацию до NVFP4 с FP8 KV-кэшем и выборочным высокоточным макетом.

3. В чём заключается метод Quantization Aware Distillation (QAD) и какие его основные свойства?

Ответ: Quantization Aware Distillation (QAD) меняет цель, а не весь конвейер. Замороженная модель BF16 выступает в роли учителя, а модель NVFP4 — в роли ученика. Обучение минимизирует расхождение KL между их распределениями выходных токенов. Основные свойства QAD:
* более точно выравнивает квантованную модель с высокоточным учителем, чем QAT;
* остаётся стабильной, даже когда учитель уже прошёл несколько этапов;
* работает с частичными, синтетическими или отфильтрованными данными.

4. Какие выводы можно сделать о производительности модели Nemotron-Nano-3-30B-A3B-NVFP4 на различных бенчмарках?

Ответ: используя новый метод Quantization Aware Distillation, версия NVFP4 достигает точности до 99,4% уровня BF16. На AA-LCR, AIME25, GPQA-D, LiveCodeBench и SciCode NVFP4-PTQ показывает заметную потерю точности, а NVFP4-QAT ухудшается ещё больше, в то время как NVFP4-QAD восстанавливает производительность до уровня, близкого к BF16, сокращая разрыв всего до нескольких пунктов по этим бенчмаркам рассуждений и кодирования.

5. Какие параметры и характеристики имеет модель Nemotron-Nano-3-30B-A3B-NVFP4?

Ответ: модель Nemotron-Nano-3-30B-A3B-NVFP4 имеет 30 миллиардов параметров, 52 слоя в глубину, 23 слоя Mamba2 и MoE, 6 слоёв сгруппированного внимания с 2 группами. В каждом слое MoE 128 направленных экспертов и 1 общий эксперт. Активно 6 экспертов на токен, что даёт около 3,5 миллиардов активных параметров на токен.

Источник