NVIDIA представляет Nemotron-Elastic-12B: одна модель ИИ, которая даёт варианты 6B/9B/12B без дополнительных затрат на обучение

NVIDIA AI выпускает Nemotron-Elastic-12B — модель искусственного интеллекта с 12 миллиардами параметров, которая включает в себя вложенные варианты с 9 миллиардами и 6 миллиардами параметров в том же пространстве параметров. Это означает, что все три размера получаются из одной эластичной контрольной точки без дополнительных прогонов дистилляции для каждого размера.

Почему команды разработчиков ИИ всё ещё обучают и хранят несколько больших языковых моделей для разных потребностей, если одна эластичная модель может генерировать несколько размеров с одинаковыми затратами?

Обычно для создания «семейства моделей» требуется обучать несколько моделей отдельно. Команда NVIDIA AI выпускает Nemotron-Elastic-12B — модель для рассуждений с 12 миллиардами параметров, которая включает в себя вложенные варианты с 9 миллиардами и 6 миллиардами параметров в том же пространстве параметров.

Большинство производственных систем нуждаются в нескольких размерах моделей: большая модель для серверных рабочих нагрузок, модель среднего размера для мощных граничных GPU и меньшая модель для жёстких задержек или бюджетных ограничений по мощности.

Nemotron Elastic начинает с модели Nemotron Nano V2 12B для рассуждений и обучает эластичную гибридную сеть Mamba Attention, которая раскрывает несколько вложенных подмоделей.

Основные моменты:

* Nemotron Elastic — это гибридный трансформер Mamba-2. Базовая сеть выполнена в стиле Nemotron-H, где большинство слоёв основаны на блоках последовательного пространства состояний Mamba-2 плюс MLP, а небольшой набор слоёв внимания сохраняет глобальное воспринимающее поле.
* Эластичность реализуется путём превращения этого гибрида в динамическую модель, управляемую масками.
* Ширина, встраиваемые каналы, головы Mamba и каналы головы, головы внимания и промежуточный размер FFN могут быть уменьшены с помощью двоичных масок.
* Глубина, слои могут быть отброшены в соответствии с изученным порядком важности, с остаточными путями, сохраняющими поток сигналов.
* Модуль маршрутизатора выводит дискретные варианты конфигурации для каждого бюджета.

Обучение

Nemotron Elastic обучается как модель для рассуждений с замороженным учителем. Учитель — это оригинальная модель для рассуждений Nemotron-Nano-V2-12B. Эластичный ученик 12B оптимизируется совместно для всех трёх бюджетов, 6B, 9B, 12B, с помощью дистилляции знаний плюс потеря языкового моделирования.

Результаты тестирования

Nemotron Elastic оценивается на основе тестов, связанных с рассуждениями: MATH 500, AIME 2024, AIME 2025, GPQA, LiveCodeBench v5 и MMLU Pro.

Сравнение размеров системы (B):
| Система | Средний балл рассуждений | Токены для 6B + 9B | Память BF16 |
| — | — | — | — |
| Nemotron Elastic | 70,61 / 75,95 / 77,41 | 110B | 24GB |
| NanoV2 Compression | 75,99 / 77,38 | 750B | 42GB |
| Qwen3 | 72,68 | — | — |

Выводы

* Nemotron Elastic обучает одну модель для рассуждений с 12 миллиардами параметров, которая содержит вложенные варианты с 9 миллиардами и 6 миллиардами параметров, которые можно извлечь без дополнительного обучения.
* Эластичное семейство использует гибридную архитектуру Mamba-2 и Transformer плюс изученный маршрутизатор, который применяет структурированные маски по ширине и глубине для определения каждой подмодели.
* Подход требует 110 миллиардов обучающих токенов для получения 6B и 9B из 12B родителя, что примерно в 7 раз меньше токенов, чем у базовой линии сжатия Minitron SSM, и примерно в 360 раз меньше, чем при обучении дополнительных моделей с нуля.

Что такое федеративное обучение?

Федеративное обучение — это метод обучения моделей машинного обучения без централизованного сбора пользовательских данных. Вместо загрузки личных данных (таких как частота сердечных сокращений, циклы сна или журналы тренировок) модель отправляется на каждое устройство, обучается локально, и обратно отправляются только обновления модели. Эти обновления надёжно агрегируются для улучшения глобальной модели, обеспечивая конфиденциальность и соответствие таким законам, как GDPR и HIPAA.

Существуют различные варианты:
* Централизованное FL: центральный сервер координирует обучение и агрегирует обновления.
* Децентрализованное FL: устройства напрямую обмениваются обновлениями — нет единой точки отказа.
* Гетерогенное FL: предназначено для устройств с разными вычислительными возможностями (телефоны, часы, IoT-сенсоры).

Рабочий процесс:
1. Глобальная модель отправляется на пользовательские устройства.
2. Каждое устройство обучается на своих личных данных (например, на показателях физической подготовки и здоровья пользователя).
3. Только обновления модели — не данные — шифруются и отправляются обратно.
4. Сервер агрегирует все обновления в новую глобальную модель.

Проблемы федеративного обучения

* Ограничения устройств: пользовательские устройства (телефоны, умные часы, фитнес-трекеры) имеют ограниченную мощность процессора/графического процессора, небольшой объём оперативной памяти и работают от батареи. Обучение должно быть лёгким, энергоэффективным и разумно спланированным, чтобы не мешать обычному использованию устройства.
* Агрегация моделей: даже после локального обучения на тысячах или миллионах устройств нам всё равно нужно объединить все эти обновления моделей в одну глобальную модель.
* Смещение локальных данных (не-IID данные): данные каждого пользователя отражают личные привычки и образ жизни.
* Неравномерная доступность клиентов: многие устройства могут быть отключены от сети, заблокированы, разряжены или не подключены к Wi-Fi.
* Эффективность связи: частая отправка обновлений моделей может привести к расходу полосы пропускания и батареи.
* Гарантии безопасности и конфиденциальности: даже если необработанные данные никогда не покидают устройство, обновления должны быть зашифрованы.

1. Какие преимущества предоставляет модель Nemotron-Elastic-12B по сравнению с традиционными подходами к обучению моделей искусственного интеллекта?

Ответ: модель Nemotron-Elastic-12B предоставляет преимущество в виде экономии затрат на обучение, так как из одной эластичной контрольной точки можно получить несколько вариантов моделей (6B, 9B и 12B) без дополнительных прогонов дистилляции для каждого размера. Это позволяет оптимизировать процесс разработки и использования моделей искусственного интеллекта.

2. Какие основные архитектурные особенности лежат в основе модели Nemotron-Elastic-12B?

Ответ: в основе модели Nemotron-Elastic-12B лежит гибридный трансформер Mamba-2. Базовая сеть выполнена в стиле Nemotron-H, где большинство слоёв основаны на блоках последовательного пространства состояний Mamba-2 плюс MLP, а небольшой набор слоёв внимания сохраняет глобальное воспринимающее поле. Эластичность реализуется путём превращения этого гибрида в динамическую модель, управляемую масками.

3. Какие результаты были получены при тестировании модели Nemotron-Elastic-12B на задачах, связанных с рассуждениями?

Ответ: модель Nemotron-Elastic-12B была оценена на основе тестов, связанных с рассуждениями: MATH 500, AIME 2024, AIME 2025, GPQA, LiveCodeBench v5 и MMLU Pro. Средний балл рассуждений составил 70,61 для варианта с 6 миллиардами параметров, 75,95 для варианта с 9 миллиардами параметров и 77,41 для варианта с 12 миллиардами параметров.

4. Какие проблемы и ограничения существуют при использовании федеративного обучения для разработки моделей искусственного интеллекта?

Ответ: при использовании федеративного обучения для разработки моделей искусственного интеллекта существуют следующие проблемы и ограничения:
* Ограничения устройств, такие как ограниченная мощность процессора/графического процессора, небольшой объём оперативной памяти и работа от батареи.
* Агрегация моделей, требующая объединения обновлений моделей в одну глобальную модель.
* Смещение локальных данных (не-IID данные), отражающее личные привычки и образ жизни пользователей.
* Неравномерная доступность клиентов, когда многие устройства могут быть отключены от сети, заблокированы, разряжены или не подключены к Wi-Fi.
* Эффективность связи, связанная с расходом полосы пропускания и батареи при частой отправке обновлений моделей.
* Гарантии безопасности и конфиденциальности, требующие шифрования обновлений моделей.

Источник