NVIDIA выпускает модель искусственного интеллекта Nemotron-Elastic-12B

Компания NVIDIA представила модель Nemotron-Elastic-12B — единую модель искусственного интеллекта, которая генерирует варианты с 6, 9 и 12 миллиардами параметров без дополнительных затрат на обучение.

Почему команды разработчиков ИИ всё ещё обучают и хранят несколько больших языковых моделей для разных целей развёртывания, когда одна эластичная модель может генерировать несколько размеров с теми же затратами?

Команда NVIDIA объединяет привычный стек «семейства моделей» в одну задачу обучения. Модель Nemotron-Elastic-12B, разработанная командой NVIDIA, представляет собой модель рассуждений с 12 миллиардами параметров, которая встраивает вложенные варианты с 9 и 6 миллиардами параметров в одном и том же пространстве параметров. Все три размера получаются из одной эластичной контрольной точки без дополнительных прогонов дистилляции для каждого размера.

Большинство производственных систем нуждается в нескольких размерах моделей:
* большая модель для серверных рабочих нагрузок;
* модель среднего размера для мощных граничных GPU;
* меньшая модель для жёстких задержек или бюджетных ограничений по энергопотреблению.

Обычно конвейер обучает или дистиллирует каждый размер отдельно, поэтому затраты на токены и хранение контрольных точек масштабируются с количеством вариантов.

Nemotron Elastic идёт другим путём. Он начинается с модели рассуждений Nemotron Nano V2 12B и обучает эластичную гибридную сеть Mamba Attention, которая раскрывает несколько вложенных подмоделей.

Выпущенная контрольная точка Nemotron-Elastic-12B может быть разделена на варианты 9B и 6B с помощью предоставленного скрипта разделения без какой-либо дополнительной оптимизации.

Все варианты используют общие веса и метаданные маршрутизации, поэтому затраты на обучение и память при развёртывании привязаны к самой большой модели, а не к количеству размеров в семействе.

Архитектура Nemotron Elastic — это гибрид Mamba-2 Transformer. Базовая сеть построена по принципу дизайна Nemotron-H, где большинство слоёв основаны на блоках последовательного пространства состояний Mamba-2 плюс MLP, а небольшой набор слоёв внимания сохраняет глобальное воспринимающее поле.

Эластичность реализована путём превращения этого гибрида в динамическую модель, управляемую масками.

Двухэтапное обучение для рабочих нагрузок, связанных с рассуждениями.

Nemotron Elastic обучается как модель рассуждений с замороженным учителем. Учитель — это оригинальная модель рассуждений Nemotron-Nano-V2-12B. Эластичный ученик 12B оптимизирован совместно для всех трёх бюджетов: 6B, 9B, 12B, с использованием дистилляции знаний плюс потери языкового моделирования.

Обучение проходит в два этапа:
1. Короткий контекст, длина последовательности 8192, размер пакета 1536, около 65 миллиардов токенов, с равномерной выборкой по трём бюджетам.
2. Расширенный контекст, длина последовательности 49152, размер пакета 512, около 45 миллиардов токенов, с неравномерной выборкой, которая отдаёт предпочтение полному бюджету 12B.

Второй этап важен для задач рассуждения. Приведённая выше таблица показывает, что для AIME 2025 модель 6B улучшается с 56,88 до 68,13, что составляет 19,8% относительного прироста, в то время как модель 9B получает 9,7%, а модель 12B — 4,0% после обучения с расширенным контекстом.

Результаты тестирования

Nemotron Elastic оценивается на основе тестов, связанных с рассуждениями: MATH 500, AIME 2024, AIME 2025, GPQA, LiveCodeBench v5 и MMLU Pro.

Таблица ниже суммирует точность прохождения теста с одним баллом. Эластичная модель 12B соответствует базовой линии NanoV2-12B в среднем, 77,41 против 77,38, при этом также предоставляя варианты 9B и 6B из того же запуска.

Сравнение

| SystemSizes (B) | Avg reasoning score* | Tokens for 6B + 9B | BF16 memory |
| — | — | — | — |
| Nemotron Elastic | 6, 9, 12 | 70,61 / 75,95 / 77,41 | 110B | 24GB |
| NanoV2 Compression | 9, 12 | 75,99 / 77,38 | 750B | 42GB |
| Qwen3 | 8 | 72,68 | | |

Ключевые выводы

* Nemotron Elastic обучает одну модель рассуждений 12B, которая содержит вложенные варианты 9B и 6B, которые могут быть извлечены без дополнительных затрат на обучение.
* Эластичное семейство использует гибридную архитектуру Mamba-2 и Transformer плюс изученный маршрутизатор, который применяет структурированные маски по ширине и глубине для определения каждой подмодели.
* Подход требует 110 миллиардов обучающих токенов для получения 6B и 9B из родителя 12B, что примерно в 7 раз меньше, чем базовая линия сжатия Minitron SSM с 750 миллиардами токенов, и примерно в 360 раз меньше, чем обучение дополнительных моделей с нуля.

На тестах рассуждений, таких как MATH 500, AIME 2024 и 2025, GPQA, LiveCodeBench и MMLU Pro, эластичные модели 6B, 9B и 12B достигают средних баллов около 70,61, 75,95 и 77,41, которые соответствуют базовым показателям NanoV2 или близки к ним и конкурентоспособны с Qwen3-8B.

Все три размера используют одну контрольную точку BF16 объёмом 24 ГБ, поэтому память при развёртывании остаётся постоянной для семейства по сравнению с примерно 42 ГБ для отдельных моделей NanoV2-9B и 12B, что даёт примерно 43% экономию памяти при добавлении опции 6B.

Федеративное обучение

Федеративное обучение — это метод обучения моделей машинного обучения без централизованного сбора пользовательских данных. Вместо загрузки личных данных (например, частоты сердечных сокращений, циклов сна или журналов тренировок) модель отправляется на каждое устройство, обучается локально на его личных данных, и отправляются обратно только обновления модели. Эти обновления надёжно агрегируются для улучшения глобальной модели, обеспечивая конфиденциальность и соответствие законам, таким как GDPR и HIPAA.

Варианты:
* Централизованное FL: центральный сервер координирует обучение и агрегирует обновления.
* Децентрализованное FL: устройства напрямую обмениваются обновлениями — нет единой точки отказа.
* Гетерогенное FL: предназначено для устройств с разными вычислительными возможностями (телефоны, часы, IoT-сенсоры).

Рабочий процесс:
1. Глобальная модель отправляется на пользовательские устройства.
2. Каждое устройство обучается на своих личных данных (например, на показателях физической подготовки и здоровья пользователя).
3. Только обновления модели — не данные — шифруются и отправляются обратно.
4. Сервер агрегирует все обновления в новую глобальную модель.

Проблемы в федеративном обучении:
* Ограничения устройств: пользовательские устройства (телефоны, умные часы, фитнес-трекеры) имеют ограниченную мощность процессора/графического процессора, малый объём оперативной памяти и зависят от батареи. Обучение должно быть лёгким, энергоэффективным и разумно спланированным, чтобы не мешать обычному использованию устройства.
* Агрегация моделей: даже после локального обучения на тысячах или миллионах устройств нам всё равно нужно объединить все эти обновления моделей в единую глобальную модель. Такие методы, как Federated Averaging (FedAvg), помогают, но обновления могут быть задержаны, неполными или несогласованными в зависимости от участия устройства.
* Смещение локальных данных (неоднородные данные): данные каждого пользователя отражают личные привычки и образ жизни.
* Перерывы в работе клиентов: многие устройства могут быть отключены от сети, заблокированы, разряжены или не подключены к Wi-Fi. Обучение должно происходить только в безопасных условиях (на зарядке, в режиме ожидания, при подключении к Wi-Fi), что сокращает количество активных участников в любой момент.
* Эффективность коммуникации: частая отправка обновлений моделей может привести к разрядке полосы пропускания и батареи. Обновления должны быть сжаты, разрежены или ограничены меньшими подмножествами параметров.
* Гарантии безопасности и конфиденциальности: даже если необработанные данные никогда не покидают устройство, обновления должны быть зашифрованы. Дополнительные средства защиты, такие как дифференциальная конфиденциальность или безопасная агрегация, могут потребоваться для предотвращения восстановления конфиденциальных закономерностей из градиентов.

1. Какие преимущества предлагает модель Nemotron-Elastic-12B по сравнению с традиционными подходами к обучению моделей искусственного интеллекта?

Модель Nemotron-Elastic-12B предлагает несколько преимуществ по сравнению с традиционными подходами. Она позволяет генерировать варианты с 6, 9 и 12 миллиардами параметров без дополнительных затрат на обучение. Это достигается за счёт использования гибридной архитектуры Mamba-2 Transformer и эластичного подхода, который превращает модель в динамическую, управляемую масками.

2. Какие ключевые выводы можно сделать из результатов тестирования модели Nemotron Elastic?

Ключевые выводы из результатов тестирования модели Nemotron Elastic включают:
* модель 12B соответствует базовой линии NanoV2-12B в среднем, показывая точность 77,41;
* модель обеспечивает варианты 9B и 6B из того же запуска;
* подход требует значительно меньше обучающих токенов для получения вариантов 6B и 9B из родителя 12B по сравнению с базовой линией сжатия Minitron SSM;
* эластичные модели 6B, 9B и 12B достигают средних баллов около 70,61, 75,95 и 77,41 на тестах рассуждений, что соответствует базовым показателям NanoV2 или близко к ним.

3. Какие проблемы могут возникнуть при использовании федеративного обучения для моделей искусственного интеллекта?

При использовании федеративного обучения для моделей искусственного интеллекта могут возникнуть следующие проблемы:
* ограничения устройств, такие как ограниченная мощность процессора/графического процессора, малый объём оперативной памяти и зависимость от батареи;
* агрегация моделей, включая необходимость объединения обновлений моделей в единую глобальную модель;
* смещение локальных данных, которое может влиять на качество обучения;
* перерывы в работе клиентов, такие как отключение от сети или разрядка батареи;
* эффективность коммуникации, включая необходимость сжатия и ограничения отправки обновлений моделей для экономии ресурсов;
* гарантии безопасности и конфиденциальности, включая необходимость шифрования обновлений моделей.

4. Какие методы используются для агрегации обновлений моделей в федеративном обучении?

Для агрегации обновлений моделей в федеративном обучении используются различные методы, включая Federated Averaging (FedAvg). Этот метод помогает объединить обновления моделей, но обновления могут быть задержаны, неполными или несогласованными в зависимости от участия устройства.

5. Какие факторы необходимо учитывать при планировании обучения моделей искусственного интеллекта на пользовательских устройствах в рамках федеративного обучения?

При планировании обучения моделей искусственного интеллекта на пользовательских устройствах в рамках федеративного обучения необходимо учитывать следующие факторы:
* ограничения устройств, включая мощность процессора/графического процессора, объём оперативной памяти и зависимость от батареи;
* необходимость сжатия и ограничения отправки обновлений моделей для экономии ресурсов;
* гарантии безопасности и конфиденциальности, включая шифрование обновлений моделей;
* планирование обучения с учётом условий использования устройств, таких как зарядка, режим ожидания или подключение к Wi-Fi.

Источник