NVIDIA AI выпускает Nemotron-Elastic-12B — модель искусственного интеллекта с 12 миллиардами параметров, которая включает в себя вложенные варианты с 9 миллиардами и 6 миллиардами параметров в одном и том же пространстве параметров. Это означает, что все три размера получаются из одной эластичной контрольной точки без дополнительных прогонов дистилляции для каждого размера.
Почему команды разработчиков ИИ всё ещё обучают и хранят несколько больших языковых моделей для разных потребностей развёртывания, когда одна эластичная модель может генерировать несколько размеров с одинаковыми затратами?
NVIDIA объединяет обычный стек «семейства моделей» в одну обучающую задачу. Команда NVIDIA AI выпускает Nemotron-Elastic-12B — модель рассуждений с 12 миллиардами параметров, которая встраивает вложенные варианты с 9 миллиардами и 6 миллиардами параметров в одном и том же пространстве параметров.
Большинство производственных систем нуждаются в нескольких размерах моделей:
* большая модель для серверных рабочих нагрузок;
* модель среднего размера для мощных граничных GPU;
* модель меньшего размера для жёстких задержек или бюджетных ограничений по энергопотреблению.
Обычная схема обучения или дистилляции каждого размера выполняется отдельно, поэтому затраты на токены и хранение контрольных точек масштабируются с количеством вариантов.
Nemotron Elastic идёт другим путём. Он начинается с модели рассуждений Nemotron Nano V2 12B и обучает эластичную гибридную сеть Mamba Attention, которая раскрывает несколько вложенных подмоделей.
Выпущенная контрольная точка Nemotron-Elastic-12B может быть разделена на варианты с 9 миллиардами и 6 миллиардами параметров, Nemotron-Elastic-9B и Nemotron-Elastic-6B, используя предоставленный скрипт разделения без какой-либо дополнительной оптимизации.
Все варианты используют общие веса и метаданные маршрутизации, поэтому затраты на обучение и память при развёртывании привязаны к самой большой модели, а не к количеству размеров в семействе.
Hybrid Mamba Transformer with elastic masks
С точки зрения архитектуры, Nemotron Elastic представляет собой гибрид Mamba-2 Transformer. Базовая сеть выполнена в стиле Nemotron-H, где большинство слоёв основаны на блоках пространства состояний последовательности Mamba-2 плюс MLP, а небольшой набор слоёв внимания сохраняет глобальное воспринимающее поле.
Эластичность реализована путём превращения этого гибрида в динамическую модель, управляемую масками:
* Ширина, встраиваемые каналы, головы Mamba и каналы голов, головы внимания и промежуточный размер FFN могут быть уменьшены с помощью двоичных масок.
* Глубина, слои могут быть отброшены в соответствии с изученным порядком важности, с остаточными путями, сохраняющими поток сигналов.
Модуль маршрутизатора выводит дискретные варианты конфигурации в зависимости от бюджета. Эти варианты преобразуются в маски с помощью Gumbel Softmax, затем применяются к встраиваниям, проекциям Mamba, проекциям внимания и матрицам FFN.
Тренировка модели
Nemotron Elastic обучается как модель рассуждений с замороженным учителем. Учитель — это исходная модель рассуждений Nemotron-Nano-V2-12B. Эластичный ученик 12B оптимизируется совместно для всех трёх бюджетов: 6B, 9B, 12B, используя дистилляцию знаний плюс потери при языковом моделировании.
Тренировка проходит в два этапа:
1. Короткий контекст, длина последовательности 8192, размер пакета 1536, около 65 миллиардов токенов, с равномерной выборкой по трём бюджетам.
2. Расширенный контекст, длина последовательности 49152, размер пакета 512, около 45 миллиардов токенов, с неравномерной выборкой, которая отдаёт предпочтение полному бюджету 12B.
Второй этап важен для задач рассуждения. Приведённая выше таблица показывает, что для AIME 2025 модель 6B улучшается с 56,88 до 68,13, что составляет 19,8% относительного прироста, в то время как модель 9B получает 9,7%, а модель 12B — 4% после обучения с расширенным контекстом.
Результаты тестирования
Nemotron Elastic оценивается на бенчмарках, ориентированных на рассуждения: MATH 500, AIME 2024, AIME 2025, GPQA, LiveCodeBench v5 и MMLU Pro.
Таблица ниже суммирует точность прохождения теста с одним баллом.
12B эластичная модель соответствует базовой линии NanoV2-12B в среднем, 77,41 против 77,38, одновременно предоставляя варианты 9B и 6B из того же прогона. Эластичная модель 9B отслеживает базовую линию NanoV2-9B, 75,95 против 75,99. Эластичная модель 6B достигает 70,61, что немного ниже Qwen3-8B на уровне 72,68, но всё равно сильна для своего количества параметров, учитывая, что она не обучается отдельно.
Ключевые выводы
* Nemotron Elastic обучает одну модель рассуждений с 12 миллиардами параметров, которая содержит вложенные варианты с 9 миллиардами и 6 миллиардами параметров, которые могут быть извлечены без дополнительных затрат на обучение.
* Эластичное семейство использует гибридную архитектуру Mamba-2 и Transformer плюс изученный маршрутизатор, который применяет структурированные маски по ширине и глубине для определения каждой подмодели.
* Для вывода 6B и 9B из 12B родителя требуется около 110 миллиардов обучающих токенов, что примерно в 7 раз меньше, чем при использовании базового уровня сжатия Minitron SSM с 750 миллиардами токенов, и примерно в 360 раз меньше, чем при обучении дополнительных моделей с нуля.
На тестах по рассуждению, таких как MATH 500, AIME 2024 и 2025, GPQA, LiveCodeBench и MMLU Pro, эластичные модели 6B, 9B и 12B достигают средних баллов около 70,61, 75,95 и 77,41, которые соответствуют базовым показателям NanoV2 или близки к ним и конкурентоспособны с Qwen3-8B.
Все три размера используют один и тот же контрольный пункт BF16 объёмом 24 ГБ, поэтому память при развёртывании остаётся постоянной для семейства по сравнению с примерно 42 ГБ для отдельных моделей NanoV2-9B и 12B, что даёт примерно 43% экономии памяти при добавлении опции 6B.
Федеративное обучение
* Federated Learning — это метод обучения моделей машинного обучения без централизованного сбора пользовательских данных. Вместо загрузки личных данных (например, частоты сердечных сокращений, циклов сна или журналов тренировок) модель отправляется на каждое устройство, обучается локально на частных данных, и обратно отправляются только обновления модели. Эти обновления надёжно агрегируются для улучшения глобальной модели, обеспечивая конфиденциальность и соответствие законам, таким как GDPR и HIPAA.
* Существуют различные варианты: централизованное FL, децентрализованное FL, гетерогенное FL.
* Рабочий процесс прост: глобальная модель отправляется на пользовательские устройства, каждое устройство обучается на своих личных данных, только обновления модели — не данные — шифруются и отправляются обратно. Сервер агрегирует все обновления в новую глобальную модель.
Проблемы в федеративном обучении
* Ограничения устройств: пользовательские устройства (телефоны, умные часы, фитнес-трекеры) имеют ограниченную мощность процессора/графического процессора, небольшой объём оперативной памяти и зависят от батареи. Обучение должно быть лёгким, энергоэффективным и разумно спланированным, чтобы не мешать обычному использованию устройства.
* Агрегация моделей: даже после локального обучения на тысячах или миллионах устройств нам всё равно нужно объединить все эти обновления моделей в одну глобальную модель.
* Смещение локальных данных (неоднородные данные): данные каждого пользователя отражают личные привычки и образ жизни.
* Неравномерная доступность клиентов: многие устройства могут быть отключены от сети, заблокированы, разряжены или не подключены к Wi-Fi. Обучение должно происходить только в безопасных условиях (при зарядке, в режиме ожидания, при подключении к Wi-Fi), что сокращает количество активных участников в любой момент.
* Эффективность связи: частая отправка обновлений моделей может привести к разрядке полосы пропускания и батареи. Обновления должны быть сжаты, разрежены или ограничены меньшими подмножествами параметров.
* Гарантии безопасности и конфиденциальности: даже если необработанные данные никогда не покидают устройство, обновления должны быть зашифрованы. Дополнительные средства защиты, такие как дифференциальная конфиденциальность или безопасная агрегация, могут потребоваться для предотвращения восстановления конфиденциальных закономерностей из градиентов.
1. Какие преимущества предлагает модель Nemotron-Elastic-12B по сравнению с традиционными подходами к обучению моделей искусственного интеллекта?
Ответ: модель Nemotron-Elastic-12B предлагает несколько преимуществ по сравнению с традиционными подходами. Во-первых, она объединяет несколько размеров моделей в одном пространстве параметров, что позволяет избежать дополнительных затрат на обучение для каждого размера. Во-вторых, использование гибридной архитектуры Mamba-2 Transformer и изученного маршрутизатора позволяет модели адаптироваться к различным бюджетам и задачам.
2. Какие проблемы решает модель Nemotron-Elastic-12B в контексте разработки и развёртывания моделей искусственного интеллекта?
Ответ: модель Nemotron-Elastic-12B решает несколько проблем, связанных с разработкой и развёртыванием моделей искусственного интеллекта. Она позволяет командам разработчиков избежать необходимости обучения и хранения нескольких больших языковых моделей для разных потребностей развёртывания. Это упрощает процесс разработки и снижает затраты на токены и хранение контрольных точек.
3. Какие результаты были получены при тестировании модели Nemotron-Elastic-12B на бенчмарках, ориентированных на рассуждения?
Ответ: при тестировании на бенчмарках, ориентированных на рассуждения, модель Nemotron-Elastic-12B показала хорошие результаты. Она достигла средних баллов около 70,61 для модели 6B, 75,95 для модели 9B и 77,41 для модели 12B. Эти результаты соответствуют базовым показателям NanoV2 или близки к ним и конкурентоспособны с Qwen3-8B.
4. Какие выводы можно сделать из результатов тестирования модели Nemotron-Elastic-12B?
Ответ: результаты тестирования модели Nemotron-Elastic-12B позволяют сделать несколько выводов. Во-первых, модель успешно обучает одну модель рассуждений с 12 миллиардами параметров, которая содержит вложенные варианты с 9 миллиардами и 6 миллиардами параметров. Во-вторых, эластичное семейство использует гибридную архитектуру Mamba-2 и Transformer, что позволяет модели адаптироваться к различным бюджетам и задачам. В-третьих, модель показывает хорошие результаты на бенчмарках, ориентированных на рассуждения, что подтверждает её эффективность и конкурентоспособность.
5. Какие аспекты архитектуры и обучения модели Nemotron-Elastic-12B способствуют её эффективности и гибкости?
Ответ: архитектура и обучение модели Nemotron-Elastic-12B способствуют её эффективности и гибкости несколькими способами. Во-первых, использование гибридной архитектуры Mamba-2 Transformer позволяет модели сочетать преимущества различных подходов к обучению. Во-вторых, изученный маршрутизатор применяет структурированные маски по ширине и глубине для определения каждой подмодели, что позволяет модели адаптироваться к различным бюджетам. В-третьих, модель обучается как модель рассуждений с замороженным учителем, что упрощает процесс обучения и снижает затраты.