NVIDIA AI выпускает Nemotron-Elastic-12B — модель искусственного интеллекта с 12 миллиардами параметров, которая включает в себя вложенные варианты с 9 миллиардами и 6 миллиардами параметров в том же пространстве параметров. Это означает, что все три размера получаются из одной эластичной контрольной точки без дополнительных этапов дистилляции для каждого размера.
Почему команды разработчиков ИИ всё ещё обучают и хранят несколько больших языковых моделей для разных потребностей, когда одна эластичная модель может генерировать несколько размеров с одинаковыми затратами?
Обычно для создания «семейства моделей» требуется обучать несколько моделей отдельно, что приводит к увеличению затрат на токены и хранение контрольных точек. Nemotron Elastic использует другой подход. Он начинается с модели Nemotron Nano V2 12B и обучает эластичную гибридную сеть Mamba Attention, которая содержит несколько вложенных подмоделей.
Основные моменты
- Nemotron Elastic — это гибридный Mamba-2 Transformer с эластичными масками.
- Эластичность реализуется путём превращения этого гибрида в динамическую модель, управляемую масками.
- Ширина, встраиваемые каналы, головы Mamba и каналы головы, головы внимания и промежуточный размер FFN могут быть уменьшены с помощью двоичных масок.
- Глубина, слои могут быть удалены в соответствии с изученным порядком важности, с остаточными путями, сохраняющими поток сигналов.
Обучение
Nemotron Elastic обучается как модель рассуждений с замороженным учителем. Учитель — это исходная модель рассуждений Nemotron-Nano-V2-12B. Эластичный ученик 12B оптимизируется совместно для всех трёх бюджетов: 6B, 9B, 12B, используя дистилляцию знаний плюс потери при языковом моделировании.
Результаты тестирования
Nemotron Elastic оценивается на основе тестов, требующих рассуждений, таких как MATH 500, AIME 2024, AIME 2025, GPQA, LiveCodeBench v5 и MMLU Pro. Модель 12B эластичная соответствует базовому уровню NanoV2 в среднем, 77,41 против 77,38, при этом также предоставляя варианты 9B и 6B из того же запуска.
Экономия токенов и памяти при развёртывании
Nemotron Elastic напрямую нацелен на решение проблемы затрат. Исследования показывают, что это даёт примерно в 360 раз меньшее количество токенов по сравнению с обучением двух дополнительных моделей с нуля и примерно в 7 раз меньшее количество токенов по сравнению с базовым уровнем сжатия Minitron SSM.
Сравнение
| Система | Размеры (B) | Средний балл рассуждений | Токены для 6B + 9B | Память BF16 |
|———|————|————————|——————|—————|
| Nemotron Elastic | 6, 9, 12 | 70,61 / 75,95 / 77,41 | 110B | 24GB |
| NanoV2 Compression | 9, 12 | 75,99 / 77,38 | 750B | 42GB |
Ключевые выводы
- Nemotron Elastic обучает одну модель рассуждений с 12 миллиардами параметров, которая содержит вложенные варианты с 9 миллиардами и 6 миллиардами параметров.
- Эластичная семья использует гибридную архитектуру Mamba-2 и Transformer, а также изученный маршрутизатор, который применяет структурированные маски по ширине и глубине для определения каждой подмодели.
- Подход требует 110 миллиардов обучающих токенов для получения 6B и 9B из 12B родителя, что примерно в 7 раз меньше токенов, чем базовый уровень сжатия Minitron SSM, и примерно в 360 раз меньше, чем при обучении дополнительных моделей с нуля.
Что такое федеративное обучение?
Федеративное обучение — это метод обучения моделей машинного обучения без централизованного сбора пользовательских данных. Вместо загрузки личных данных (таких как частота сердечных сокращений, циклы сна или журналы тренировок) модель отправляется на каждое устройство, обучается локально, и обратно отправляются только обновления модели. Эти обновления безопасно агрегируются для улучшения глобальной модели, обеспечивая конфиденциальность и соответствие таким законам, как GDPR и HIPAA.
Варианты федеративного обучения
- Централизованное FL: центральный сервер координирует обучение и агрегирует обновления.
- Децентрализованное FL: устройства напрямую обмениваются обновлениями — нет единой точки отказа.
- Гетерогенное FL: предназначено для устройств с разными вычислительными возможностями (телефоны, часы, IoT-сенсоры).
Рабочий процесс
1. Глобальная модель отправляется на пользовательские устройства.
2. Каждое устройство обучается на своих личных данных (например, на показателях физической подготовки и здоровья пользователя).
3. Только обновления модели — не данные — шифруются и отправляются обратно.
4. Сервер агрегирует все обновления в новую глобальную модель.
Проблемы в федеративном обучении
- Ограничения устройств: пользовательские устройства (телефоны, умные часы, фитнес-трекеры) имеют ограниченную мощность процессора/графического процессора, малый объём оперативной памяти и работают от батареи. Обучение должно быть лёгким, энергоэффективным и разумно спланированным, чтобы не мешать обычному использованию устройства.
- Агрегация моделей: даже после локального обучения на тысячах или миллионах устройств нам всё равно нужно объединить все эти обновления модели в единую глобальную модель.
- Смещение локальных данных (не-IID данные): данные каждого пользователя отражают личные привычки и образ жизни.
- Прерывистая доступность клиентов: многие устройства могут быть отключены от сети, заблокированы, разряжены или не подключены к Wi-Fi.
- Эффективность связи: частая отправка обновлений модели может привести к разрядке пропускной способности и батареи.
- Гарантии безопасности и конфиденциальности: даже если необработанные данные никогда не покидают устройство, обновления должны быть зашифрованы.
1. В чём заключается инновационность модели Nemotron-Elastic-12B по сравнению с традиционными подходами к созданию «семейства моделей» в ИИ?
Ответ: модель Nemotron-Elastic-12B от NVIDIA AI является инновационной, поскольку она позволяет получить несколько вариантов размеров модели (6B, 9B и 12B) из одной эластичной контрольной точки без дополнительных этапов дистилляции для каждого размера. Это отличается от традиционных подходов, где для создания «семейства моделей» требуется обучать несколько моделей отдельно, что приводит к увеличению затрат на токены и хранение контрольных точек.
2. Какие преимущества предлагает модель Nemotron-Elastic-12B с точки зрения экономии ресурсов при развёртывании?
Ответ: модель Nemotron-Elastic-12B предлагает значительные преимущества с точки зрения экономии ресурсов при развёртывании. Исследования показывают, что она требует примерно в 360 раз меньшее количество токенов по сравнению с обучением двух дополнительных моделей с нуля и примерно в 7 раз меньшее количество токенов по сравнению с базовым уровнем сжатия Minitron SSM. Это делает её более экономичной в использовании токенов и памяти при развёртывании.
3. Какие основные моменты отличают архитектуру и подход к обучению модели Nemotron Elastic?
Ответ: основные моменты, отличающие архитектуру и подход к обучению модели Nemotron Elastic, включают:
* использование гибридного Mamba-2 Transformer с эластичными масками;
* реализация эластичности путём превращения этого гибрида в динамическую модель, управляемую масками;
* возможность уменьшения ширины, встраиваемых каналов, голов Mamba и каналов головы, голов внимания и промежуточного размера FFN с помощью двоичных масок;
* удаление слоёв в соответствии с изученным порядком важности, с остаточными путями, сохраняющими поток сигналов.
4. Какие проблемы могут возникнуть при использовании федеративного обучения в моделях ИИ и как они влияют на процесс обучения?
Ответ: при использовании федеративного обучения в моделях ИИ могут возникнуть следующие проблемы:
* ограничения устройств, такие как ограниченная мощность процессора/графического процессора, малый объём оперативной памяти и работа от батареи;
* необходимость агрегации обновлений моделей в единую глобальную модель;
* смещение локальных данных (не-IID данные), которое может влиять на качество глобальной модели;
* прерывистая доступность клиентов, что может затруднить синхронизацию обновлений;
* эффективность связи, которая может быть ограничена пропускной способностью и батареей устройств;
* гарантии безопасности и конфиденциальности, которые требуют шифрования обновлений моделей.
5. Какие варианты федеративного обучения существуют и в чём их основные отличия?
Ответ: существуют следующие варианты федеративного обучения:
* централизованное FL, где центральный сервер координирует обучение и агрегирует обновления;
* децентрализованное FL, где устройства напрямую обмениваются обновлениями — нет единой точки отказа;
* гетерогенное FL, предназначенное для устройств с разными вычислительными возможностями (телефоны, часы, IoT-сенсоры).
Основные отличия между этими вариантами заключаются в способе координации обучения, обмене обновлениями и обработке устройств с разными вычислительными возможностями.