Исследователи NVIDIA преодолели давнее препятствие в области эффективности больших языковых моделей (LLM), представив Jet-Nemotron — семейство моделей (2B и 4B), которые обеспечивают до 53,6-кратное увеличение производительности по сравнению с ведущими моделями LLM с полным вниманием, сохраняя при этом точность или даже превосходя её.
Необходимость скорости в современных LLM
Сегодняшние передовые LLM, такие как Qwen3, Llama3.2 и Gemma3, установили новые стандарты точности и гибкости. Однако их механизм самовнимания O(n²) влечёт за собой огромные затраты — как вычислительные, так и на память, особенно для задач с длинным контекстом. Это делает их дорогостоящими для масштабирования и практически невозможными для запуска на периферийных устройствах или устройствах с ограниченными ресурсами памяти.
PostNAS: хирургический, экономичный подход
Ключевым нововведением является PostNAS — механизм поиска нейронной архитектуры, разработанный специально для эффективной модернизации предварительно обученных моделей.
Как это работает:
1. Заморозка знаний: начните с передовой модели с полным вниманием (например, Qwen2.5). Заморозьте её слои MLP — это сохранит приобретённый моделью интеллект и значительно снизит затраты на обучение.
2. Хирургическая замена: замените вычислительно затратные модели с полным вниманием (Transformers) на JetBlock — новый, эффективный с точки зрения аппаратного обеспечения блок линейного внимания, разработанный для новейших GPU от NVIDIA.
3. Гибридный, ориентированный на аппаратное обеспечение дизайн: используйте суперсетевое обучение и поиск по лучу, чтобы автоматически определить оптимальное размещение и минимальный набор слоёв с полным вниманием, необходимых для сохранения точности при выполнении ключевых задач (поиск, математика, MMLU, кодирование и т. д.).
4. Масштабирование и развёртывание: в результате получается LLM с гибридной архитектурой, которая наследует основной интеллект исходной модели, но сокращает задержки и объём памяти.
Jet-Nemotron: показатели производительности
Ключевые показатели из технической статьи NVIDIA впечатляют:
| Модель | MMLU-Pro Acc. | Generation Throughput (tokens/s, H100) | KV Cache Size (MB, 64K context) | Notes |
| — | — | — | — | — |
| Qwen3-1.7B-Base | 37,86 | 17 168 | Full-attention baseline | |
| Jet-Nemotron-2B | 39,02 | 2 885 | 15 447× пропускная способность, 47× меньший кэш | |
| Jet-Nemotron-4B | 44,2 | 1 271 | 21× пропускная способность, всё ещё SOTA acc. | |
| Mamba2-2.7B | 8,6 | 2 507 | 80 | All-linear, гораздо ниже точность |
| RWKV7-1.5B | 13,4 | 3 050 | 24 | All-linear, гораздо ниже точность |
| DeepSeek-V3-Small (MoE) | — | — | 2,2B активировано, 15B всего, ниже точность | |
Jet-Nemotron-2B соответствует или превосходит Qwen3-1.7B-Base по всем основным показателям — математике, здравому смыслу, кодированию, поиску, длинному контексту — при этом обеспечивая в 47 раз более высокую производительность по генерации.
Применение
Для руководителей предприятий:
* Повышение рентабельности инвестиций. Масштабирование выводов теперь доступно по цене. Увеличение пропускной способности в 53 раза означает, что вы можете обслуживать в 53 раза больше пользователей или сократить расходы на хостинг на 98 %.
* Операционная эффективность. Задержки сокращаются, размеры пакетов увеличиваются, ограничения памяти исчезают. Облачные провайдеры могут предлагать передовые технологии искусственного интеллекта по доступным ценам.
* Бизнес-модель на основе ИИ. Модель бизнеса на основе ИИ меняется: задачи, которые раньше были слишком дорогими (например, искусственный интеллект для работы с документами в реальном времени, агенты с длинным контекстом, помощники на устройствах), внезапно становятся жизнеспособными.
Для практиков:
* SOTA на периферии. Забудьте о компромиссах, связанных с квантованием, дистилляцией или обрезкой. Небольшой KV-кэш Jet-Nemotron (154 МБ) и 2 миллиарда параметров помещаются на Jetson Orin, RTX 3090 и даже на мобильных чипах — больше не нужно выгружать данные в облако.
* Никаких тренировок. Существующие контрольные точки Qwen, Llama или Gemma можно обновить без потери точности.
* Реальные услуги на базе ИИ (поиск, помощники, обобщение, кодирование) теперь мгновенные и масштабируемые.
Для исследователей:
* Снижение порога входа, повышение уровня инноваций. PostNAS снижает затраты на инновации в области архитектуры LLM. Вместо месяцев и миллионов на предварительное обучение поиск архитектуры происходит на замороженных базовых моделях за долю времени.
* Аппаратно-ориентированный NAS — будущее. Процесс Jet-Nemotron учитывает размер KV-кэша (а не только параметры) как критический фактор для реальной скорости. Это сдвиг парадигмы в том, как мы измеряем и оптимизируем эффективность.
* Сообщество может работать быстрее: PostNAS — это быстрый испытательный стенд. Если новый блок внимания работает здесь, его стоит предварительно обучить; если нет, он отфильтровывается до больших затрат.
Резюме
Открытый исходный код Jet-Nemotron и JetBlock (код на GitHub) означает, что более широкая экосистема искусственного интеллекта теперь может модернизировать свои модели для беспрецедентной эффективности. PostNAS — это не разовый трюк: это универсальная платформа для ускорения любого трансформера, снижающая стоимость будущих прорывов.
Ознакомьтесь с [статьёй](https://arxiv.org/abs/2508.15884v1?) и [страницей GitHub](https://github.com/). Не стесняйтесь ознакомиться с нашей [страницей GitHub](https://github.com/), где вы найдёте руководства, коды и записные книжки. Также подписывайтесь на нас в [Twitter](https://twitter.com/) и присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) (более 100 тысяч участников) и подписывайтесь на наш [Newsletter](https://www.marktechpost.com/newsletter/).
1. Какие проблемы в области эффективности больших языковых моделей (LLM) удалось решить исследователям NVIDIA?
Исследователи NVIDIA представили Jet-Nemotron — семейство моделей (2B и 4B), которые обеспечивают до 53,6-кратное увеличение производительности по сравнению с ведущими моделями LLM с полным вниманием, сохраняя при этом точность или даже превосходя её.
2. В чём заключается ключевое нововведение PostNAS и как оно работает?
Ключевым нововведением является PostNAS — механизм поиска нейронной архитектуры, разработанный специально для эффективной модернизации предварительно обученных моделей.
Как это работает:
1. Заморозка знаний: начните с передовой модели с полным вниманием (например, Qwen2.5). Заморозьте её слои MLP — это сохранит приобретённый моделью интеллект и значительно снизит затраты на обучение.
2. Хирургическая замена: замените вычислительно затратные модели с полным вниманием (Transformers) на JetBlock — новый, эффективный с точки зрения аппаратного обеспечения блок линейного внимания, разработанный для новейших GPU от NVIDIA.
3. Гибридный, ориентированный на аппаратное обеспечение дизайн: используйте суперсетевое обучение и поиск по лучу, чтобы автоматически определить оптимальное размещение и минимальный набор слоёв с полным вниманием, необходимых для сохранения точности при выполнении ключевых задач (поиск, математика, MMLU, кодирование и т. д.).
4. Масштабирование и развёртывание: в результате получается LLM с гибридной архитектурой, которая наследует основной интеллект исходной модели, но сокращает задержки и объём памяти.
3. Какие показатели производительности демонстрируют модели Jet-Nemotron?
Ключевые показатели из технической статьи NVIDIA впечатляют:
| Модель | MMLU-Pro Acc. | Generation Throughput (tokens/s, H100) | KV Cache Size (MB, 64K context) | Notes |
| — | — | — | — | — |
| Qwen3-1.7B-Base | 37,86 | 17 168 | Full-attention baseline | |
| Jet-Nemotron-2B | 39,02 | 2 885 | 15 447× пропускная способность, 47× меньший кэш | |
| Jet-Nemotron-4B | 44,2 | 1 271 | 21× пропускная способность, всё ещё SOTA acc. | |
Jet-Nemotron-2B соответствует или превосходит Qwen3-1.7B-Base по всем основным показателям — математике, здравому смыслу, кодированию, поиску, длинному контексту — при этом обеспечивая в 47 раз более высокую производительность по генерации.
4. Какие преимущества Jet-Nemotron предлагает для руководителей предприятий, практиков и исследователей?
Для руководителей предприятий:
* Повышение рентабельности инвестиций. Масштабирование выводов теперь доступно по цене. Увеличение пропускной способности в 53 раза означает, что вы можете обслуживать в 53 раза больше пользователей или сократить расходы на хостинг на 98 %.
* Операционная эффективность. Задержки сокращаются, размеры пакетов увеличиваются, ограничения памяти исчезают. Облачные провайдеры могут предлагать передовые технологии искусственного интеллекта по доступным ценам.
* Бизнес-модель на основе ИИ. Модель бизнеса на основе ИИ меняется: задачи, которые раньше были слишком дорогими (например, искусственный интеллект для работы с документами в реальном времени, агенты с длинным контекстом, помощники на устройствах), внезапно становятся жизнеспособными.
Для практиков:
* SOTA на периферии. Забудьте о компромиссах, связанных с квантованием, дистилляцией или обрезкой. Небольшой KV-кэш Jet-Nemotron (154 МБ) и 2 миллиарда параметров помещаются на Jetson Orin, RTX 3090 и даже на мобильных чипах — больше не нужно выгружать данные в облако.
* Никаких тренировок. Существующие контрольные точки Qwen, Llama или Gemma можно обновить без потери точности.
* Реальные услуги на базе ИИ (поиск, помощники, обобщение, кодирование) теперь мгновенные и масштабируемые.
Для исследователей:
* Снижение порога входа, повышение уровня инноваций. PostNAS снижает затраты на инновации в области архитектуры LLM. Вместо месяцев и миллионов на предварительное обучение поиск архитектуры происходит на замороженных базовых моделях за долю времени.
* Аппаратно-ориентированный NAS — будущее. Процесс Jet-Nemotron учитывает размер KV-кэша (а не только параметры) как критический фактор для реальной скорости. Это сдвиг парадигмы в том, как мы измеряем и оптимизируем эффективность.
* Сообщество может работать быстрее: PostNAS — это быстрый испытательный стенд. Если новый блок внимания работает здесь, его стоит предварительно обучить; если нет, он отфильтровывается до больших затрат.