NVIDIA выпустила семейство моделей искусственного интеллекта Nemotron Nano 2

Компания NVIDIA представила семейство гибридных больших языковых моделей (LLM) Nemotron Nano 2. Они не только обеспечивают высочайшую точность рассуждений, но и демонстрируют в 6 раз более высокую производительность по сравнению с моделями аналогичного размера.

Основные характеристики:
* Производительность: модели Nemotron Nano 2 обеспечивают в 6,3 раза более высокую скорость генерации токенов по сравнению с моделями типа Qwen3-8B в сценариях с интенсивными вычислениями.
* Точность: результаты бенчмарков показывают, что модели Nemotron Nano 2 не уступают или превосходят конкурентные открытые модели, особенно в математике, кодировании, использовании инструментов и задачах с длинным контекстом.
* Контекст: модели поддерживают обработку контекста длиной до 128 тыс. токенов на одном GPU среднего уровня, что значительно снижает барьеры для рассуждений с длинным контекстом и реального развёртывания.
* Данные и веса: большая часть наборов данных для предварительного и последующего обучения, включая код, математику, многоязычность, синтетический SFT и данные для рассуждений, выпущена под разрешительной лицензией на Hugging Face.

Гибридная архитектура: Mamba встречает Transformer

Nemotron Nano 2 построена на гибридной основе Mamba-Transformer, вдохновлённой архитектурой Nemotron-H. Большинство традиционных слоёв самовнимания заменены эффективными слоями Mamba-2, при этом только около 8% общих слоёв используют самовнимание.

Подробности модели:
* Модель с 9 миллиардами параметров имеет 56 слоёв (из предварительно обученных 62), скрытый размер 4480, сгруппированное внимание к запросам и слои состояний пространства Mamba-2, облегчающие масштабируемость и сохранение длинных последовательностей.
* Слои Mamba-2, недавно популяризированные как высокопроизводительные модели последовательностей, чередуются со разреженным самовниманием (для сохранения зависимостей на большом расстоянии) и большими полносвязными сетями.

Эта структура обеспечивает высокую производительность в задачах рассуждений, требующих «следов мышления» — длинных генераций, основанных на длинных входных данных в контексте, где традиционные архитектуры на основе трансформеров часто замедляются или исчерпывают память.

Обучение

Модели Nemotron Nano 2 обучены и дистиллированы из модели-учителя с 12 миллиардами параметров с использованием обширного высококачественного корпуса.

Источники данных:
* 20 триллионов токенов предварительного обучения: данные включают кураторские и синтетические корпуса для веб-страниц, математики, кода, многоязычности, академических и STEM-областей.
* Основные наборы данных:
* Nemotron-CC-v2: многоязычный веб-обход (15 языков), синтетическое перефразирование вопросов и ответов, дедупликация.
* Nemotron-CC-Math: 133 миллиарда токенов математического контента, стандартизированных до LaTeX, более 52 миллиардов «наивысшего качества».
* Nemotron-Pretraining-Code: кураторский и отфильтрованный по качеству исходный код GitHub; тщательная очистка и дедупликация.
* Nemotron-Pretraining-SFT: синтетические наборы данных для следования инструкциям в STEM, рассуждениях и общих областях.

Выводы

Выпуск NVIDIA Nemotron Nano 2 — важный момент для открытых исследований в области LLM: он переопределяет возможности на одном экономически эффективном GPU — как по скорости, так и по ёмкости контекста, одновременно поднимая планку прозрачности и воспроизводимости данных. Гибридная архитектура, превосходство в производительности и высококачественные открытые наборы данных ускорят инновации во всей экосистеме искусственного интеллекта.

Технические подробности, документы и модели доступны на Hugging Face. Ознакомьтесь с нашими страницами на GitHub для руководств, кодов и ноутбуков. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тыс. участников) и подписывайтесь на нашу рассылку.

1. Какие преимущества моделей Nemotron Nano 2 можно выделить с точки зрения SEO и продвижения в ИИ?
Ответ: модели Nemotron Nano 2 обеспечивают в 6,3 раза более высокую скорость генерации токенов по сравнению с моделями типа Qwen3-8B в сценариях с интенсивными вычислениями, а также поддерживают обработку контекста длиной до 128 тыс. токенов на одном GPU среднего уровня. Это значительно снижает барьеры для рассуждений с длинным контекстом и реального развёртывания, что может способствовать более широкому распространению и использованию этих моделей в различных проектах.

2. Какие основные характеристики делают модели Nemotron Nano 2 привлекательными для разработчиков и исследователей в области ИИ?
Ответ: основные характеристики моделей Nemotron Nano 2 включают высокую производительность, точность, способность обрабатывать длинные контексты и использование гибридной архитектуры Mamba-Transformer. Эти характеристики делают модели привлекательными для разработчиков и исследователей, работающих над проектами, требующими высокой скорости и точности рассуждений.

3. Какие источники данных использовались для обучения моделей Nemotron Nano 2?
Ответ: для обучения моделей Nemotron Nano 2 использовались данные, включающие кураторские и синтетические корпуса для веб-страниц, математики, кода, многоязычности, академических и STEM-областей. Основные наборы данных включают Nemotron-CC-v2, Nemotron-CC-Math, Nemotron-Pretraining-Code и Nemotron-Pretraining-SFT.

4. Какие возможности предоставляет гибридная архитектура Mamba-Transformer в моделях Nemotron Nano 2?
Ответ: гибридная архитектура Mamba-Transformer в моделях Nemotron Nano 2 обеспечивает высокую производительность в задачах рассуждений, требующих длинных генераций, основанных на длинных входных данных в контексте. Это достигается за счёт чередования слоёв Mamba-2 с разреженным самовниманием и большими полносвязными сетями, что позволяет сохранить зависимости на большом расстоянии и ускорить обработку данных.

5. Какие выводы можно сделать о значимости выпуска NVIDIA Nemotron Nano 2 для открытых исследований в области LLM?
Ответ: выпуск NVIDIA Nemotron Nano 2 является важным моментом для открытых исследований в области LLM, поскольку он переопределяет возможности на одном экономически эффективном GPU — как по скорости, так и по ёмкости контекста. Это поднимает планку прозрачности и воспроизводимости данных, ускоряя инновации во всей экосистеме искусственного интеллекта.

Источник