NVIDIA и Mistral AI ускоряют вывод данных в 10 раз для семейства моделей Mistral 3 на системах с GPU GB200 NVL72

Корпорация NVIDIA объявила о значительном расширении стратегического сотрудничества с компанией Mistral AI. Это партнёрство совпадает с выпуском нового семейства передовых открытых моделей Mistral 3, что знаменует собой поворотный момент, когда аппаратное ускорение и архитектура моделей с открытым исходным кодом объединились, чтобы пересмотреть стандарты производительности.

Новый уровень производительности: в 10 раз быстрее на Blackwell

Сотрудничество между NVIDIA и Mistral AI обеспечивает значительный скачок в скорости вывода данных: новые модели теперь работают в 10 раз быстрее на системах NVIDIA GB200 NVL72 по сравнению с системами предыдущего поколения H200. Этот прорыв обеспечивает беспрецедентную эффективность для корпоративного ИИ, обещая решить проблемы задержки и затрат, которые исторически препятствовали масштабному внедрению моделей рассуждений.

В условиях, когда корпоративный спрос смещается от простых чат-ботов к агентам с высоким уровнем рассуждений и длинным контекстом, эффективность вывода данных стала критически важным узким местом. Сотрудничество между NVIDIA и Mistral AI решает эту проблему за счёт оптимизации семейства моделей Mistral 3 специально для архитектуры NVIDIA Blackwell.

Система NVIDIA GB200 NVL72 обеспечивает до 10 раз более высокую производительность по сравнению с предыдущим поколением H200. Это не просто прирост чистой скорости; это также значительно более высокая энергоэффективность. Система превышает 5 000 000 токенов в секунду на мегаватт (МВт) при скорости взаимодействия с пользователем 40 токенов в секунду.

Для центров обработки данных, борющихся с ограничениями мощности, этот прирост эффективности так же важен, как и повышение производительности. Этот скачок поколений обеспечивает более низкую стоимость за токен при сохранении высокой пропускной способности, необходимой для приложений реального времени.

Новое семейство моделей Mistral 3

Драйвером этой производительности является недавно выпущенное семейство моделей Mistral 3. Этот набор моделей обеспечивает лидирующую в отрасли точность, эффективность и возможности настройки, охватывая спектр от масштабных рабочих нагрузок центров обработки данных до вывода данных на периферийных устройствах.

Mistral Large 3: флагман MoE

На вершине иерархии находится Mistral Large 3, современная разреженная мультимодальная и многоязычная модель Mixture-of-Experts (MoE).

* Общие параметры: 675 миллиардов.
* Активные параметры: 41 миллиард.
* Окно контекста: 256 тысяч токенов.

Модель Mistral Large 3, обученная на графических процессорах NVIDIA Hopper, предназначена для решения сложных задач логического вывода, обеспечивая паритет с топовыми закрытыми моделями при сохранении гибкости открытых весов.

Ministral 3: плотная мощность на периферии

Дополняя большую модель, серия Ministral 3 представляет собой набор небольших плотных высокопроизводительных моделей, разработанных для обеспечения скорости и универсальности.

* Размеры: 3B, 8B и 14B параметров.
* Варианты: Base, Instruct и Reasoning для каждого размера (всего девять моделей).
* Окно контекста: 256 тысяч токенов по всем направлениям.

Серия Ministral 3 отличается высокой точностью в бенчмарке GPQA Diamond, используя на 100 токенов меньше при сохранении более высокой точности.

Значительные инженерные разработки за счёт скорости: комплексный стек оптимизации

Заявление о производительности «в 10 раз» основано на комплексном стеке оптимизаций, совместно разработанном инженерами Mistral и NVIDIA. Команды приняли подход «экстремального совместного проектирования», объединив аппаратные возможности с корректировками архитектуры моделей.

TensorRT-LLM Wide Expert Parallelism (Wide-EP)

Чтобы в полной мере использовать масштаб GB200 NVL72, NVIDIA использовала Wide Expert Parallelism в TensorRT-LLM. Эта технология обеспечивает оптимизированные ядра GroupGEMM для MoE, распределение экспертов и балансировку нагрузки.

Широко-EP использует когерентную область памяти NVL72 и ткань NVLink. Он обладает высокой устойчивостью к архитектурным вариациям в крупных MoE. Например, Mistral Large 3 использует примерно 128 экспертов на слой, что примерно вдвое меньше, чем у сопоставимых моделей, таких как DeepSeek-R1. Несмотря на эту разницу, Wide-EP позволяет модели реализовать преимущества высокой пропускной способности, низкой задержки и неблокирующей работы ткани NVLink, гарантируя, что огромный размер модели не приведёт к возникновению узких мест в обмене данными.

Нативное квантование NVFP4

Одним из наиболее значительных технических достижений в этом выпуске является поддержка NVFP4, формата квантования, родного для архитектуры Blackwell.

Для Mistral Large 3 разработчики могут развернуть оптимизированную для вычислений контрольную точку NVFP4, квантованную в автономном режиме с помощью библиотеки с открытым исходным кодом llm-compressor.

Этот подход снижает затраты на вычисления и память при строгом сохранении точности. Он использует более точные масштабные коэффициенты FP8 и более детальное блочное масштабирование NVFP4 для контроля ошибки квантования. Рецепт специально нацелен на веса MoE, сохраняя другие компоненты с исходной точностью, что позволяет модели беспрепятственно развертываться на GB200 NVL72 с минимальными потерями в точности.

Распределённый вывод с помощью NVIDIA Dynamo

Mistral Large 3 использует NVIDIA Dynamo, распределённую инфраструктуру вывода с низкой задержкой, для разделения фаз предварительного заполнения и декодирования вывода.

В традиционных установках фаза предварительного заполнения (обработка входного запроса) и фаза декодирования (генерация вывода) конкурируют за ресурсы. Благодаря согласованию скоростей и разделению этих фаз Dynamo значительно повышает производительность для рабочих нагрузок с длинным контекстом, таких как конфигурации ввода 8K/вывода 1K. Это обеспечивает высокую пропускную способность даже при использовании массивного 256-тысячного контекстного окна модели.

От облака к периферии: производительность Ministral 3

Усилия по оптимизации выходят за рамки крупных центров обработки данных. Признавая растущую потребность в локальном искусственном интеллекте, серия Ministral 3 разработана для развёртывания на периферии, обеспечивая гибкость для различных потребностей.

Ускорение RTX и Jetson

Плотные модели Ministral оптимизированы для таких платформ, как NVIDIA GeForce RTX AI PC и модули робототехники NVIDIA Jetson.

RTX 5090: варианты Ministral-3B могут достигать молниеносной скорости вывода данных в 385 токенов в секунду на графическом процессоре NVIDIA RTX 5090. Это обеспечивает производительность ИИ уровня рабочей станции на локальных ПК, позволяя быстро выполнять итерации и повышать конфиденциальность данных.

Jetson Thor: для робототехники и периферийного ИИ разработчики могут использовать контейнер vLLM на NVIDIA Jetson Thor. Модель Ministral-3-3B-Instruct достигает 52 токенов в секунду при однопоточной обработке, масштабируясь до 273 токенов в секунду при восьмипоточной обработке.

Широкая поддержка фреймворков

NVIDIA сотрудничала с сообществом разработчиков с открытым исходным кодом, чтобы обеспечить использование этих моделей повсюду.

* Llama.cpp & Ollama: NVIDIA сотрудничала с этими популярными фреймворками, чтобы обеспечить более быструю итерацию и снижение задержки для локальной разработки.
* SGLang: NVIDIA сотрудничала с SGLang для создания реализации Mistral Large 3, поддерживающей как несогласованность, так и спекулятивное декодирование.
* vLLM: NVIDIA работала с vLLM для расширения поддержки интеграций ядра, включая спекулятивное декодирование (EAGLE), поддержку Blackwell и расширенный параллелизм.

Готовые к производству решения с NVIDIA NIM

Чтобы упростить внедрение на предприятиях, новые модели будут доступны через микросервисы NVIDIA NIM.

Модели Mistral Large 3 и Ministral-14B-Instruct в настоящее время доступны через каталог API NVIDIA и предварительный API. Вскоре корпоративные разработчики смогут использовать загружаемые микросервисы NVIDIA NIM. Это обеспечивает контейнерное, готовое к производству решение, которое позволяет предприятиям развёртывать семейство Mistral 3 с минимальными настройками на любой инфраструктуре с ускорением на GPU.

Эта доступность гарантирует, что специфическое преимущество в производительности «в 10 раз» системы GB200 NVL72 может быть реализовано в производственных средах без сложного индивидуального проектирования, демократизируя доступ к передовому интеллекту.

Заключение: новый стандарт открытого интеллекта

Выпуск открытой модели Mistral 3 с ускорением от NVIDIA представляет собой значительный скачок вперёд для ИИ в сообществе с открытым исходным кодом. Предлагая производительность на передовом уровне по лицензии с открытым исходным кодом и поддерживая её надёжным стеком аппаратной оптимизации, Mistral и NVIDIA отвечают потребностям разработчиков.

От масштабных систем GB200 NVL72, использующих Wide-EP и NVFP4, до компактной плотности Ministral на RTX 5090 — это партнёрство обеспечивает масштабируемый и эффективный путь для искусственного интеллекта. С предстоящими оптимизациями, такими как спекулятивное декодирование с многомаркерным прогнозированием (MTP) и EAGLE-3, ожидается дальнейшее повышение производительности, семейство моделей Mistral 3 готово стать основополагающим элементом следующего поколения приложений ИИ.

Тестирование доступно!

Если вы разработчик и хотите оценить эти приросты производительности, вы можете загрузить модели Mistral 3 напрямую с Hugging Face или протестировать размещённые версии без установки на build.nvidia.com/mistralai, чтобы оценить задержку и пропускную способность для вашего конкретного случая использования.

1. Какие преимущества даёт сотрудничество между NVIDIA и Mistral AI в контексте производительности моделей ИИ?

Сотрудничество между NVIDIA и Mistral AI обеспечивает значительный скачок в скорости вывода данных: новые модели теперь работают в 10 раз быстрее на системах NVIDIA GB200 NVL72 по сравнению с системами предыдущего поколения H200. Это не просто прирост чистой скорости; это также значительно более высокая энергоэффективность.

2. Какие технические инновации были внедрены для ускорения работы моделей Mistral 3 на системах NVIDIA GB200 NVL72?

Для ускорения работы моделей Mistral 3 на системах NVIDIA GB200 NVL72 были внедрены следующие технические инновации:
* Wide Expert Parallelism (Wide-EP) в TensorRT-LLM для оптимизации ядер GroupGEMM для MoE, распределения экспертов и балансировки нагрузки.
* Нативное квантование NVFP4 для снижения затрат на вычисления и память при строгом сохранении точности.
* Распределённый вывод с помощью NVIDIA Dynamo для разделения фаз предварительного заполнения и декодирования вывода.

3. Какие модели входят в семейство Mistral 3 и для каких задач они предназначены?

В семейство Mistral 3 входят следующие модели:
* Mistral Large 3 — современная разреженная мультимодальная и многоязычная модель Mixture-of-Experts (MoE), предназначенная для решения сложных задач логического вывода.
* Серия Ministral 3 — набор небольших плотных высокопроизводительных моделей, разработанных для обеспечения скорости и универсальности.

Модели предназначены для решения задач в центрах обработки данных и для вывода данных на периферийных устройствах.

4. Какие платформы поддерживают модели Ministral 3?

Модели Ministral 3 оптимизированы для таких платформ, как:
* NVIDIA GeForce RTX AI PC;
* модули робототехники NVIDIA Jetson.

5. Какие фреймворки были задействованы для обеспечения использования моделей Mistral 3?

Для обеспечения использования моделей Mistral 3 были задействованы следующие фреймворки:
* Llama.cpp & Ollama;
* SGLang;
* vLLM.

NVIDIA сотрудничала с этими фреймворками для обеспечения более быстрой итерации и снижения задержки для локальной разработки.

Источник