Mistral AI выпустила модель Mistral Small 4: модель MoE с 119 миллиардами параметров, объединяющая возможности инструктирования, рассуждений и мультимодальных рабочих нагрузок

Компания Mistral AI выпустила Mistral Small 4 — новую модель из семейства Mistral Small, предназначенную для объединения нескольких ранее раздельных возможностей в единую цель развёртывания.

Команда Mistral описывает Small 4 как свою первую модель, сочетающую роли, связанные с Mistral Small для инструктирования, Magistral для рассуждений, Pixtral для мультимодального понимания и Devstral для агентного кодирования. В результате получается единая модель, которая может работать как универсальный помощник, модель для рассуждений и мультимодальная система, не требующая переключения моделей в разных рабочих процессах.

Архитектура: 128 экспертов, разрежённая активация

С точки зрения архитектуры, Mistral Small 4 — это модель Mixture-of-Experts (MoE) с 128 экспертами и 4 активными экспертами на токен. Модель имеет 119 миллиардов параметров в общей сложности, с 6 миллиардами активных параметров на токен или 8 миллиардов, включая встраиваемые и выходные слои.

Длинный контекст и мультимодальная поддержка

Модель поддерживает окно контекста в 256 тысяч токенов, что является значительным шагом вперёд для практических инженерных задач. Возможность работы с длинным контекстом важна не столько как маркетинговое число, сколько как упрощение работы: она снижает необходимость в агрессивном разбиении на фрагменты, организации поиска и обрезке контекста в таких задачах, как анализ длинных документов, исследование кодовой базы, многофайловое рассуждение и агентские рабочие процессы.

Mistral позиционирует модель для общего чата, кодирования, агентских задач и сложных рассуждений с текстовыми и графическими входными данными и текстовым выходным форматом. Это относит Small 4 к всё более важной категории универсальных моделей, которые, как ожидается, будут справляться как с языковыми, так и с визуально ориентированными корпоративными задачами под одной поверхностью API.

Настраиваемые рассуждения во время вывода

Более важным решением, чем количество параметров, является введение настраиваемых усилий по рассуждению. Small 4 предоставляет параметр reasoningeffort для каждого запроса, который позволяет разработчикам обменивать задержку на более глубокое тестирование во время рассуждений. В официальной документации reasoningeffort=»none» описывается как обеспечивающий быстрые ответы в стиле чата, эквивалентном Mistral Small 3.2, в то время как reasoning_effort=»high» предназначен для более обдуманных, пошаговых рассуждений с многословностью, сравнимой с более ранними моделями Magistral.

Производительность и пропускная способность

Команда Mistral также подчёркивает эффективность вывода. Small 4 обеспечивает сокращение времени выполнения от конца до конца на 40% в настройке, оптимизированной по задержке, и в 3 раза больше запросов в секунду в настройке, оптимизированной по пропускной способности, по сравнению с Mistral Small 3.

Результаты бенчмарков и эффективность вывода

В бенчмарках по рассуждениям команда Mistral фокусируется как на качестве, так и на эффективности вывода. Исследовательская группа Mistral сообщает, что Mistral Small 4 с учётом рассуждений соответствует или превосходит GPT-OSS 120B по AA LCR, LiveCodeBench и AIME 2025, генерируя при этом более короткие выходные данные.

Детали развёртывания

Для самостоятельного хостинга Mistral даёт конкретные рекомендации по инфраструктуре. Компания указывает минимальную цель развёртывания — 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 или 1x NVIDIA DGX B200, при этом для достижения наилучшей производительности рекомендуются более крупные конфигурации.

Ключевые выводы

* Единая модель: Mistral Small 4 сочетает в себе возможности инструктирования, рассуждений, мультимодального и агентного кодирования в одной модели.
* Разрежённая конструкция MoE: она использует 128 экспертов с 4 активными экспертами на токен, что обеспечивает более высокую эффективность, чем плотные модели аналогичного общего размера.
* Поддержка длинного контекста: модель поддерживает окно контекста в 256 тысяч токенов и принимает текстовые и графические входные данные с текстовым выходным форматом.
* Рассуждения настраиваются: разработчики могут настраивать reasoning_effort во время вывода, а не маршрутизировать между отдельными моделями — быстрой и для рассуждений.
* Фокус на открытом развёртывании: модель выпущена под лицензией Apache 2.0 и поддерживает обслуживание через такие стеки, как vLLM, с несколькими вариантами контрольных точек на Hugging Face.

1. Какие уникальные возможности предоставляет модель Mistral Small 4, объединяя различные функции в одной модели?

Модель Mistral Small 4 объединяет возможности инструктирования, рассуждений, мультимодального и агентного кодирования в одной модели. Это позволяет использовать её как универсальный помощник, модель для рассуждений и мультимодальную систему без необходимости переключения между разными моделями в различных рабочих процессах.

2. Какие параметры и настройки доступны разработчикам для оптимизации работы с Mistral Small 4?

Разработчики могут настраивать параметр reasoningeffort во время вывода, чтобы обменивать задержку на более глубокое тестирование во время рассуждений. Значение reasoningeffort=»none» обеспечивает быстрые ответы в стиле чата, а reasoning_effort=»high» предназначен для более обдуманных, пошаговых рассуждений.

3. Какие преимущества предоставляет поддержка длинного контекста в модели Mistral Small 4?

Поддержка длинного контекста в Mistral Small 4 позволяет работать с документами и кодовыми базами без необходимости их разбиения на фрагменты, организации поиска и обрезки контекста. Это упрощает работу с длинными документами, исследование кодовой базы, многофайловое рассуждение и агентские рабочие процессы.

4. Какие рекомендации даёт Mistral для самостоятельного хостинга модели Small 4?

Для самостоятельного хостинга Mistral рекомендует минимальную конфигурацию — 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 или 1x NVIDIA DGX B200. Для достижения наилучшей производительности рекомендуются более крупные конфигурации.

5. Какие выводы можно сделать о производительности и эффективности вывода Mistral Small 4 по сравнению с предыдущей моделью?

Mistral Small 4 обеспечивает сокращение времени выполнения от конца до конца на 40% в настройке, оптимизированной по задержке, и в 3 раза больше запросов в секунду в настройке, оптимизированной по пропускной способности, по сравнению с Mistral Small 3. Это свидетельствует о повышении производительности и эффективности вывода.

Источник