IBM выпустила новые модели Granite 4.0 с гибридной архитектурой Mamba-2/Transformer

Компания IBM выпустила семейство моделей Granite 4.0 с открытым исходным кодом. В них используются гибридные стопки Mamba-2/Transformer для сокращения использования памяти при сохранении качества.

Модели Granite 4.0:
* 3B плотный «Micro»;
* 3B гибридный «H-Micro»;
* 7B гибридный MoE «H-Tiny» (~1B активных);
* 32B гибридный MoE «H-Small» (~9B активных).

Все модели лицензированы по Apache-2.0 и имеют криптографическую подпись. По заявлению IBM, это первые открытые модели, охваченные аккредитованной системой управления ИИ ISO/IEC 42001:2023. Они доступны на watsonx.ai и через Docker Hub, Hugging Face, LM Studio, NVIDIA NIM, Ollama, Replicate, Dell Pro AI Studio/Enterprise Hub, Kaggle, с Azure AI Foundry…

Что нового?

В Granite 4.0 внедрён гибридный дизайн, который перемежает небольшую часть блоков самовнимания с большинством слоёв состояния Mamba-2 (соотношение 9:1).

По данным технического блога IBM, по сравнению с обычными трансформерами LLM, Granite 4.0-H может сократить объём оперативной памяти более чем на 70% для длинных контекстов и многосеансового вывода, что приводит к снижению затрат на GPU при заданных целях по пропускной способности и задержкам. Внутренние сравнения IBM также показывают, что самые маленькие модели Granite 4.0 превосходят Granite 3.3-8B, несмотря на использование меньшего количества параметров.

Выпущенные варианты

IBM предлагает варианты Base и Instruct для четырёх начальных моделей:
* Granite-4.0-H-Small: 32B всего, ~9B активных (гибридный MoE).
* Granite-4.0-H-Tiny: 7B всего, ~1B активных (гибридный MoE).
* Granite-4.0-H-Micro: 3B (гибридный плотный).
* Granite-4.0-Micro: 3B (плотный Transformer для стеков, которые ещё не поддерживают гибриды).

Все модели лицензированы по Apache-2.0 и имеют криптографическую подпись. IBM заявляет, что Granite — это первое семейство открытых моделей с аккредитованным покрытием ISO/IEC 42001 для своей системы управления ИИ (AIMS). Варианты, оптимизированные для рассуждений («Thinking»), запланированы на конец 2025 года.

Обучение, контекст и dtype

Granite 4.0 был обучен на выборках объёмом до 512K токенов и оценён до 128K токенов. Публичные контрольные точки на Hugging Face представлены в формате BF16 (количественные и преобразования GGUF также опубликованы), а FP8 является вариантом выполнения на поддерживаемом оборудовании — это не формат выпущенных весов.

Сигналы производительности (актуальные для предприятий)

IBM подчёркивает следующие тесты:
* IFEval (HELM): Granite-4.0-H-Small лидирует среди большинства моделей с открытым весом (уступая только Llama 4 Maverick в гораздо большем масштабе).
* BFCLv3 (вызов функций): H-Small конкурентоспособен с более крупными открытыми/закрытыми моделями при более низких ценах.
* MTRAG (многоступенчатый RAG): улучшена надёжность сложных рабочих процессов поиска.

Как получить доступ?

Granite 4.0 доступен на IBM watsonx.ai и распространяется через Dell Pro AI Studio/Enterprise Hub, Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE, Replicate. IBM отмечает, что в настоящее время ведётся работа по обеспечению совместимости с vLLM, llama.cpp, NexaML и MLX для гибридного обслуживания.

Мысли и комментарии

Я вижу в гибридном стеке Mamba-2/Transformer и MoE с активными параметрами практический путь к снижению совокупной стоимости владения: сокращение памяти более чем на 70% и увеличение пропускной способности для длинных контекстов напрямую приводят к уменьшению количества GPU без ущерба для точности следования инструкциям или использования инструментов (IFEval, BFCLv3, MTRAG). Контрольные точки BF16 с преобразованиями GGUF упрощают локальные конвейеры оценки, а ISO/IEC 42001 и подписанные артефакты устраняют пробелы в происхождении и соответствии, которые обычно препятствуют внедрению на предприятиях.

Чистый результат: компактное, поддающееся аудиту семейство базовых моделей (1B–9B активных), которое проще внедрить в производство, чем предыдущие трансформаторы класса 8B.

Ознакомьтесь с карточкой модели Hugging Face и техническими деталями. Не стесняйтесь проверять нашу страницу GitHub для руководств, кодов и ноутбуков. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.

1. Какие преимущества Granite 4.0 предлагает по сравнению с предыдущими моделями?

В Granite 4.0 внедрён гибридный дизайн, который перемежает небольшую часть блоков самовнимания с большинством слоёв состояния Mamba-2 (соотношение 9:1). По сравнению с обычными трансформерами LLM, Granite 4.0-H может сократить объём оперативной памяти более чем на 70% для длинных контекстов и многосеансового вывода, что приводит к снижению затрат на GPU при заданных целях по пропускной способности и задержкам.

2. Какие варианты моделей Granite 4.0 предлагает IBM?

IBM предлагает варианты Base и Instruct для четырёх начальных моделей:
* Granite-4.0-H-Small: 32B всего, ~9B активных (гибридный MoE).
* Granite-4.0-H-Tiny: 7B всего, ~1B активных (гибридный MoE).
* Granite-4.0-H-Micro: 3B (гибридный плотный).
* Granite-4.0-Micro: 3B (плотный Transformer для стеков, которые ещё не поддерживают гибриды).

3. Какие тесты производительности IBM подчёркивает для Granite 4.0?

IBM подчёркивает следующие тесты:
* IFEval (HELM): Granite-4.0-H-Small лидирует среди большинства моделей с открытым весом (уступая только Llama 4 Maverick в гораздо большем масштабе).
* BFCLv3 (вызов функций): H-Small конкурентоспособен с более крупными открытыми/закрытыми моделями при более низких ценах.
* MTRAG (многоступенчатый RAG): улучшена надёжность сложных рабочих процессов поиска.

4. Где можно получить доступ к Granite 4.0?

Granite 4.0 доступен на IBM watsonx.ai и распространяется через Dell Pro AI Studio/Enterprise Hub, Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE, Replicate.

5. Какие практические преимущества предлагает гибридный стек Mamba-2/Transformer и MoE с активными параметрами?

IBM видит в гибридном стеке Mamba-2/Transformer и MoE с активными параметрами практический путь к снижению совокупной стоимости владения: сокращение памяти более чем на 70% и увеличение пропускной способности для длинных контекстов напрямую приводят к уменьшению количества GPU без ущерба для точности следования инструкциям или использования инструментов (IFEval, BFCLv3, MTRAG).

Источник