Zhipu AI только что выпустила серию GLM-4.5: переосмысление агентского ИИ с открытым исходным кодом на основе гибридного мышления

Сфера фундаментных моделей искусственного интеллекта (ИИ) быстро развивается, но в 2025 году появление серии Z.ai GLM-4.5 стало одним из наиболее значимых событий. Модели GLM-4.5 и их облегчённая версия GLM-4.5-Air установили новые стандарты для унифицированных агентских возможностей и открытого доступа.

Архитектура и параметры моделей

| Модель | Общие параметры | Активные параметры | Примечательность |
| — | — | — | — |
| GLM-4.5 | 355B | 32B | Среди крупнейших открытых весов, высокие показатели в бенчмарках |
| GLM-4.5-Air | 106B | 12B | Компактная, эффективная, нацелена на совместимость с массовым оборудованием |

GLM-4.5 построена на архитектуре Mixture of Experts (MoE) и имеет в общей сложности 355 миллиардов параметров (32 миллиарда активных одновременно). Эта модель создана для передовой производительности, ориентированной на востребованные рассуждения и агентские приложения.

GLM-4.5-Air, с 106 миллиардами общих и 12 миллиардами активных параметров, обеспечивает аналогичные возможности со значительно сниженным объёмом аппаратных и вычислительных ресурсов.

Гибридное мышление: два режима в одной системе

Обе модели представляют гибридный подход к мышлению:

* Режим мышления: позволяет выполнять сложные пошаговые рассуждения, использовать инструменты, планировать на несколько шагов вперёд и выполнять задачи автономных агентов.
* Режим без мышления: оптимизирован для мгновенных ответов без состояния, что делает модели универсальными для диалоговых и быстрореагирующих сценариев использования.

Эта двухрежимная конструкция адресует как сложные когнитивные рабочие процессы, так и потребности в интерактивности с низкой задержкой в рамках одной модели, расширяя возможности ИИ-агентов следующего поколения.

Бенчмарк производительности

Z.ai провела тестирование GLM-4.5 по 12 отраслевым стандартам (включая MMLU, GSM8K, HumanEval):

* GLM-4.5: средний балл по бенчмарку — 63,2, занял третье место в общем зачёте (второе место в мире, первое среди всех моделей с открытым исходным кодом).
* GLM-4.5-Air: показал результат 59,8, став лидером среди моделей с ~100 миллиардами параметров.

Превосходит заметных конкурентов в определённых областях: успешность вызова инструментов — 90,6%, опережая Claude 3.5 Sonnet и Kimi K2. Особенно сильные результаты в задачах на китайском языке и в кодировании, с последовательными результатами SOTA в открытых бенчмарках.

Агентские возможности и архитектура

GLM-4.5 продвигает «агентский» дизайн: основные агентские функции (рассуждение, планирование, выполнение действий) встроены непосредственно в архитектуру модели. Это означает:

* Многошаговую декомпозицию задач и планирование.
* Использование инструментов и интеграцию с внешними API.
* Сложную визуализацию данных и управление рабочими процессами.
* Нативную поддержку циклов рассуждения и восприятия-действия.

Эти возможности позволяют реализовывать агентские приложения «от начала до конца», ранее доступные только в небольших, жёстко закодированных фреймворках или закрытых API.

Эффективность, скорость и стоимость

* Спекулятивное декодирование и многомаркерное предсказание (MTP): с такими функциями, как MTP, GLM-4.5 достигает в 2,5–8 раз более высокой скорости вывода, чем предыдущие модели, со скоростью генерации >100 токенов/сек на высокоскоростном API и до 200 токенов/сек на практике.
* Память и оборудование: GLM-4.5-Air с 12 миллиардами активных параметров совместим с потребительскими графическими процессорами (32–64 ГБ VRAM) и может быть квантован для работы на более широком оборудовании. Это позволяет высокопроизводительным LLM работать локально для продвинутых пользователей.
* Ценообразование: API-вызовы начинаются всего от 0,11 доллара за миллион входных токенов и 0,28 доллара за миллион выходных токенов — ведущие в отрасли цены за предлагаемый масштаб и качество.

Открытый исходный код и экосистема

Ключевым элементом серии GLM-4.5 является лицензия MIT с открытым исходным кодом: базовые модели, гибридные (думающие/недумающие) модели и версии FP8 выпускаются для неограниченного коммерческого использования и вторичной разработки. Код, парсеры инструментов и механизмы рассуждений интегрированы в основные фреймворки LLM, включая transformers, vLLM и SGLang, с подробными репозиториями, доступными на GitHub и Hugging Face.

Модели можно использовать через основные механизмы вывода, с полной поддержкой тонкой настройки и развёртывания на местах. Такой уровень открытости и гибкости резко контрастирует со всё более закрытой позицией западных конкурентов.

Ключевые технические инновации

* Многомаркерный слой прогнозирования (MTP) для спекулятивного декодирования, значительно повышающий скорость вывода на процессорах и графических процессорах.
* Унифицированная архитектура для рассуждений, кодирования и мультимодальных рабочих процессов восприятия-действия.
* Обучение на 15 триллионах токенов, с поддержкой до 128 тысяч входных и 96 тысяч выходных контекстных окон.
* Немедленная совместимость с исследовательскими и производственными инструментами, включая инструкции по настройке и адаптации моделей для новых вариантов использования.

В заключение, GLM-4.5 и GLM-4.5-Air представляют собой значительный скачок вперёд для фундаментных моделей с открытым исходным кодом, агентских и ориентированных на рассуждения. Они устанавливают новые стандарты доступности, производительности и унифицированных когнитивных возможностей, обеспечивая надёжную основу для следующего поколения интеллектуальных агентов и приложений для разработчиков.

1. Какие ключевые технические инновации были представлены в серии моделей GLM-4.5?

В серии моделей GLM-4.5 были представлены следующие ключевые технические инновации:
* Многомаркерный слой прогнозирования (MTP) для спекулятивного декодирования, значительно повышающий скорость вывода на процессорах и графических процессорах.
* Унифицированная архитектура для рассуждений, кодирования и мультимодальных рабочих процессов восприятия-действия.
* Обучение на 15 триллионах токенов, с поддержкой до 128 тысяч входных и 96 тысяч выходных контекстных окон.
* Немедленная совместимость с исследовательскими и производственными инструментами, включая инструкции по настройке и адаптации моделей для новых вариантов использования.

2. Какие преимущества предоставляет модель GLM-4.5-Air по сравнению с GLM-4.5?

Модель GLM-4.5-Air имеет следующие преимущества по сравнению с GLM-4.5:
* Компактность и эффективность, нацеленность на совместимость с массовым оборудованием.
* Аналогичные возможности со значительно сниженным объёмом аппаратных и вычислительных ресурсов.

3. Какие результаты показали модели GLM-4.5 и GLM-4.5-Air в бенчмарках?

4. Какие возможности предоставляют модели GLM-4.5 и GLM-4.5-Air для агентских приложений?

Модели GLM-4.5 и GLM-4.5-Air предоставляют следующие возможности для агентских приложений:
* Многошаговую декомпозицию задач и планирование.
* Использование инструментов и интеграцию с внешними API.
* Сложную визуализацию данных и управление рабочими процессами.
* Нативную поддержку циклов рассуждения и восприятия-действия.

5. Какие факторы делают серию GLM-4.5 привлекательной для разработчиков и исследователей?

Серию GLM-4.5 делают привлекательной для разработчиков и исследователей следующие факторы:
* Лицензия MIT с открытым исходным кодом, позволяющая неограниченно использовать модели для коммерческих целей и вторичной разработки.
* Интеграция кода, парсеров инструментов и механизмов рассуждений в основные фреймворки LLM, включая transformers, vLLM и SGLang.
* Возможность использования моделей через основные механизмы вывода, с полной поддержкой тонкой настройки и развёртывания на местах.

Источник