GLM-4.7-Flash — новый участник семейства GLM 4.7, ориентированный на разработчиков, которым нужна высокая производительность в кодировании и рассуждениях в модели, которую удобно запускать локально. Zhipu AI (Z.ai) описывает GLM-4.7-Flash как модель MoE на 30B-A3B и представляет её как сильнейшую модель в своём классе, предназначенную для лёгкого развёртывания, где важны производительность и эффективность.
Класс модели и позиция в семействе GLM 4.7
GLM-4.7-Flash — это модель для генерации текста с 31 миллиардом параметров, типами тензоров BF16 и F32 и тегом архитектуры glm4moelite. Она поддерживает английский и китайский языки и настроена для использования в диалогах. GLM-4.7-Flash входит в коллекцию GLM-4.7 рядом с более крупными моделями GLM-4.7 и GLM-4.7-FP8.
Z.ai позиционирует GLM-4.7-Flash как вариант бесплатного и лёгкого развёртывания по сравнению с полной моделью GLM-4.7, при этом ориентируясь на задачи кодирования, рассуждений и общего создания текста. Это делает её интересной для разработчиков, которые не могут развернуть модель класса 358B, но всё же хотят современный дизайн MoE и высокие результаты тестов.
Архитектура и длина контекста
В архитектуре Mixture of Experts такого типа модель хранит больше параметров, чем активирует для каждого токена. Это позволяет специализировать экспертов, сохраняя при этом эффективную вычислительную мощность на токен, близкую к меньшей плотной модели.
GLM 4.7 Flash поддерживает длину контекста в 128 тысяч токенов и демонстрирует высокие результаты в тестах кодирования среди моделей аналогичного масштаба. Такой размер контекста подходит для больших кодовых баз, многофайловых репозиториев и длинных технических документов, где многим существующим моделям потребуется агрессивное разбиение на части.
GLM-4.7-Flash использует стандартный интерфейс причинно-следственного языкового моделирования и шаблон чата, что позволяет интегрировать его в существующие стеки LLM с минимальными изменениями.
Производительность в классе 30B
Команда Z.ai сравнивает GLM-4.7-Flash с Qwen3-30B-A3B-Thinking-2507 и GPT-OSS-20B. GLM-4.7-Flash лидирует или конкурирует в различных тестах по математике, рассуждениям, долгосрочному планированию и кодированию агентов.
Параметры оценки и режим мышления
Для большинства задач настройки по умолчанию следующие: температура 1,0, top p 0,95 и максимальное количество новых токенов 131 072. Это определяет относительно открытый режим выборки с большим бюджетом генерации.
Для Terminal Bench и SWE-bench Verified конфигурация использует температуру 0,7, top p 1,0 и максимальное количество новых токенов 16 384. Для τ²-Bench конфигурация использует температуру 0 и максимальное количество новых токенов 16 384. Эти более строгие настройки уменьшают случайность для задач, требующих стабильного использования инструментов и многошагового взаимодействия.
Команда Z.ai также рекомендует включать режим Preserved Thinking для многоэтапных задач с агентами, таких как τ²-Bench и Terminal Bench 2. Этот режим сохраняет внутренние следы рассуждений между ходами, что полезно при создании агентов, которым нужны длинные цепочки вызовов функций и исправлений.
Как GLM-4.7-Flash вписывается в рабочие процессы разработчиков
GLM-4.7-Flash сочетает в себе несколько свойств, актуальных для приложений, ориентированных на агентов и кодирование:
* Архитектура MoE на 30B-A3B с 31 миллиардом параметров и длиной контекста в 128 тысяч токенов.
* Высокие результаты тестов на AIME 25, GPQA, SWE-bench Verified, τ²-Bench и BrowseComp по сравнению с другими моделями в той же таблице.
* Документированные параметры оценки и режим Preserved Thinking для многоэтапных задач с агентами.
* Первоклассная поддержка vLLM, SGLang и Transformers на основе логического вывода с готовыми к использованию командами.
* Растущий набор настроек и квантования, включая преобразования MLX, в экосистеме Hugging Face.
1. Какие особенности архитектуры GLM-4.7-Flash делают её подходящей для локального использования?
Ответ: GLM-4.7-Flash имеет архитектуру MoE (Mixture of Experts), которая позволяет хранить больше параметров, чем активируется для каждого токена. Это обеспечивает специализацию экспертов и сохранение эффективной вычислительной мощности на токен, близкой к меньшей плотной модели. Кроме того, модель поддерживает английский и китайский языки и настроена для использования в диалогах, что делает её удобной для локального развёртывания.
2. Какие задачи может решать GLM-4.7-Flash и почему она может быть интересна разработчикам?
Ответ: GLM-4.7-Flash предназначена для решения задач кодирования, рассуждений и общего создания текста. Она может быть интересна разработчикам, которые не могут развернуть модель класса 358B, но всё же хотят современный дизайн MoE и высокие результаты тестов. Модель поддерживает длину контекста в 128 тысяч токенов, что подходит для больших кодовых баз, многофайловых репозиториев и длинных технических документов.
3. Как GLM-4.7-Flash сравнивается с другими моделями в своём классе?
Ответ: Команда Z.ai сравнивает GLM-4.7-Flash с Qwen3-30B-A3B-Thinking-2507 и GPT-OSS-20B. GLM-4.7-Flash лидирует или конкурирует в различных тестах по математике, рассуждениям, долгосрочному планированию и кодированию агентов. Это подтверждает её высокую производительность в классе 30B.
4. Какие параметры оценки используются для настройки GLM-4.7-Flash и как они влияют на её работу?
Ответ: Для большинства задач настройки по умолчанию следующие: температура 1,0, top p 0,95 и максимальное количество новых токенов 131 072. Это определяет относительно открытый режим выборки с большим бюджетом генерации. Для разных задач используются разные настройки, например, для Terminal Bench и SWE-bench Verified конфигурация использует температуру 0,7, top p 1,0 и максимальное количество новых токенов 16 384. Эти более строгие настройки уменьшают случайность для задач, требующих стабильного использования инструментов и многошагового взаимодействия.
5. Какие дополнительные возможности предоставляет GLM-4.7-Flash для разработчиков?
Ответ: GLM-4.7-Flash сочетает в себе несколько свойств, актуальных для приложений, ориентированных на агентов и кодирование. Она поддерживает первоклассную поддержку vLLM, SGLang и Transformers на основе логического вывода с готовыми к использованию командами. Кроме того, в экосистеме Hugging Face доступен растущий набор настроек и квантования, включая преобразования MLX.