GLM 4 от Университета Цинхуа: как модель среднего размера конкурирует с гигантами языковых моделей

В быстро меняющемся мире больших языковых моделей (LLM) исследователи и организации сталкиваются с серьёзными вызовами. Среди них — улучшение способностей к рассуждению, обеспечение надёжной многоязычной поддержки и эффективное управление сложными задачами с открытыми концами. Хотя меньшие модели часто более доступны и экономически эффективны, они обычно уступают по производительности своим более крупным аналогам. Поэтому всё больше внимания уделяется разработке моделей среднего размера, которые эффективно сочетают вычислительную эффективность с сильными способностями к рассуждению и выполнению инструкций.

Недавний релиз GLM 4 от Университета Цинхуа, в частности, вариант GLM-Z1-32B-0414, эффективно решает эти задачи. Модель обучена на обширном наборе данных, состоящем из 15 триллионов токенов, и предназначена для обеспечения надёжной многоязычной поддержки. Она включает инновационные стратегии рассуждения, называемые «режимом мышления». Этот релиз ставит GLM 4 в один ряд с другими известными моделями, такими как DeepSeek Distill, QwQ и O1-mini, и распространяется под уважаемой лицензией MIT. Примечательно, что, несмотря на относительно умеренный размер параметров в 32 миллиарда, GLM 4 демонстрирует производительность, сравнимую с гораздо более крупными моделями, такими как GPT-4o и DeepSeek-V3, особенно в бенчмарках, ориентированных на рассуждения.

На техническом уровне GLM-Z1-32B-0414 использует обширные высококачественные обучающие данные, включая синтетически сгенерированные задачи на рассуждение, для усиления аналитических способностей. Модель интегрирует сложные методы, такие как отбор с отклонением и обучение с подкреплением (RL), для улучшения производительности в задачах, основанных на агентах, программировании, вызове функций и поиске ответов на вопросы. Кроме того, её вариация «Deep Reasoning Model» дополнительно совершенствует это, используя методы холодного старта в сочетании с расширенным обучением RL, нацеленным на сложные математические, логические и кодовые задачи. В процессе обучения используются механизмы попарного ранжирования обратной связи для повышения общей эффективности рассуждений модели.

Продвинутый вариант GLM-Z1-Rumination-32B-0414 предлагает новый подход, названный «руминацией», который позволяет длительное рефлексивное рассуждение для решения открытых и сложных запросов, таких как сравнительный анализ городских территорий с помощью ИИ. Этот вариант объединяет передовые инструменты поиска с многоцелевым обучением с подкреплением, значительно повышая свою полезность в задачах, требующих интенсивных исследований, и сложных сценариях, основанных на поиске. Дополняя эти крупные модели, версия GLM-Z1-9B-0414 с 9 миллиардами параметров обеспечивает сильные математические и общие способности к рассуждению, демонстрируя практичность моделей меньшего масштаба.

Данные о производительности из оценочных тестов подчёркивают сильные стороны серии GLM 4. В частности, GLM-4-32B-0414 показывает надёжные результаты по сравнению с GPT-4o, DeepSeek-V3 и Qwen2.5-Max в нескольких бенчмарках. В бенчмарке следования инструкциям IFEval GLM 4 набирает впечатляющие 87,6 балла. В тестах автоматизации задач, таких как TAU-Bench, GLM 4 достигает высоких результатов в сценариях розничной торговли (68,7) и авиаперевозок (51,2). Для задач поиска ответов на вопросы, оценённых SimpleQA, модель фиксирует высокий балл — 88,1. Кроме того, GLM 4 вплотную приближается к производительности GPT-4o в задачах вызова функций, оценённых бенчмарком BFCL-v3, набирая общий балл 69,6. В практических сценариях исправления кода, протестированных через SWE-bench с фреймворком Moatless, GLM 4 достигает уровня успеха в 33,8%, что подчёркивает её практическую ценность.

Таким образом, GLM 4 представляет собой эффективное семейство языковых моделей, успешно устраняющее разрыв в производительности между более мелкими и доступными моделями и традиционно превосходящими их крупными аналогами. Серия GLM-Z1, особенно вариант 32B, иллюстрирует этот сбалансированный подход, обеспечивая мощные способности к рассуждению при сохранении вычислительной доступности. Благодаря дополнительному преимуществу в виде разрешительной лицензии MIT, GLM 4 позиционируется как надёжный инструмент для научных и корпоративных приложений, требующих высокопроизводительных решений на основе ИИ без обширных вычислительных затрат, традиционно связанных с крупными моделями.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *