Alibaba представляет модель Qwen3-Max-Thinking для рассуждений с масштабированием времени тестирования и использованием встроенных инструментов

Qwen3-Max-Thinking — это новая флагманская модель рассуждений от Alibaba. Она не только масштабирует параметры, но и изменяет подход к проведению логических выводов, обеспечивая явный контроль над глубиной мышления и встроенные инструменты для поиска, памяти и выполнения кода.

Основные характеристики модели

Qwen3-Max-Thinking — это модель с триллионом параметров, предварительно обученная на 36 триллионах токенов и входящая в семейство Qwen3 в качестве флагманской модели для рассуждений. Она нацелена на долгосрочные рассуждения и работу с кодом, а не только на случайные беседы.

Модель работает с контекстным окном в 260 тысяч токенов, что поддерживает анализ кода масштаба репозитория, длинных технических отчётов и нескольких документов в рамках одной подсказки.

Qwen3-Max-Thinking — это закрытая модель, обслуживаемая через Qwen-Chat и Alibaba Cloud Model Studio с помощью HTTP API, совместимого с OpenAI.

Масштабирование времени тестирования и накопление опыта

Большинство крупных языковых моделей улучшают рассуждения путём простого масштабирования времени тестирования, например, путём отбора лучших из N сэмплов с несколькими параллельными цепочками рассуждений. Такой подход повышает качество, но стоимость растёт почти линейно с увеличением количества сэмплов.

Qwen3-Max-Thinking вводит стратегию масштабирования времени тестирования с накоплением опыта. Вместо того чтобы просто увеличивать количество сэмплов параллельно, модель выполняет итерации в рамках одного разговора, повторно используя промежуточные следы рассуждений в качестве структурированного опыта.

После каждого раунда модель извлекает полезные частичные выводы, а затем фокусирует последующие вычисления на нерешённых частях вопроса. Этот процесс контролируется явным бюджетом мышления, который разработчики могут настроить с помощью параметров API, таких как enable_thinking и дополнительных полей конфигурации.

Сообщается, что точность повышается без пропорционального увеличения количества токенов. Например, собственные абляции Qwen показывают, что GPQA Diamond увеличивается примерно с 90% точности до 92,8%, а LiveCodeBench v6 — с 88% до 91,4% при использовании стратегии накопления опыта при аналогичных бюджетах токенов.

Встроенный агентский стек с адаптивным использованием инструментов

Qwen3-Max-Thinking интегрирует три инструмента в качестве основных возможностей: поиск, память и интерпретатор кода. Поиск подключается к веб-извлечению, поэтому модель может получать свежие страницы, извлекать контент и обосновывать свои ответы. Память хранит состояние пользователя или сеанса, что поддерживает персонализированные рассуждения в более длительных рабочих процессах.

Интерпретатор кода выполняет Python, что позволяет выполнять числовую проверку, преобразования данных и синтез программ с проверкой во время выполнения.

Модель использует адаптивное использование инструментов, чтобы решить, когда вызывать эти инструменты во время разговора. Вызовы инструментов чередуются с внутренними сегментами мышления, а не организуются внешним агентом.

Бенчмарк по знаниям, рассуждениям и поиску

В 19 общедоступных бенчмарках Qwen3-Max-Thinking находится на одном уровне или рядом с такими моделями, как GPT 5.2 Thinking, Claude Opus 4.5 и Gemini 3 Pro.

Для задач, связанных со знаниями, заявленные результаты включают 85,7% в MMLU-Pro, 92,8% в MMLU-Redux и 93,7% в C-Eval, где Qwen лидирует в группе по оценке китайского языка.

Для сложных рассуждений модель фиксирует 87,4% в GPQA, 98% в HMMT Feb 25, 94,7% в HMMT Nov 25 и 83,9% в IMOAnswerBench, что ставит её в верхний ярус среди текущих математических и научных моделей.

В области кодирования и разработки программного обеспечения модель достигает 85,9% в LiveCodeBench v6 и 75,3% в SWE Verified.

Ключевые выводы

Qwen3-Max-Thinking — это закрытая модель для рассуждений с API, разработанная Alibaba на основе более чем триллиона параметров, обученная на 36 триллионах токенов с контекстным окном в 262 144 токена.

Модель вводит масштабирование времени тестирования с накоплением опыта, где она повторно использует промежуточные рассуждения в нескольких раундах, улучшая такие показатели, как GPQA Diamond и LiveCodeBench v6 при аналогичных бюджетах токенов.

Qwen3-Max-Thinking интегрирует поиск, память и интерпретатор кода в качестве встроенных инструментов и использует адаптивное использование инструментов, чтобы модель сама решала, когда просматривать, вспоминать состояние или выполнять Python во время разговора.

На публичных бенчмарках модель демонстрирует конкурентоспособные результаты с GPT 5.2 Thinking, Claude Opus 4.5 и Gemini 3 Pro, включая высокие результаты в MMLU Pro, GPQA, HMMT, IMOAnswerBench, LiveCodeBench v6, SWE Bench Verified и Tau² Bench.

1. Какие уникальные особенности модели Qwen3-Max-Thinking выделяют её среди других языковых моделей?

Ответ: Qwen3-Max-Thinking отличается от других языковых моделей благодаря своей способности масштабировать параметры и изменять подход к проведению логических выводов. Она обеспечивает явный контроль над глубиной мышления и включает встроенные инструменты для поиска, памяти и выполнения кода. Кроме того, модель использует стратегию масштабирования времени тестирования с накоплением опыта, что позволяет ей улучшать рассуждения без пропорционального увеличения количества токенов.

2. Какие инструменты интегрированы в модель Qwen3-Max-Thinking и как они способствуют её функциональности?

Ответ: В модель Qwen3-Max-Thinking интегрированы три инструмента: поиск, память и интерпретатор кода. Поиск подключается к веб-извлечению, позволяя модели получать свежие страницы и извлекать контент. Память хранит состояние пользователя или сеанса, поддерживая персонализированные рассуждения. Интерпретатор кода выполняет Python, что позволяет выполнять числовую проверку, преобразования данных и синтез программ.

3. Как стратегия масштабирования времени тестирования с накоплением опыта влияет на эффективность Qwen3-Max-Thinking?

Ответ: Стратегия масштабирования времени тестирования с накоплением опыта позволяет модели Qwen3-Max-Thinking улучшать рассуждения без пропорционального увеличения количества токенов. Модель выполняет итерации в рамках одного разговора, повторно используя промежуточные следы рассуждений в качестве структурированного опыта. Это позволяет повысить точность без значительного увеличения затрат.

4. Какие результаты демонстрирует Qwen3-Max-Thinking на общедоступных бенчмарках по сравнению с другими моделями?

Ответ: На общедоступных бенчмарках Qwen3-Max-Thinking демонстрирует конкурентоспособные результаты с такими моделями, как GPT 5.2 Thinking, Claude Opus 4.5 и Gemini 3 Pro. В задачах, связанных со знаниями, модель достигает высоких результатов в MMLU-Pro, MMLU-Redux и C-Eval. Для сложных рассуждений модель фиксирует высокие проценты в GPQA, HMMT Feb 25, HMMT Nov 25 и IMOAnswerBench. В области кодирования и разработки программного обеспечения модель достигает высоких результатов в LiveCodeBench v6 и SWE Verified.

5. Какие параметры API можно использовать для настройки Qwen3-Max-Thinking и как они влияют на работу модели?

Ответ: Для настройки Qwen3-Max-Thinking можно использовать параметры API, такие как enable_thinking и дополнительные поля конфигурации. Эти параметры позволяют разработчикам контролировать явный бюджет мышления, что влияет на процесс рассуждений модели. Настройка этих параметров позволяет оптимизировать работу модели в зависимости от конкретных задач и требований.

Источник