Alibaba выпустила Qwen3-Max: модель для производственного использования с параметрами более триллиона

Alibaba представила модель Qwen3-Max — модель Mixture-of-Experts (MoE) с более чем триллионом параметров, которая позиционируется как самая мощная базовая модель на сегодняшний день. Модель доступна для широкой публики через Qwen Chat и Alibaba Cloud’s Model Studio API.

Что нового на уровне модели?

  • Масштаб и архитектура: Qwen3-Max преодолевает отметку в 1 триллион параметров благодаря дизайну MoE (разрежённая активация на токен). Alibaba позиционирует модель как самую большую и мощную на сегодняшний день.

  • Обучение и работа в режиме реального времени: Qwen3-Max использует разрежённый дизайн Mixture-of-Experts и был предварительно обучен на ~36 триллионах токенов (~2× Qwen2.5). Корпус смещён в сторону многоязычных данных, кодирования и данных STEM/reasoning.

  • Доступ: Qwen Chat демонстрирует общий пользовательский интерфейс, а Model Studio предоставляет настройки логического вывода и переключения в «режим мышления».

Бенчмарки:

  • Кодирование (SWE-Bench Verified): Qwen3-Max-Instruct имеет показатель 69,6 на SWE-Bench Verified. Это выше некоторых базовых показателей без мышления (например, DeepSeek V3.1 non-thinking) и немного ниже Claude Opus 4 non-thinking.

  • Агентское использование инструментов (Tau2-Bench): Qwen3-Max имеет показатель 74,8 на Tau2-Bench — это оценка работы агента/инструмента, превосходящая показатели других участников отчёта.

  • Математика и продвинутое рассуждение (AIME25 и др.): трек Qwen3-Max-Thinking (с использованием инструментов и «тяжёлой» конфигурацией во время выполнения) описывается как почти идеальный по ключевым математическим показателям (например, AIME25) в нескольких вторичных источниках и более ранних обзорах.

Почему два трека — Instruct vs. Thinking?

Instruct ориентирован на обычный чат/кодирование/рассуждение с минимальной задержкой, а Thinking обеспечивает более длительные размышления и явные вызовы инструментов (извлечение, выполнение кода, просмотр, оценка), что необходимо для более надёжных сценариев использования «агентов».

Как рассуждать о преимуществах (сигнал против шума)?

  • Кодирование: диапазон оценок SWE-Bench Verified 60–70 обычно отражает нетривиальный уровень рассуждений на уровне репозитория и синтез патчей в условиях ограничений (например, настройка среды, нестабильные тесты).

  • Агентское использование: Tau2-Bench подчёркивает планирование с использованием нескольких инструментов и выбор действий. Улучшения здесь обычно приводят к уменьшению количества хрупких вручную созданных политик в производственных агентах при условии надёжности API инструментов и песочниц выполнения.

  • Математика/верификация: «Почти идеальные» математические показатели в тяжёлых режимах подчёркивают ценность расширенного обдумывания плюс инструменты (калькуляторы, валидаторы).

Резюме

Qwen3-Max — это не просто тизер, а модель MoE с параметрами более триллиона, доступная для производственного использования. Модель имеет задокументированную семантику режима мышления и воспроизводимые пути доступа (Qwen Chat, Model Studio).

Ознакомьтесь с техническими деталями, API и Qwen Chat. Не стесняйтесь посетить нашу страницу GitHub для учебных пособий, кодов и ноутбуков. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.

1. Какие ключевые особенности отличают модель Qwen3-Max от других моделей на рынке?

Ответ: Qwen3-Max отличается от других моделей на рынке своим масштабом и архитектурой. Она имеет более чем триллион параметров благодаря дизайну Mixture-of-Experts (MoE) с разрежённой активацией на токен. Модель была предварительно обучена на большом объёме данных, включая многоязычные данные, кодирование и данные STEM/reasoning.

2. Какие бенчмарки использовались для оценки производительности Qwen3-Max?

Ответ: для оценки производительности Qwen3-Max использовались следующие бенчмарки:
* Кодирование (SWE-Bench Verified), где модель показала показатель 69,6.
* Агентское использование инструментов (Tau2-Bench), где модель получила оценку 74,8.
* Математика и продвинутое рассуждение (AIME25 и другие), где трек Qwen3-Max-Thinking показал почти идеальные математические показатели.

3. В чём разница между треками Instruct и Thinking в модели Qwen3-Max?

Ответ: трек Instruct в модели Qwen3-Max ориентирован на обычный чат, кодирование и рассуждение с минимальной задержкой. Трек Thinking обеспечивает более длительные размышления и явные вызовы инструментов, таких как извлечение, выполнение кода, просмотр и оценка. Это необходимо для более надёжных сценариев использования «агентов».

4. Какие преимущества предоставляет использование Qwen3-Max в производственных сценариях?

Ответ: использование Qwen3-Max в производственных сценариях предоставляет следующие преимущества:
* Высокий уровень рассуждений на уровне репозитория и синтез патчей в условиях ограничений.
* Улучшенное планирование с использованием нескольких инструментов и выбор действий, что уменьшает количество хрупких вручную созданных политик в производственных агентах.
* Почти идеальные математические показатели в тяжёлых режимах, подчёркивающие ценность расширенного обдумывания плюс инструменты (калькуляторы, валидаторы).

5. Какие возможности предоставляет Alibaba для ознакомления с моделью Qwen3-Max?

Ответ: Alibaba предоставляет следующие возможности для ознакомления с моделью Qwen3-Max:
* Общий пользовательский интерфейс Qwen Chat.
* Model Studio для настройки логического вывода и переключения в «режим мышления».
* Доступ к техническим деталям, API и Qwen Chat.
* Учебные пособия, коды и ноутбуки на странице GitHub.

Источник