Alibaba представила модель Qwen3-Max — модель Mixture-of-Experts (MoE) с более чем триллионом параметров, которая позиционируется как самая мощная базовая модель на сегодняшний день. Модель доступна для широкой публики через Qwen Chat и Alibaba Cloud’s Model Studio API.
Что нового на уровне модели?
- Масштаб и архитектура: Qwen3-Max преодолевает отметку в 1 триллион параметров благодаря дизайну MoE (разрежённая активация на токен). Alibaba позиционирует модель как самую большую и мощную на сегодняшний день.
- Обучение и работа в режиме реального времени: Qwen3-Max использует разрежённый дизайн Mixture-of-Experts и был предварительно обучен на ~36 триллионах токенов (~2× Qwen2.5). Корпус смещён в сторону многоязычных данных, кодирования и данных STEM/reasoning.
- Доступ: Qwen Chat демонстрирует общий пользовательский интерфейс, а Model Studio предоставляет настройки логического вывода и переключения в «режим мышления».
Бенчмарки:
- Кодирование (SWE-Bench Verified): Qwen3-Max-Instruct имеет показатель 69,6 на SWE-Bench Verified. Это выше некоторых базовых показателей без мышления (например, DeepSeek V3.1 non-thinking) и немного ниже Claude Opus 4 non-thinking.
- Агентское использование инструментов (Tau2-Bench): Qwen3-Max имеет показатель 74,8 на Tau2-Bench — это оценка работы агента/инструмента, превосходящая показатели других участников отчёта.
- Математика и продвинутое рассуждение (AIME25 и др.): трек Qwen3-Max-Thinking (с использованием инструментов и «тяжёлой» конфигурацией во время выполнения) описывается как почти идеальный по ключевым математическим показателям (например, AIME25) в нескольких вторичных источниках и более ранних обзорах.
Почему два трека — Instruct vs. Thinking?
Instruct ориентирован на обычный чат/кодирование/рассуждение с минимальной задержкой, а Thinking обеспечивает более длительные размышления и явные вызовы инструментов (извлечение, выполнение кода, просмотр, оценка), что необходимо для более надёжных сценариев использования «агентов».
Как рассуждать о преимуществах (сигнал против шума)?
- Кодирование: диапазон оценок SWE-Bench Verified 60–70 обычно отражает нетривиальный уровень рассуждений на уровне репозитория и синтез патчей в условиях ограничений (например, настройка среды, нестабильные тесты).
- Агентское использование: Tau2-Bench подчёркивает планирование с использованием нескольких инструментов и выбор действий. Улучшения здесь обычно приводят к уменьшению количества хрупких вручную созданных политик в производственных агентах при условии надёжности API инструментов и песочниц выполнения.
- Математика/верификация: «Почти идеальные» математические показатели в тяжёлых режимах подчёркивают ценность расширенного обдумывания плюс инструменты (калькуляторы, валидаторы).
Резюме
Qwen3-Max — это не просто тизер, а модель MoE с параметрами более триллиона, доступная для производственного использования. Модель имеет задокументированную семантику режима мышления и воспроизводимые пути доступа (Qwen Chat, Model Studio).
Ознакомьтесь с техническими деталями, API и Qwen Chat. Не стесняйтесь посетить нашу страницу GitHub для учебных пособий, кодов и ноутбуков. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.
1. Какие ключевые особенности отличают модель Qwen3-Max от других моделей на рынке?
Ответ: Qwen3-Max отличается от других моделей на рынке своим масштабом и архитектурой. Она имеет более чем триллион параметров благодаря дизайну Mixture-of-Experts (MoE) с разрежённой активацией на токен. Модель была предварительно обучена на большом объёме данных, включая многоязычные данные, кодирование и данные STEM/reasoning.
2. Какие бенчмарки использовались для оценки производительности Qwen3-Max?
Ответ: для оценки производительности Qwen3-Max использовались следующие бенчмарки:
* Кодирование (SWE-Bench Verified), где модель показала показатель 69,6.
* Агентское использование инструментов (Tau2-Bench), где модель получила оценку 74,8.
* Математика и продвинутое рассуждение (AIME25 и другие), где трек Qwen3-Max-Thinking показал почти идеальные математические показатели.
3. В чём разница между треками Instruct и Thinking в модели Qwen3-Max?
Ответ: трек Instruct в модели Qwen3-Max ориентирован на обычный чат, кодирование и рассуждение с минимальной задержкой. Трек Thinking обеспечивает более длительные размышления и явные вызовы инструментов, таких как извлечение, выполнение кода, просмотр и оценка. Это необходимо для более надёжных сценариев использования «агентов».
4. Какие преимущества предоставляет использование Qwen3-Max в производственных сценариях?
Ответ: использование Qwen3-Max в производственных сценариях предоставляет следующие преимущества:
* Высокий уровень рассуждений на уровне репозитория и синтез патчей в условиях ограничений.
* Улучшенное планирование с использованием нескольких инструментов и выбор действий, что уменьшает количество хрупких вручную созданных политик в производственных агентах.
* Почти идеальные математические показатели в тяжёлых режимах, подчёркивающие ценность расширенного обдумывания плюс инструменты (калькуляторы, валидаторы).
5. Какие возможности предоставляет Alibaba для ознакомления с моделью Qwen3-Max?
Ответ: Alibaba предоставляет следующие возможности для ознакомления с моделью Qwen3-Max:
* Общий пользовательский интерфейс Qwen Chat.
* Model Studio для настройки логического вывода и переключения в «режим мышления».
* Доступ к техническим деталям, API и Qwen Chat.
* Учебные пособия, коды и ноутбуки на странице GitHub.