Команда Alibaba Qwen выпустила сборки FP8 для Qwen3-Next-80B-A3B (Instruct & Thinking)

Команда Alibaba Qwen выпустила сборки FP8 для своих новых моделей Qwen3-Next-80B-A3B в двух вариантах после обучения — Instruct и Thinking. Они предназначены для высокопроизводительного логического вывода с ультрадлинным контекстом и эффективностью MoE.

Что в стеке A3B?

Qwen3-Next-80B-A3B — это гибридная архитектура, сочетающая Gated DeltaNet (заменитель внимания в стиле linear/conv) с Gated Attention, перемежающаяся ультраразреженной смесью экспертов (MoE). Общий бюджет параметров составляет 80 миллиардов, активируется примерно 3 миллиарда параметров на токен через 512 экспертов (10 маршрутизируемых + 1 общий).

FP8-релизы: что изменилось?

FP8-модели отличаются «мелкозернистой» FP8-квантизацией с размером блока 128. Развёртывание немного отличается от BF16: для sglang и vLLM требуются текущие основные/ночные сборки, с примерами команд, предоставленными для контекста 256K и необязательного MTP.

Тестирование

В инструкционных картах FP8 воспроизводится сравнительная таблица Qwen BF16, ставя Qwen3-Next-80B-A3B-Instruct наравне с Qwen3-235B-A22B-Instruct-2507 по нескольким тестам на знания/рассуждения/кодирование и опережая их в рабочих нагрузках с длинным контекстом (до 256K).

Модель Qwen3-Next-80B-A3B-Thinking превосходит более ранние выпуски Qwen3 Thinking (30B A3B-2507, 32B) и заявляет о победе над Gemini-2.5-Flash-Thinking в нескольких тестах.

Сигналы обучения и пост-обучения

Серия обучена на ~15 триллионах токенов перед пост-обучением. Qwen подчёркивает стабильность дополнений (нулевое центрирование, весовая норма затухания и т. д.) и использует GSPO в RL пост-обучении для модели Thinking, чтобы справиться с комбинацией гибридного внимания и высокоразреженного MoE.

Почему важен FP8?

На современных ускорителях активации/веса FP8 снижают нагрузку на пропускную способность памяти и занимаемую память по сравнению с BF16, позволяя использовать большие размеры пакетов или более длинные последовательности при аналогичной задержке.

Итог

Выпуски Qwen FP8 делают стек 80B/3B-active A3B практичным для использования в контексте 256K на основных движках, сохраняя гибридную конструкцию MoE и путь MTP для обеспечения высокой пропускной способности.

Модели Qwen3-Next-80B-A3B в двух вариантах после обучения — Instruct и Thinking — ждут вас. Ознакомиться с учебными материалами, кодами и ноутбуками можно на нашей странице GitHub. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.

1. Какие преимущества у моделей Qwen3-Next-80B-A3B в сравнении с предыдущими версиями?

Модели Qwen3-Next-80B-A3B превосходят более ранние версии в тестах на знания, рассуждения и кодирование, особенно в задачах с длинным контекстом (до 256K). Модель Qwen3-Next-80B-A3B-Thinking также демонстрирует лучшие результаты по сравнению с Gemini-2.5-Flash-Thinking в некоторых тестах.

2. Какие технологии используются в архитектуре Qwen3-Next-80B-A3B?

Qwen3-Next-80B-A3B использует гибридную архитектуру, сочетающую Gated DeltaNet (заменитель внимания в стиле linear/conv) с Gated Attention, перемежающуюся ультраразреженной смесью экспертов (MoE).

3. Почему использование FP8 важно для моделей Alibaba Qwen?

На современных ускорителях активации/веса FP8 снижают нагрузку на пропускную способность памяти и занимаемую память по сравнению с BF16. Это позволяет использовать большие размеры пакетов или более длинные последовательности при аналогичной задержке.

4. Какие результаты показали модели Qwen3-Next-80B-A3B в тестировании?

В инструкционных картах FP8 воспроизводится сравнительная таблица Qwen BF16, ставя Qwen3-Next-80B-A3B-Instruct наравне с Qwen3-235B-A22B-Instruct-2507 по нескольким тестам на знания/рассуждения/кодирование и опережая их в рабочих нагрузках с длинным контекстом (до 256K). Модель Qwen3-Next-80B-A3B-Thinking превосходит более ранние выпуски Qwen3 Thinking и заявляет о победе над Gemini-2.5-Flash-Thinking в нескольких тестах.

5. Какие методы обучения использовались для серии Qwen?

Серия обучена на ~15 триллионах токенов перед пост-обучением. Qwen подчёркивает стабильность дополнений (нулевое центрирование, весовая норма затухания и т. д.) и использует GSPO в RL пост-обучении для модели Thinking, чтобы справиться с комбинацией гибридного внимания и высокоразреженного MoE.

Источник