Команда Alibaba Qwen выпустила сборки FP8 для своих новых моделей Qwen3-Next-80B-A3B в двух вариантах после обучения — Instruct и Thinking. Они предназначены для высокопроизводительного логического вывода с ультрадлинным контекстом и эффективностью MoE.
Что в стеке A3B?
Qwen3-Next-80B-A3B — это гибридная архитектура, сочетающая Gated DeltaNet (заменитель внимания в стиле linear/conv) с Gated Attention, перемежающаяся ультраразреженной смесью экспертов (MoE). Общий бюджет параметров составляет 80 миллиардов, активируется примерно 3 миллиарда параметров на токен через 512 экспертов (10 маршрутизируемых + 1 общий).
FP8-релизы: что изменилось?
FP8-модели отличаются «мелкозернистой» FP8-квантизацией с размером блока 128. Развёртывание немного отличается от BF16: для sglang и vLLM требуются текущие основные/ночные сборки, с примерами команд, предоставленными для контекста 256K и необязательного MTP.
Тестирование
В инструкционных картах FP8 воспроизводится сравнительная таблица Qwen BF16, ставя Qwen3-Next-80B-A3B-Instruct наравне с Qwen3-235B-A22B-Instruct-2507 по нескольким тестам на знания/рассуждения/кодирование и опережая их в рабочих нагрузках с длинным контекстом (до 256K).
Модель Qwen3-Next-80B-A3B-Thinking превосходит более ранние выпуски Qwen3 Thinking (30B A3B-2507, 32B) и заявляет о победе над Gemini-2.5-Flash-Thinking в нескольких тестах.
Сигналы обучения и пост-обучения
Серия обучена на ~15 триллионах токенов перед пост-обучением. Qwen подчёркивает стабильность дополнений (нулевое центрирование, весовая норма затухания и т. д.) и использует GSPO в RL пост-обучении для модели Thinking, чтобы справиться с комбинацией гибридного внимания и высокоразреженного MoE.
Почему важен FP8?
На современных ускорителях активации/веса FP8 снижают нагрузку на пропускную способность памяти и занимаемую память по сравнению с BF16, позволяя использовать большие размеры пакетов или более длинные последовательности при аналогичной задержке.
Итог
Выпуски Qwen FP8 делают стек 80B/3B-active A3B практичным для использования в контексте 256K на основных движках, сохраняя гибридную конструкцию MoE и путь MTP для обеспечения высокой пропускной способности.
Модели Qwen3-Next-80B-A3B в двух вариантах после обучения — Instruct и Thinking — ждут вас. Ознакомиться с учебными материалами, кодами и ноутбуками можно на нашей странице GitHub. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.
1. Какие преимущества у моделей Qwen3-Next-80B-A3B в сравнении с предыдущими версиями?
Модели Qwen3-Next-80B-A3B превосходят более ранние версии в тестах на знания, рассуждения и кодирование, особенно в задачах с длинным контекстом (до 256K). Модель Qwen3-Next-80B-A3B-Thinking также демонстрирует лучшие результаты по сравнению с Gemini-2.5-Flash-Thinking в некоторых тестах.
2. Какие технологии используются в архитектуре Qwen3-Next-80B-A3B?
Qwen3-Next-80B-A3B использует гибридную архитектуру, сочетающую Gated DeltaNet (заменитель внимания в стиле linear/conv) с Gated Attention, перемежающуюся ультраразреженной смесью экспертов (MoE).
3. Почему использование FP8 важно для моделей Alibaba Qwen?
На современных ускорителях активации/веса FP8 снижают нагрузку на пропускную способность памяти и занимаемую память по сравнению с BF16. Это позволяет использовать большие размеры пакетов или более длинные последовательности при аналогичной задержке.
4. Какие результаты показали модели Qwen3-Next-80B-A3B в тестировании?
В инструкционных картах FP8 воспроизводится сравнительная таблица Qwen BF16, ставя Qwen3-Next-80B-A3B-Instruct наравне с Qwen3-235B-A22B-Instruct-2507 по нескольким тестам на знания/рассуждения/кодирование и опережая их в рабочих нагрузках с длинным контекстом (до 256K). Модель Qwen3-Next-80B-A3B-Thinking превосходит более ранние выпуски Qwen3 Thinking и заявляет о победе над Gemini-2.5-Flash-Thinking в нескольких тестах.
5. Какие методы обучения использовались для серии Qwen?
Серия обучена на ~15 триллионах токенов перед пост-обучением. Qwen подчёркивает стабильность дополнений (нулевое центрирование, весовая норма затухания и т. д.) и использует GSPO в RL пост-обучении для модели Thinking, чтобы справиться с комбинацией гибридного внимания и высокоразреженного MoE.