В этой статье представлено техническое сравнение двух недавно выпущенных моделей-трансформеров Mixture-of-Experts (MoE): Alibaba Qwen3 30B-A3B (выпущена в апреле 2025 года) и GPT-OSS 20B от OpenAI (выпущена в августе 2025 года). Обе модели представляют различные подходы к проектированию архитектуры MoE, балансируя между вычислительной эффективностью и производительностью в разных сценариях развёртывания.
Обзор моделей
| Характеристика | Qwen3 30B-A3B | GPT-OSS 20B |
| — | — | — |
| Общее количество параметров | 30,5 млрд | 21 млрд |
| Активные параметры | 3,3 млрд | 3,6 млрд |
| Количество слоёв | 48 | 24 |
| Количество экспертов MoE | 128 (8 активных) | 32 (4 активных) |
| Архитектура внимания | Групповое запросное внимание (GQA) | Групповое многозапросное внимание |
| Количество голов запросов/ключевых значений | 32Q / 4KV | 64Q / 8KV |
| Окно контекста | 32 768 (расширение до 262 144) | 128 000 |
| Размер словаря | 151 936 | ~200k |
| Квантование | Стандартная точность | Native MXFP4 |
| Дата выпуска | Апрель 2025 | Август 2025 |
Технические характеристики Qwen3 30B-A3B
Детали архитектуры
Qwen3 30B-A3B использует глубокую архитектуру трансформера с 48 слоями, каждый из которых содержит конфигурацию Mixture-of-Experts с 128 экспертами. Модель активирует 8 экспертов на токен во время вывода, достигая баланса между специализацией и вычислительной эффективностью.
Механизм внимания
Модель использует групповое запросное внимание (GQA) с 32 головками запросов и 4 головками ключевых значений. Такая конструкция оптимизирует использование памяти, сохраняя при этом качество внимания, что особенно полезно для обработки длинных контекстов.
Контекст и многоязычная поддержка
* Нативная длина контекста: 32 768 токенов.
* Расширенный контекст: до 262 144 токенов (последние варианты).
* Многоязычная поддержка: 119 языков и диалектов.
* Словарь: 151 936 токенов с использованием токенизации BPE.
Уникальные особенности
Qwen3 включает гибридную систему рассуждений, поддерживающую как «думающий», так и «недумающий» режимы, что позволяет пользователям контролировать вычислительные затраты в зависимости от сложности задачи.
Технические характеристики GPT-OSS 20B
Детали архитектуры
GPT-OSS 20B имеет 24-слойный трансформер с 32 экспертами MoE на слой. Модель активирует 4 эксперта на токен, уделяя особое внимание более широкой экспертной ёмкости за счёт более детальной специализации.
Механизм внимания
Модель реализует сгруппированное многозапросное внимание с 64 головками запросов и 8 головками ключевых значений, сгруппированными по 8. Такая конфигурация поддерживает эффективный вывод, сохраняя при этом качество внимания в более широкой архитектуре.
Контекст и оптимизация
* Нативная длина контекста: 128 000 токенов.
* Квантование: Native MXFP4 (4,25-битная точность) для весов MoE.
* Эффективность памяти: работает на 16 ГБ памяти с квантованием.
* Токензатор: o200k_harmony (надмножество токенизатора GPT-4o).
Характеристики производительности
GPT-OSS 20B использует чередующиеся плотные и локально ленточные разреженные шаблоны внимания, аналогичные GPT-3, с вращающимся позиционным встраиванием (RoPE) для позиционного кодирования.
Сравнение архитектурной философии
Стратегия глубины против ширины
Qwen3 30B-A3B делает акцент на глубине и разнообразии экспертов:
* 48 слоёв обеспечивают многоэтапное рассуждение и иерархическую абстракцию.
* 128 экспертов на слой обеспечивают детальную специализацию.
* Подходит для сложных задач рассуждения, требующих глубокой обработки.
GPT-OSS 20B отдаёт приоритет ширине и вычислительной плотности:
* 24 слоя с более крупными экспертами максимизируют репрезентативную ёмкость на слой.
* Меньше, но более мощные эксперты (32 против 128) увеличивают возможности отдельных экспертов.
* Оптимизирован для эффективного однопроходного вывода.
Рекомендации по использованию
Выбирайте Qwen3 30B-A3B для:
* сложных задач рассуждения, требующих многоэтапной обработки;
* многоязычных приложений на разных языках;
* сценариев, требующих гибкого расширения контекста;
* приложений, где ценится прозрачность мышления/рассуждения.
Выбирайте GPT-OSS 20B для:
* развёртываний с ограниченными ресурсами, требующих эффективности;
* приложений, вызывающих инструменты и агенты;
* быстрого вывода с постоянной производительностью;
* сценариев развёртывания на периферии с ограниченной памятью.
Заключение
Qwen3 30B-A3B и GPT-OSS 20B представляют собой взаимодополняющие подходы к проектированию архитектуры MoE. Qwen3 делает упор на глубину, разнообразие экспертов и многоязычные возможности, что делает его подходящим для сложных приложений рассуждений. GPT-OSS 20B ставит во главу угла эффективность, интеграцию инструментов и гибкость развёртывания, позиционируя его для практических производственных сред с ограниченными ресурсами.
Обе модели демонстрируют эволюцию архитектур MoE за пределы простого масштабирования параметров, включая сложные конструктивные решения, которые согласовывают архитектурные решения с предполагаемыми вариантами использования и сценариями развёртывания.
1. Какие ключевые различия в архитектуре и механизмах внимания у моделей Qwen3 30B-A3B и GPT-OSS 20B?
Ответ: Qwen3 30B-A3B использует групповое запросное внимание (GQA) с 32 головками запросов и 4 головками ключевых значений, в то время как GPT-OSS 20B применяет сгруппированное многозапросное внимание с 64 головками запросов и 8 головками ключевых значений, сгруппированными по 8. Qwen3 30B-A3B имеет 48 слоёв и 128 экспертов на слой, а GPT-OSS 20B — 24 слоя и 32 эксперта на слой.
2. Какие сценарии использования лучше подходят для каждой из моделей (Qwen3 30B-A3B и GPT-OSS 20B)?
Ответ: Qwen3 30B-A3B лучше подходит для сложных задач рассуждения, требующих многоэтапной обработки, многоязычных приложений, сценариев с гибким расширением контекста и приложений, где ценится прозрачность мышления/рассуждения. GPT-OSS 20B лучше подходит для развёртываний с ограниченными ресурсами, приложений, вызывающих инструменты и агенты, быстрого вывода с постоянной производительностью и сценариев развёртывания на периферии с ограниченной памятью.
3. Какие уникальные особенности есть у модели Qwen3 30B-A3B, которые отличают её от GPT-OSS 20B?
Ответ: Qwen3 30B-A3B включает гибридную систему рассуждений, поддерживающую как «думающий», так и «недумающий» режимы, что позволяет пользователям контролировать вычислительные затраты в зависимости от сложности задачи. Также модель имеет многоязычную поддержку 119 языков и диалектов.
4. Какие технические характеристики у модели GPT-OSS 20B, которые обеспечивают её эффективность и оптимизацию?
Ответ: GPT-OSS 20B использует чередующиеся плотные и локально ленточные разреженные шаблоны внимания, аналогичные GPT-3, с вращающимся позиционным встраиванием (RoPE) для позиционного кодирования. Модель также квантована в Native MXFP4 (4,25-битная точность) для весов MoE, что обеспечивает эффективность памяти и работает на 16 ГБ памяти.
5. Какие общие тенденции в развитии архитектур MoE можно выделить на примере сравнения Qwen3 30B-A3B и GPT-OSS 20B?
Ответ: Обе модели демонстрируют эволюцию архитектур MoE за пределы простого масштабирования параметров, включая сложные конструктивные решения, которые согласовывают архитектурные решения с предполагаемыми вариантами использования и сценариями развёртывания. Qwen3 30B-A3B делает упор на глубину, разнообразие экспертов и многоязычные возможности, а GPT-OSS 20B ставит во главу угла эффективность, интеграцию инструментов и гибкость развёртывания.