Команда Alibaba Qwen выпускает серию моделей Qwen 3.5 Medium: производственный флагман, доказывающий, что меньшие модели ИИ умнее

Развитие новых подходов в Alibaba

Развитие больших языковых моделей (LLM) традиционно определялось стремлением к увеличению масштаба. Однако рост количества параметров до триллионов сначала приводил к повышению производительности, но также вводил значительные накладные расходы на инфраструктуру и уменьшающуюся предельную полезность.

Выпуск серии моделей Qwen 3.5 Medium сигнализирует о сдвиге в подходе Alibaba к Qwen, где приоритет отдаётся архитектурной эффективности и высокому качеству данных, а не традиционному масштабированию.

Серия включает:

* Qwen3.5-Flash;
* Qwen3.5-35B-A3B;
* Qwen3.5-122B-A10B;
* Qwen3.5-27B.

Эти модели демонстрируют, что стратегический архитектурный выбор и обучение с подкреплением (RL) могут достичь передового уровня интеллекта при значительно меньших вычислительных требованиях.

Прорыв в эффективности: 35B превосходит 235B

Наиболее заметным техническим достижением является производительность Qwen3.5-35B-A3B, которая теперь превосходит более старую модель Qwen3-235B-A22B-2507 и модель Qwen3-VL-235B-A22B с возможностью обработки изображений.

Суффикс «A3B» является ключевым показателем. Он указывает на активные параметры в архитектуре «Mixture-of-Experts» (MoE). Хотя модель имеет 35 миллиардов общих параметров, во время любого отдельного прохода логического вывода активируется только 3 миллиарда.

Тот факт, что модель с 3 миллиардами активных параметров может превзойти предшественника с 22 миллиардами активных параметров, подчёркивает значительный скачок в плотности рассуждений.

Эта эффективность обеспечивается гибридной архитектурой, которая объединяет Gated Delta Networks (линейное внимание) со стандартными блоками Gated Attention. Такая конструкция обеспечивает высокую пропускную способность декодирования и уменьшенный объём памяти, делая высокопроизводительный ИИ более доступным на стандартном оборудовании.

Qwen3.5-Flash: оптимизирован для производства

Qwen3.5-Flash служит размещённой производственной версией модели 35B-A3B. Он специально разработан для разработчиков программного обеспечения, которым требуется высокая производительность с малой задержкой в агентских рабочих процессах.

* Длина контекста 1 миллион токенов. Предоставляя по умолчанию окно контекста в 1 миллион токенов, Flash снижает потребность в сложных конвейерах RAG (Retrieval-Augmented Generation) при работе с большими наборами документов или кодовых баз.
* Официальные встроенные инструменты. Модель имеет встроенную поддержку использования инструментов и вызова функций, что позволяет ей напрямую взаимодействовать с API и базами данных с высокой точностью.

Модели для агентских сценариев с высоким уровнем рассуждений

Модели Qwen3.5-122B-A10B и Qwen3.5-27B разработаны для «агентских» задач — сценариев, в которых модель должна планировать, рассуждать и выполнять многошаговые рабочие процессы.

Команда Alibaba Qwen использовала четырёхэтапный конвейер пост-тренировки для этих моделей, включающий холодные старты с длинной цепочкой мыслей (CoT) и обучение на основе рассуждений (RL). Это позволяет модели 122B-A10B, использующей только 10 миллиардов активных параметров, поддерживать логическую согласованность в задачах с большим горизонтом планирования, конкурируя с производительностью гораздо более крупных плотных моделей.

Ключевые выводы

* Архитектурная эффективность (MoE). Модель Qwen3.5-35B-A3B с 3 миллиардами активных параметров (A3B) превосходит модель предыдущего поколения с 235 миллиардами параметров. Это демонстрирует, что архитектура «Mixture-of-Experts» (MoE) в сочетании с более высоким качеством данных и обучением с подкреплением (RL) может обеспечить «передовой уровень» интеллекта при минимальных вычислительных затратах.
* Производительность для производства (Flash). Qwen3.5-Flash — это размещённая производственная версия, соответствующая модели 35B. Она специально оптимизирована для приложений с высокой пропускной способностью и низкой задержкой, что делает её «рабочей лошадкой» для разработчиков, переходящих от прототипов к внедрению корпоративного масштаба.
* Массивное контекстное окно. Серия имеет длину контекста 1 миллион токенов по умолчанию. Это позволяет выполнять задачи с длинным контекстом, такие как анализ кода полного репозитория или массовый поиск документов, без необходимости использования сложных стратегий «разбиения на фрагменты» RAG (Retrieval-Augmented Generation), что значительно упрощает рабочий процесс разработчиков.
* Встроенное использование инструментов и агентские возможности. В отличие от моделей, требующих обширного проектирования подсказок для внешних взаимодействий, Qwen 3.5 включает официальные встроенные инструменты. Эта встроенная поддержка вызова функций и взаимодействия с API делает его высокоэффективным для «агентских» сценариев, где модель должна планировать и выполнять многошаговые рабочие процессы.

Команда Alibaba Qwen фокусируется на моделях в диапазоне от 27 миллиардов до 122 миллиардов активных параметров (A10B). Эти модели достаточно малы для запуска в частной или локализованной облачной инфраструктуре, сохраняя при этом сложные рассуждения и логическую согласованность, типичные для массивных закрытых проприетарных моделей.

Ознакомьтесь с весами моделей и API Flash. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit ML с более чем 120 тысячами участников и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.

1. Какие ключевые преимущества моделей Qwen 3.5 Medium выделяет автор статьи?

Автор статьи выделяет несколько ключевых преимуществ моделей Qwen 3.5 Medium:
* Архитектурная эффективность. Модель Qwen3.5-35B-A3B с 3 миллиардами активных параметров превосходит модель предыдущего поколения с 235 миллиардами параметров. Это демонстрирует, что архитектура «Mixture-of-Experts» (MoE) в сочетании с более высоким качеством данных и обучением с подкреплением (RL) может обеспечить «передовой уровень» интеллекта при минимальных вычислительных затратах.
* Производительность для производства. Qwen3.5-Flash — это размещённая производственная версия, соответствующая модели 35B. Она специально оптимизирована для приложений с высокой пропускной способностью и низкой задержкой, что делает её «рабочей лошадкой» для разработчиков, переходящих от прототипов к внедрению корпоративного масштаба.
* Массивное контекстное окно. Серия имеет длину контекста 1 миллион токенов по умолчанию. Это позволяет выполнять задачи с длинным контекстом, такие как анализ кода полного репозитория или массовый поиск документов, без необходимости использования сложных стратегий «разбиения на фрагменты» RAG (Retrieval-Augmented Generation), что значительно упрощает рабочий процесс разработчиков.
* Встроенное использование инструментов и агентские возможности. Qwen 3.5 включает официальные встроенные инструменты. Эта встроенная поддержка вызова функций и взаимодействия с API делает его высокоэффективным для «агентских» сценариев, где модель должна планировать и выполнять многошаговые рабочие процессы.

2. Какие технические инновации используются в моделях Qwen 3.5 Medium для повышения их эффективности?

В моделях Qwen 3.5 Medium для повышения их эффективности используются следующие технические инновации:
* Гибридная архитектура, которая объединяет Gated Delta Networks (линейное внимание) со стандартными блоками Gated Attention. Такая конструкция обеспечивает высокую пропускную способность декодирования и уменьшенный объём памяти, делая высокопроизводительный ИИ более доступным на стандартном оборудовании.
* Обучение с подкреплением (RL) в сочетании с архитектурной эффективностью (MoE) для достижения передового уровня интеллекта при значительно меньших вычислительных требованиях.
* Четырёхэтапный конвейер пост-тренировки для моделей Qwen3.5-122B-A10B и Qwen3.5-27B, включающий холодные старты с длинной цепочкой мыслей (CoT) и обучение на основе рассуждений (RL).

3. Какие сценарии использования наиболее подходят для моделей Qwen 3.5 Medium?

Модели Qwen 3.5 Medium наиболее подходят для следующих сценариев использования:
* Агентские сценарии с высоким уровнем рассуждений, где модель должна планировать, рассуждать и выполнять многошаговые рабочие процессы.
* Приложения с высокой пропускной способностью и низкой задержкой, такие как агентские рабочие процессы в разработке программного обеспечения.
* Задачи с длинным контекстом, такие как анализ кода полного репозитория или массовый поиск документов.
* Сценарии, где требуется высокая производительность с малой задержкой, например, в корпоративных приложениях.

Источник