Команда Alibaba Qwen выпустила модель Qwen3.5-397B MoE с 17 миллиардами активных параметров и контекстом на 1 миллион токенов для ИИ-агентов

Команда Qwen из Alibaba Cloud обновила ландшафт открытых исходников. Сегодня команда Qwen выпустила Qwen3.5 — новейшее поколение семейства больших языковых моделей (LLM). Самая мощная версия — Qwen3.5-397B-A17B. Это модель со разреженной архитектурой Mixture-of-Experts (MoE). Она сочетает в себе огромную вычислительную мощность и высокую эффективность.

Qwen3.5 — это нативная модель для работы с визуальными данными и языком. Она разработана специально для ИИ-агентов. Она может видеть, кодировать и рассуждать на 201 языке.

Основные характеристики архитектуры: 397 миллиардов параметров в сумме, 17 миллиардов активных

Технические характеристики Qwen3.5-397B-A17B впечатляют. Модель содержит 397 миллиардов параметров в сумме. Однако она использует разреженную архитектуру MoE. Это означает, что во время любого прямого прохода активируются только 17 миллиардов параметров.

Это количество активаций (17 миллиардов) — наиболее важный показатель для разработчиков. Оно позволяет модели обеспечивать интеллект модели на 400 миллиардов параметров. При этом она работает со скоростью гораздо более компактной модели. Команда Qwen сообщает об увеличении пропускной способности декодирования в 8,6–19 раз по сравнению с предыдущими поколениями. Такая эффективность решает проблему высокой стоимости запуска крупномасштабного ИИ.

Эффективная гибридная архитектура: Gated Delta Networks

Qwen3.5 не использует стандартную конструкцию Transformer. Она использует «эффективную гибридную архитектуру». Большинство LLM полагаются только на механизмы внимания. Они могут замедляться при работе с длинными текстами. Qwen3.5 сочетает в себе Gated Delta Networks (линейное внимание) с Mixture-of-Experts (MoE).

Модель состоит из 60 слоёв. Размер скрытого измерения — 4096. Эти слои следуют определённой «схеме скрытого расположения». Схема группирует слои в наборы по 4.

* 3 блока используют Gated DeltaNet-plus-MoE.
* 1 блок использует Gated Attention-plus-MoE.

Этот шаблон повторяется 15 раз, чтобы достичь 60 слоёв.

Технические детали включают:
* Gated DeltaNet: использует 64 линейных головы внимания для значений (V). Использует 16 голов для запросов и ключей (QK).
* Структура MoE: модель имеет 512 экспертов в сумме. Каждый токен активирует 10 маршрутизационных экспертов и 1 общего эксперта. Это равно 11 активным экспертам на токен.
* Словарь: модель использует дополненный словарь из 248 320 токенов.

Нативная мультимодальная подготовка: раннее слияние

Qwen3.5 — это нативная модель для работы с визуальными данными и языком. Многие другие модели добавляют возможности работы с изображениями позже. Qwen3.5 использовала обучение с помощью «раннего слияния». Это означает, что модель обучалась на изображениях и тексте одновременно.

При обучении использовались триллионы мультимодальных токенов. Это делает Qwen3.5 лучше в визуальном мышлении, чем предыдущие версии Qwen3-VL. Она отлично справляется с «агентскими» задачами. Например, она может посмотреть на скриншот пользовательского интерфейса и сгенерировать точный HTML и CSS код. Она также может анализировать длинные видео с точностью до секунды.

Модель поддерживает протокол Model Context Protocol (MCP). Она также обрабатывает сложные вызовы функций. Эти функции жизненно важны для создания агентов, которые управляют приложениями или просматривают веб-страницы. В тесте IFBench она набрала 76,5 баллов. Этот результат превосходит многие проприетарные модели.

Решение проблемы «стены памяти»: длина контекста 1 миллион токенов

Обработка данных в длинных форматах — ключевая особенность Qwen3.5. Базовая модель имеет нативное окно контекста в 262 144 (256K) токена. Размещённая версия Qwen3.5-Plus поддерживает 1 миллион токенов.

Команда Alibaba Qwen использовала для этого новую асинхронную структуру обучения с подкреплением (RL). Она обеспечивает точность модели даже в конце документа из 1 миллиона токенов. Для разработчиков это означает, что вы можете загрузить в один запрос целую кодовую базу. Вам не всегда нужна сложная система Retrieval-Augmented Generation (RAG).

Производительность и тесты

Модель отлично справляется в технических областях. Она достигла высоких результатов на Humanity’s Last Exam (HLE-Verified). Это сложный тест для ИИ.

* Кодирование: модель демонстрирует равенство с топовыми закрытыми моделями.
* Математика: модель использует «адаптивное использование инструментов». Она может писать код на Python для решения математических задач. Затем она запускает код для проверки ответа.
* Языки: модель поддерживает 201 язык и диалект. Это большой скачок по сравнению со 119 языками в предыдущей версии.

Ключевые выводы

* Гибридная эффективность (MoE + Gated Delta Networks): Qwen3.5 использует соотношение 3:1 Gated Delta Networks (линейное внимание) к стандартным блокам Gated Attention в 60 слоях. Такая гибридная конструкция позволяет увеличить пропускную способность декодирования в 8,6–19 раз по сравнению с предыдущими поколениями.
* Масштабный размер, низкий отпечаток: Qwen3.5-397B-A17B имеет 397 миллиардов параметров в сумме, но активирует только 17 миллиардов на токен. Вы получаете интеллект класса 400 миллиардов параметров со скоростью и требованиями к памяти гораздо более компактной модели.
* Нативная мультимодальная основа: в отличие от моделей со «встроенными» возможностями работы с изображениями, Qwen3.5 обучалась с помощью Early Fusion на триллионах текстовых и графических токенов одновременно. Это делает её первоклассным визуальным агентом, набравшим 76,5 баллов в IFBench за выполнение сложных инструкций в визуальном контексте.
* Контекст на 1 миллион токенов: в то время как базовая модель поддерживает нативное окно контекста в 256 тысяч токенов, размещённая версия Qwen3.5-Plus обрабатывает до 1 миллиона токенов. Такое массивное окно позволяет разработчикам обрабатывать целые кодовые базы или двухчасовые видео без сложных конвейеров RAG.

Ознакомьтесь с техническими деталями, весами моделей и репозиторием GitHub. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit, подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там!

1. Какие ключевые особенности отличают модель Qwen3.5 от предыдущих поколений больших языковых моделей?

Ответ: Qwen3.5 отличается от предыдущих поколений использованием эффективной гибридной архитектуры, включая Gated Delta Networks и Mixture-of-Experts (MoE), что обеспечивает высокую пропускную способность декодирования и эффективность работы с длинными текстами. Также модель Qwen3.5 является нативной для работы с визуальными данными и языком, обучаясь с помощью Early Fusion на триллионах текстовых и графических токенов одновременно.

2. Какие технические характеристики делают модель Qwen3.5-397B-A17B эффективной для разработчиков?

Ответ: Модель Qwen3.5-397B-A17B содержит 397 миллиардов параметров в сумме, однако активирует только 17 миллиардов на токен. Это обеспечивает интеллект класса 400 миллиардов параметров со скоростью и требованиями к памяти гораздо более компактной модели. Кроме того, модель поддерживает нативное окно контекста в 256 тысяч токенов, а размещённая версия Qwen3.5-Plus обрабатывает до 1 миллиона токенов.

3. Какие преимущества предоставляет модель Qwen3.5 для работы с визуальными данными?

Ответ: Qwen3.5 использует обучение с помощью Early Fusion, что позволяет модели обучаться на изображениях и тексте одновременно. Это делает Qwen3.5 лучше в визуальном мышлении, чем предыдущие версии Qwen3-VL, и позволяет модели отлично справляться с «агентскими» задачами, такими как генерация HTML и CSS кода по скриншоту пользовательского интерфейса или анализ длинных видео.

4. Какие задачи может решать модель Qwen3.5 в технических областях?

Ответ: Модель Qwen3.5 демонстрирует высокие результаты в технических областях, включая кодирование и математику. Она может писать код на Python для решения математических задач, запускать код для проверки ответа, а также поддерживает 201 язык и диалект.

5. Какие выводы можно сделать о гибридной эффективности модели Qwen3.5?

Ответ: Гибридная эффективность Qwen3.5 (MoE + Gated Delta Networks) позволяет увеличить пропускную способность декодирования в 8,6–19 раз по сравнению с предыдущими поколениями. Это делает модель Qwen3.5 более эффективной и производительной по сравнению с предыдущими версиями.

Источник