Alibaba выпустила серию небольших моделей Qwen 3.5

Команда Alibaba Qwen выпустила серию небольших моделей Qwen3.5 — это семейство больших языковых моделей (LLMs) с количеством параметров от 0,8 млрд до 9 млрд. В то время как в отрасли исторически преобладала тенденция к увеличению количества параметров для достижения передовых результатов, в этом выпуске основное внимание уделяется принципу «больше интеллекта, меньше вычислений». Эти модели представляют собой сдвиг в сторону внедрения мощного ИИ на потребительском оборудовании и периферийных устройствах без традиционных компромиссов в области рассуждений или мультимодальности.

Иерархия моделей: оптимизация по масштабу

Серия Qwen3.5 разделена на четыре уровня, каждый из которых оптимизирован для определённых аппаратных ограничений и требований к задержкам:

* Qwen3.5-0,8B и Qwen3.5-2B. Эти модели предназначены для приложений с высокой пропускной способностью и низкой задержкой на периферийных устройствах. Оптимизируя процесс обучения плотным токенам, эти модели обеспечивают уменьшенный объём видеопамяти, что делает их совместимыми с мобильными чипами и оборудованием IoT.
* Qwen3.5-4B. Эта модель служит мультимодальной базой для лёгких агентов. Она устраняет разрыв между чисто текстовыми моделями и сложными визуально-языковыми моделями (VLM), позволяя реализовать рабочие процессы, требующие визуального понимания (например, навигация по пользовательскому интерфейсу или анализ документов), оставаясь при этом достаточно компактными для локального развёртывания.
* Qwen3.5-9B. Флагман небольшой серии, вариант на 9 млрд параметров, ориентирован на рассуждения и логику. Он специально настроен для того, чтобы сократить разрыв в производительности с моделями, значительно превосходящими его по размеру (например, с моделями на 30 млрд+ параметров), с помощью передовых методов обучения.

Нативная мультимодальность против визуальных адаптеров

Одним из значительных технических сдвигов в Qwen3.5-4B и выше является переход к нативным мультимодальным возможностям. В более ранних версиях небольших моделей мультимодальность часто достигалась с помощью «адаптеров» или «мостов», которые соединяли предварительно обученный кодер изображений (например, CLIP) с языковой моделью.

В отличие от этого, Qwen3.5 включает мультимодальность непосредственно в архитектуру. Этот нативный подход позволяет модели обрабатывать визуальные и текстовые токены в одном скрытом пространстве с ранних этапов обучения. Это приводит к улучшению пространственного мышления, повышению точности OCR и более связным визуально обоснованным ответам по сравнению с системами на основе адаптеров.

Увеличенное RL: улучшение рассуждений в компактных моделях

Производительность Qwen3.5-9B во многом объясняется реализацией масштабируемого обучения с подкреплением (RL). В отличие от стандартного контролируемого точного обучения (SFT), которое учит модель имитировать высококачественный текст, масштабируемое RL использует сигналы вознаграждения для оптимизации корректных путей рассуждений.

Преимущества масштабируемого RL в модели на 9 млрд параметров включают:

* Улучшение следования инструкциям. Модель с большей вероятностью будет следовать сложным многошаговым системным подсказкам.
* Снижение количества галлюцинаций. За счёт усиления логической согласованности во время обучения модель демонстрирует более высокую надёжность при извлечении фактов и математических рассуждениях.
* Эффективность вывода. Количество параметров в 9 млрд позволяет генерировать токены быстрее (больше токенов в секунду), чем моделям на 70 млрд, при этом сохраняя конкурентные логические оценки по таким бенчмаркам, как MMLU и GSM8K.

Таблица спецификаций серии небольших моделей Qwen3.5

| Размер модели | Основное применение | Ключевая техническая особенность |
| — | — | — |
| 0,8B / 2B | Периферийные устройства / IoT | Низкая VRAM, высокоскоростной вывод |
| 4B | Лёгкие агенты | Нативная мультимодальная интеграция |
| 9B | Рассуждения и логика | Масштабируемое RL для закрытия разрыва в производительности |

Сосредоточившись на архитектурной эффективности и передовых парадигмах обучения, таких как масштабируемое RL и нативная мультимодальность, серия Qwen3.5 предоставляет разработчикам реальный путь для создания сложных ИИ-приложений без необходимости использования массивных моделей, зависящих от облачных технологий.

Ключевые выводы

* Больше интеллекта, меньше вычислений. Серия (от 0,8 млрд до 9 млрд параметров) отдаёт приоритет архитектурной эффективности, а не количеству параметров, что позволяет добиться высокой производительности ИИ на потребительском оборудовании и периферийных устройствах.
* Нативная мультимодальная интеграция (модель 4B). В отличие от моделей, использующих «прикреплённые» башни зрения, вариант на 4 млрд параметров имеет нативную архитектуру, в которой текстовые и визуальные данные обрабатываются в едином скрытом пространстве, что значительно улучшает пространственное мышление и точность OCR.
* Рассуждения на уровне фронтира с помощью масштабируемого RL. Модель на 9 млрд использует масштабируемое обучение с подкреплением для оптимизации логических путей рассуждений, а не только для прогнозирования токенов, эффективно сокращая разрыв в производительности с моделями, в 5–10 раз превышающими её размер.
* Оптимизация для периферийных устройств и IoT. Модели на 0,8 млрд и 2 млрд разработаны для ультранизкой задержки и минимального объёма видеопамяти, что делает их идеальными для приложений, ориентированных на локальность, мобильного развёртывания и сред, где важна конфиденциальность.

1. Какие основные характеристики отличают серию моделей Qwen3.5 от других языковых моделей на рынке?

Ответ: серия Qwen3.5 отличается от других языковых моделей на рынке тем, что основное внимание уделяется принципу «больше интеллекта, меньше вычислений». Модели Qwen3.5 оптимизированы для определённых аппаратных ограничений и требований к задержкам, что позволяет использовать их на потребительском оборудовании и периферийных устройствах без традиционных компромиссов в области рассуждений или мультимодальности.

2. Какие уровни оптимизации представлены в серии Qwen3.5 и для каких целей они предназначены?

Ответ: серия Qwen3.5 разделена на четыре уровня оптимизации:
* Qwen3.5-0,8B и Qwen3.5-2B предназначены для приложений с высокой пропускной способностью и низкой задержкой на периферийных устройствах.
* Qwen3.5-4B служит мультимодальной базой для лёгких агентов.
* Qwen3.5-9B ориентирован на рассуждения и логику.

3. В чём заключается преимущество нативной мультимодальности в модели Qwen3.5-4B по сравнению с визуальными адаптерами в более ранних версиях?

Ответ: в более ранних версиях небольших моделей мультимодальность часто достигалась с помощью «адаптеров» или «мостов», которые соединяли предварительно обученный кодер изображений с языковой моделью. В отличие от этого, Qwen3.5 включает мультимодальность непосредственно в архитектуру. Нативный подход позволяет модели обрабатывать визуальные и текстовые токены в одном скрытом пространстве с ранних этапов обучения, что приводит к улучшению пространственного мышления, повышению точности OCR и более связным визуально обоснованным ответам по сравнению с системами на основе адаптеров.

4. Какие преимущества предоставляет масштабируемое обучение с подкреплением (RL) в модели Qwen3.5-9B?

Ответ: масштабируемое RL в модели Qwen3.5-9B позволяет оптимизировать корректные пути рассуждений с помощью сигналов вознаграждения. Преимущества масштабируемого RL включают улучшение следования инструкциям, снижение количества галлюцинаций и эффективность вывода. Модель с большей вероятностью будет следовать сложным многошаговым системным подсказкам, демонстрирует более высокую надёжность при извлечении фактов и математических рассуждениях, а также генерирует токены быстрее, чем более крупные модели.

5. Какие ключевые выводы можно сделать о серии Qwen3.5 на основе представленного текста?

Ответ: ключевые выводы о серии Qwen3.5:
* Приоритет архитектурной эффективности, а не количеству параметров, позволяет добиться высокой производительности ИИ на потребительском оборудовании и периферийных устройствах.
* Нативная мультимодальная интеграция в модели 4B значительно улучшает пространственное мышление и точность OCR.
* Рассуждения на уровне фронтира с помощью масштабируемого RL эффективно сокращают разрыв в производительности с более крупными моделями.
* Модели на 0,8 млрд и 2 млрд разработаны для ультранизкой задержки и минимального объёма видеопамяти, что делает их идеальными для приложений, ориентированных на локальность, мобильного развёртывания и сред, где важна конфиденциальность.

Источник