Alibaba выпускает компактные модели Qwen3-VL 4B/8B (Instruct & Thinking) с контрольными точками FP8

Команда Alibaba’s Qwen расширила линейку мультимодальных моделей, представив плотные модели Qwen3-VL в масштабах 4B и 8B. Они доступны в двух профилях задач — Instruct и Thinking — плюс квантованные контрольные точки FP8 для развёртывания с низким объёмом видеопамяти (VRAM).

Что нового?

* SKU и варианты: новые модели включают четыре плотные модели — Qwen3-VL-4B и Qwen3-VL-8B, каждая в версиях Instruct и Thinking, а также FP8-версии контрольных точек Instruct и Thinking.
* Длина контекста и возможности: модели поддерживают нативный контекст длиной 256K с возможностью расширения до 1M, а также полный набор функций: понимание длинных документов и видео, OCR на 32 языках, пространственное обоснование, визуальное кодирование и управление GUI/агентами на настольных и мобильных устройствах.
* Примечания по архитектуре: Qwen3-VL выделяет три основных обновления: Interleaved-MRoPE для надёжного позиционного кодирования по времени/ширине/высоте (долгосрочное видео), DeepStack для объединения многоуровневых функций ViT и улучшения согласования изображений и текста, а также выравнивание текста и временных меток за пределами T-RoPE для локализации событий в видео.

Хронология проекта:

Публикация Qwen3-VL-4B (Instruct/Thinking) и Qwen3-VL-8B (Instruct/Thinking) в GitHub зафиксирована на 15 октября 2025 года.

FP8: подробности, связанные с развёртыванием

* Числовые данные и утверждение о соответствии: репозитории FP8 заявляют о детальной квантизации FP8 с размером блока 128, с показателями производительности, почти идентичными исходным контрольным точкам BF16.
* Статус инструментов: в карточке 4B-Instruct-FP8 указано, что Transformers пока не загружает эти веса FP8 напрямую, и рекомендуется использовать vLLM или SGLang для обслуживания; карточка включает рабочие фрагменты для запуска.

Ключевые выводы:

* Qwen выпустила плотные модели Qwen3-VL 4B и 8B, каждая в вариантах Instruct и Thinking, с контрольными точками FP8.
* FP8 использует детальную квантизацию FP8 (размер блока 128) с показателями, близкими к BF16; загрузка Transformers пока не поддерживается — используйте vLLM/SGLang.
* Возможности сохраняются: контекст 256K с возможностью расширения до 1M, OCR на 32 языках, пространственное обоснование, понимание видео и управление GUI/агентами.
* Размеры, указанные в карточках моделей: Qwen3-VL-4B ≈ 4,83 млрд параметров; Qwen3-VL-8B-Instruct ≈ 8,77 млрд параметров.

Комментарий редакции:

Решение Qwen выпустить плотные модели Qwen3-VL 4B/8B в версиях Instruct и Thinking с контрольными точками FP8 — это практическая часть истории: веса с низким VRAM, готовые к развёртыванию (детальная квантизация FP8, размер блока 128) и явные инструкции по обслуживанию (vLLM/SGLang) делают их легко развёртываемыми. Возможности — контекст 256K с возможностью расширения до 1M, OCR на 32 языках, пространственное обоснование, понимание видео и управление агентами — остаются неизменными в этих меньших масштабах, что имеет большее значение, чем риторика лидеров мнений для команд, ориентированных на одночиповые или периферийные бюджеты.

1. Какие новые модели представила команда Alibaba’s Qwen?

Команда Alibaba’s Qwen представила плотные модели Qwen3-VL в масштабах 4B и 8B. Они доступны в двух профилях задач — Instruct и Thinking — плюс квантованные контрольные точки FP8 для развёртывания с низким объёмом видеопамяти (VRAM).

2. Какие возможности поддерживают новые модели Qwen3-VL?

Новые модели поддерживают нативный контекст длиной 256K с возможностью расширения до 1M, а также полный набор функций: понимание длинных документов и видео, OCR на 32 языках, пространственное обоснование, визуальное кодирование и управление GUI/агентами на настольных и мобильных устройствах.

3. Какие обновления включает в себя модель Qwen3-VL?

Qwen3-VL выделяет три основных обновления: Interleaved-MRoPE для надёжного позиционного кодирования по времени/ширине/высоте (долгосрочное видео), DeepStack для объединения многоуровневых функций ViT и улучшения согласования изображений и текста, а также выравнивание текста и временных меток за пределами T-RoPE для локализации событий в видео.

4. Какие инструменты рекомендуется использовать для обслуживания моделей Qwen3-VL-4B (Instruct/Thinking) и Qwen3-VL-8B (Instruct/Thinking)?

В карточке 4B-Instruct-FP8 указано, что Transformers пока не загружает эти веса FP8 напрямую, и рекомендуется использовать vLLM или SGLang для обслуживания; карточка включает рабочие фрагменты для запуска.

5. Каков размер параметров у моделей Qwen3-VL-4B и Qwen3-VL-8B-Instruct?

Размеры, указанные в карточках моделей: Qwen3-VL-4B ≈ 4,83 млрд параметров; Qwen3-VL-8B-Instruct ≈ 8,77 млрд параметров.

Источник