Alibaba представляет Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507: обновление важности небольших языковых моделей

Небольшие модели с улучшенной производительностью и поддержкой контекста 256K

Команда Alibaba Qwen представила два мощных дополнения к линейке небольших языковых моделей: Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507. Несмотря на то, что у них всего 4 миллиарда параметров, эти модели демонстрируют исключительные возможности в решении задач общего и экспертного уровня, при этом эффективно работая на потребительском оборудовании. Обе модели разработаны с учётом поддержки контекста в 256 тысяч токенов, что означает, что они могут обрабатывать чрезвычайно длинные входные данные, такие как большие кодовые базы, многодокументальные архивы и расширенные диалоги, без внешних модификаций.

Архитектура и основное проектирование

Обе модели имеют 4 миллиарда общих параметров (3,6 миллиарда без учёта встраиваний), построенных на 36 слоях преобразователя. Они используют сгруппированное запросное внимание (GQA) с 32 головками запросов и 8 головками ключей/значений, что повышает эффективность и управление памятью для очень больших контекстов. Это плотные архитектуры преобразователей, а не смеси экспертов, что обеспечивает стабильную производительность задач.

Поддержка длинного контекста до 262 144 токенов встроена непосредственно в архитектуру модели, и каждая модель проходит обширное предварительное обучение, прежде чем пройти этап выравнивания и пост-тренинга для обеспечения ответственного и высококачественного вывода.

Qwen3-4B-Instruct-2507 — многоязычный специалист, следующий инструкциям

Модель Qwen3-4B-Instruct-2507 оптимизирована для скорости, ясности и выполнения инструкций, ориентированных на пользователя. Она предназначена для предоставления прямых ответов без явных пошаговых рассуждений, что делает её идеальной для сценариев, когда пользователи хотят получить краткие ответы, а не подробные мыслительные процессы.

Многоязычное покрытие охватывает более 100 языков, что делает её очень подходящей для глобального развёртывания в чат-ботах, поддержке клиентов, образовании и межъязыковом поиске.

Показатели производительности:

| Задача | Оценка |
| — | — |
| Общие знания (MMLU-Pro) | 69,6 |
| Рассуждения (AIME25) | 47,4 |
| SuperGPQA (QA) | 42,8 |
| Кодирование (LiveCodeBench) | 35,1 |
| Творческое письмо | 83,5 |
| Многоязычное понимание (MultiIF) | 69,0 |

На практике это означает, что Qwen3-4B-Instruct-2507 может справиться со всем: от языкового обучения на нескольких языках до создания насыщенного повествовательного контента, при этом обеспечивая компетентную производительность в рассуждениях, кодировании и предметных знаниях.

Qwen3-4B-Thinking-2507 — рассуждения экспертного уровня

Модель Qwen3-4B-Thinking-2507 разработана для глубокого анализа и решения проблем. Она автоматически генерирует явные цепочки мыслей в своих выходных данных, делая процесс принятия решений прозрачным, что особенно полезно для сложных областей, таких как математика, наука и программирование.

Эта модель превосходно справляется с технической диагностикой, интерпретацией научных данных и многошазовым логическим анализом. Она подходит для продвинутых ИИ-агентов, исследовательских помощников и компаньонов по кодированию, которым необходимо продумать проблемы, прежде чем ответить.

Показатели производительности:

| Задача | Оценка |
| — | — |
| Математика (AIME25) | 81,3% |
| Наука (HMMT25) | 55,5% |
| Общие вопросы и ответы (GPQA) | 65,8% |
| Кодирование (LiveCodeBench) | 55,2% |
| Использование инструментов (BFCL) | 71,2% |
| Согласование с человеком | 87,4% |

Эти оценки демонстрируют, что Qwen3-4B-Thinking-2507 может соответствовать или даже превосходить гораздо более крупные модели в бенчмарках, требующих рассуждений, обеспечивая более точные и объяснимые результаты для критически важных случаев использования.

Общие характеристики для обеих моделей

Оба варианта — Instruct и Thinking — имеют ключевые преимущества. Нативное окно контекста в 256K позволяет без проблем работать с чрезвычайно длинными входными данными без использования внешних хаков памяти. Они также отличаются улучшенным выравниванием, обеспечивая более естественные, связные и контекстно-зависимые ответы в творческих и многоходовых беседах. Кроме того, обе модели готовы к использованию в качестве агентов, поддерживая вызов API, многошаговое рассуждение и оркестрацию рабочих процессов.

С точки зрения развёртывания они высокоэффективны — могут работать на основных потребительских графических процессорах с квантизацией для снижения использования памяти и полностью совместимы с современными фреймворками логического вывода. Это означает, что разработчики могут запускать их локально или масштабировать в облачных средах без значительных инвестиций в ресурсы.

Практическое развёртывание и приложения

Развёртывание осуществляется просто, благодаря широкой совместимости с фреймворками, что позволяет интегрировать их в любой современный ML-конвейер. Их можно использовать в периферийных устройствах, корпоративных виртуальных помощниках, исследовательских институтах, средах кодирования и креативных студиях.

Примеры сценариев включают:
* Режим следования инструкциям: боты поддержки клиентов, многоязычные образовательные помощники, генерация контента в реальном времени.
* Режим мышления: анализ научных исследований, юридические рассуждения, продвинутые инструменты кодирования и агентская автоматизация.

Заключение

Модели Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 доказывают, что небольшие языковые модели могут конкурировать и даже превосходить более крупные модели в определённых областях, если их тщательно продумать. Их сочетание обработки длинного контекста, сильных многоязычных возможностей, глубокого анализа (в режиме мышления) и улучшений в области выравнивания делает их мощными инструментами как для повседневных, так и для специализированных приложений ИИ.

С этими релизами Alibaba установила новый стандарт, сделав высокопроизводительные ИИ-модели, готовые к работе с 256K, доступными для разработчиков по всему миру.

1. Какие ключевые особенности отличают модели Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 от других языковых моделей?

Модели Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 отличаются от других языковых моделей следующими ключевыми особенностями:
* поддержка длинного контекста до 262 144 токенов;
* многоязычное покрытие более чем 100 языков;
* оптимизация для скорости и ясности выполнения инструкций (Qwen3-4B-Instruct-2507);
* способность к глубокому анализу и решению проблем, автоматическое генерирование цепочек мыслей (Qwen3-4B-Thinking-2507).

2. Какие задачи могут решать модели Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507?

Модели Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 могут решать следующие задачи:
* языковое обучение на нескольких языках;
* создание насыщенного повествовательного контента;
* рассуждения в сложных областях (математика, наука, программирование);
* техническая диагностика;
* интерпретация научных данных;
* многошаговый логический анализ;
* генерация контента в реальном времени;
* анализ научных исследований;
* юридические рассуждения;
* продвинутые инструменты кодирования.

3. Какие преимущества имеют модели Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 для разработчиков?

Модели Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 имеют следующие преимущества для разработчиков:
* высокая производительность на потребительском оборудовании;
* совместимость с современными фреймворками логического вывода;
* возможность локального развёртывания или масштабирования в облачных средах;
* простота развёртывания благодаря широкой совместимости с фреймворками;
* доступность для разработчиков по всему миру.

4. Какие сценарии использования предусмотрены для моделей Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507?

Сценарии использования моделей Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 включают:
* режим следования инструкциям: боты поддержки клиентов, многоязычные образовательные помощники, генерация контента в реальном времени;
* режим мышления: анализ научных исследований, юридические рассуждения, продвинутые инструменты кодирования и агентская автоматизация.

Источник