Знакомьтесь: Qwen3Guard — модели для обеспечения безопасности в реальном времени на основе Qwen3

Команда Qwen из Alibaba разработала Qwen3Guard — семейство мультиязычных моделей-ограничителей, предназначенных для модерации запросов и потоковых ответов в реальном времени.

Qwen3Guard представлен в двух вариантах:
* Qwen3Guard-Gen (генеративный классификатор, который читает полный контекст запроса/ответа);
* Qwen3Guard-Stream (классификатор на уровне токенов, который модерирует по мере генерации текста).

Оба варианта выпущены в размерах параметров 0,6B, 4B и 8B и нацелены на глобальное развёртывание с охватом 119 языков и диалектов. Модели с открытым исходным кодом, их веса доступны на Hugging Face и в репозитории GitHub.

Что нового?

Потоковая модерация: к последнему слою преобразователя добавлены две лёгкие классификационные головки — одна отслеживает запрос пользователя, другая оценивает каждый сгенерированный токен в реальном времени как «безопасный», «спорный» или «опасный». Это позволяет применять правила в процессе создания ответа, а не после его завершения.

Трёхуровневая семантика рисков: помимо бинарных меток «безопасный/опасный», уровень «спорный» поддерживает регулируемую строгость (ужесточение/смягчение) в зависимости от наборов данных и политик. Это полезно, когда «пограничный» контент необходимо перенаправить или усилить, а не просто отбросить.

Структурированные выходные данные для Gen: генеративный вариант выдаёт стандартный заголовок — «Безопасность: …», «Категории: …», «Отказ: …» — который легко анализировать для конвейеров и функций вознаграждения RL. Категории включают: насилие, незаконные действия, сексуальный контент, личные данные, самоубийства и членовредительство, неэтичные действия, политически чувствительные темы, нарушение авторских прав, обход системы.

Бенчмарки и безопасность RL

Исследовательская группа Qwen демонстрирует передовые средние показатели F1 по английскому, китайскому и мультиязычным бенчмаркам безопасности как для классификации запросов, так и для классификации ответов. Данные представлены для Qwen3Guard-Gen по сравнению с предыдущими открытыми моделями.

Для обучения вспомогательных программ исследовательская группа тестирует RL, управляемый безопасностью, используя Qwen3Guard-Gen в качестве сигнала вознаграждения. Вознаграждение только для Guard максимизирует безопасность, но приводит к увеличению отказов и незначительному снижению рейтинга побед в arena-hard-v2. Гибридное вознаграждение (наказание за чрезмерные отказы, смешение качественных сигналов) поднимает показатель безопасности, измеренный WildGuard, с ~60 до >97, не ухудшая выполнение задач по рассуждению и даже повышая рейтинг arena-hard-v2.

Где это применяется?

Большинство открытых моделей-ограничителей классифицируют только завершённые выходные данные. Двойные головки Qwen3Guard + оценка токенов в реальном времени соответствуют производственным агентам, которые транслируют ответы, обеспечивая раннее вмешательство (блокировка, редактирование или перенаправление) с более низкой задержкой, чем при повторном декодировании. Уровень «спорный» также легко сопоставляется с элементами корпоративной политики (например, рассматривать «спорный» как опасный в регулируемых контекстах, но разрешать с проверкой в потребительском чате).

Резюме

Qwen3Guard — это практичный стек ограничителей: открытые веса (0,6B/4B/8B), два режима работы (полный контекст Gen, токен-тайм Stream), трёхуровневая маркировка рисков и мультиязычный охват (119 языков). Для производственных команд это надёжный базовый уровень для замены фильтров постфактум модерацией в реальном времени и для согласования помощников с вознаграждениями за безопасность при мониторинге показателей отказов.

Ознакомьтесь с [статьёй](https://github.com/QwenLM/Qwen3Guard), [страницей на GitHub](https://github.com/QwenLM/Qwen3Guard) и [полной коллекцией на HF](https://github.com/QwenLM/Qwen3Guard). Не стесняйтесь посетить нашу [страницу на GitHub](https://github.com/QwenLM/Qwen3Guard), чтобы ознакомиться с учебными пособиями, кодами и ноутбуками. Также подписывайтесь на нас в [Twitter](https://github.com/QwenLM/Qwen3Guard) и присоединяйтесь к нашему [ML SubReddit](https://github.com/QwenLM/Qwen3Guard) с более чем 100 тысячами участников и подписывайтесь на [наш Newsletter](https://github.com/QwenLM/Qwen3Guard).

1. Какие основные функции и особенности имеет модель Qwen3Guard?

Модель Qwen3Guard имеет несколько основных функций и особенностей:
* представлена в двух вариантах: Qwen3Guard-Gen (генеративный классификатор, который читает полный контекст запроса/ответа) и Qwen3Guard-Stream (классификатор на уровне токенов, который модерирует по мере генерации текста);
* выпущена в размерах параметров 0,6B, 4B и 8B;
* нацелена на глобальное развёртывание с охватом 119 языков и диалектов;
* имеет потоковую модерацию с двумя лёгкими классификационными головками — одна отслеживает запрос пользователя, другая оценивает каждый сгенерированный токен в реальном времени как «безопасный», «спорный» или «опасный»;
* использует трёхуровневую семантику рисков с регулируемой строгостью в зависимости от наборов данных и политик;
* выдаёт структурированные выходные данные для Gen с категориями, включающими насилие, незаконные действия, сексуальный контент и другие.

2. Какие преимущества предоставляет использование Qwen3Guard в производственных системах?

Использование Qwen3Guard в производственных системах предоставляет несколько преимуществ:
* раннее вмешательство с более низкой задержкой, чем при повторном декодировании;
* возможность блокировки, редактирования или перенаправления спорных ответов;
* соответствие элементам корпоративной политики;
* надёжный базовый уровень для замены фильтров постфактум модерацией в реальном времени;
* согласование помощников с вознаграждениями за безопасность при мониторинге показателей отказов.

3. Какие языки поддерживает Qwen3Guard?

Qwen3Guard поддерживает 119 языков и диалектов.

4. Какие категории рисков включены в систему Qwen3Guard?

В систему Qwen3Guard включены следующие категории рисков:
* насилие;
* незаконные действия;
* сексуальный контент;
* личные данные;
* самоубийства и членовредительство;
* неэтичные действия;
* политически чувствительные темы;
* нарушение авторских прав;
* обход системы.

5. Какие показатели демонстрируют исследовательская группа Qwen при использовании Qwen3Guard-Gen в RL, управляемом безопасностью?

Исследовательская группа Qwen демонстрирует передовые средние показатели F1 по английскому, китайскому и мультиязычным бенчмаркам безопасности как для классификации запросов, так и для классификации ответов при использовании Qwen3Guard-Gen в RL, управляемом безопасностью. Гибридное вознаграждение поднимает показатель безопасности, измеренный WildGuard, с ~60 до >97, не ухудшая выполнение задач по рассуждению и даже повышая рейтинг arena-hard-v2.

Источник