Компания OpenAI выпустила исследовательский предварительный просмотр двух моделей для рассуждений о безопасности с открытым весом — gpt-oss-safeguard. Они позволяют разработчикам применять индивидуальные политики безопасности во время вывода.
Модели представлены в двух размерах:
* gpt-oss-safeguard-120b;
* gpt-oss-safeguard-20b.
Обе модели основаны на gpt-oss, лицензированы по Apache 2.0 и доступны на Hugging Face для локального использования.
Почему важна политика, обусловленная безопасностью?
Традиционные модели модерации обучаются на единой фиксированной политике. Когда политика меняется, модель необходимо переобучать или заменять. gpt-oss-safeguard меняет эту схему. Он принимает созданную разработчиком политику вместе с пользовательским контентом, затем поэтапно анализирует, нарушает ли контент политику. Это превращает обеспечение безопасности в задачу быстрого реагирования, которая лучше подходит для быстро меняющихся или специфичных для домена угроз, таких как мошенничество, биология, самоповреждение или злоупотребление в играх.
Тот же шаблон, что и у внутреннего механизма безопасности OpenAI
OpenAI утверждает, что gpt-oss-safeguard — это реализация с открытым весом механизма безопасности, используемого внутри таких систем, как GPT-5, ChatGPT Agent и Sora 2.
В производственных условиях OpenAI сначала запускает небольшие фильтры с высоким уровнем возврата, а затем переводит неопределённые или чувствительные элементы к модели рассуждений.
Открытый выпуск позволяет внешним командам воспроизвести эту многоуровневую схему защиты вместо того, чтобы гадать, как работает стек OpenAI.
Размеры моделей и соответствие аппаратному обеспечению
Большая модель, gpt-oss-safeguard-120b, имеет 117 миллиардов параметров с 5,1 миллиарда активных параметров и рассчитана на размещение на одном графическом процессоре класса H100 с 80 ГБ памяти.
Меньшая модель, gpt-oss-safeguard-20b, имеет 21 миллиард параметров с 3,6 миллиарда активных параметров и ориентирована на более низкую задержку или меньшие графические процессоры, включая установки с 16 ГБ.
Обе модели были обучены на формате ответов Harmony, поэтому подсказки должны соответствовать этой структуре, иначе результаты будут ухудшаться. Лицензия — Apache 2.0, такая же, как у родительских моделей gpt-oss, поэтому коммерческое локальное развёртывание разрешено.
Результаты оценки
OpenAI оценила модели на внутренних тестах с несколькими политиками и на общедоступных наборах данных. В точности при работе с несколькими политиками, где модель должна правильно применять несколько политик одновременно, gpt-oss-safeguard и внутренний механизм безопасности OpenAI превосходят gpt-5-thinking и открытые базовые показатели gpt-oss.
На наборе данных для модерации 2022 года новые модели немного превосходят gpt-5-thinking и внутренний механизм безопасности, однако OpenAI уточняет, что этот разрыв статистически незначим. В ToxicChat внутренний механизм безопасности по-прежнему лидирует, а gpt-oss-safeguard идёт следом. Это ставит открытые модели в конкурентный диапазон для реальных задач модерации.
Рекомендуемый шаблон развёртывания
OpenAI прямо заявляет, что чистые рассуждения по каждому запросу — это дорого. Рекомендуется запускать небольшие, быстрые классификаторы с высоким уровнем возврата на весь трафик, затем отправлять только неопределённый или чувствительный контент в gpt-oss-safeguard, а когда пользовательский опыт требует быстрых ответов, запускать рассуждающую модель асинхронно.
Ключевые выводы
* gpt-oss-safeguard — это исследовательский предварительный просмотр двух моделей для рассуждений о безопасности с открытым весом, 120b и 20b, которые классифицируют контент, используя политики, предоставленные разработчиком, во время вывода.
* Модели реализуют тот же шаблон механизма безопасности, который OpenAI использует внутри таких систем, как GPT-5, ChatGPT Agent и Sora 2.
* Обе модели основаны на gpt-oss, поддерживают формат ответов Harmony и рассчитаны на реальное развёртывание.
* На внутренних многополитических оценках и на наборе данных для модерации 2022 года модели-охранники превосходят gpt-5-thinking и базовые показатели gpt-oss, но OpenAI отмечает, что небольшое преимущество перед внутренним механизмом безопасности статистически незначимо.
* OpenAI рекомендует использовать эти модели в многоуровневом конвейере модерации вместе с ресурсами сообщества, такими как ROOST, чтобы платформы могли выражать собственные таксономии, проверять цепочку рассуждений и обновлять политики, не трогая веса.
OpenAI представляет внутренний шаблон безопасности, делая его воспроизводимым, что является наиболее важной частью этого запуска. Модели с открытым весом, обусловленные политикой, и лицензией Apache 2.0 позволяют платформам наконец применять собственные таксономии вместо того, чтобы принимать фиксированные метки.
1. Какие преимущества предлагает модель gpt-oss-safeguard по сравнению с традиционными моделями модерации?
Ответ: gpt-oss-safeguard позволяет разработчикам применять индивидуальные политики безопасности во время вывода, в то время как традиционные модели модерации обучаются на единой фиксированной политике. Это делает обеспечение безопасности более гибким и быстрым в реагировании на быстро меняющиеся или специфичные для домена угрозы.
2. Какие размеры моделей представлены в исследовательском предварительном просмотре gpt-oss-safeguard?
Ответ: в исследовательском предварительном просмотре представлены две модели: gpt-oss-safeguard-120b и gpt-oss-safeguard-20b. Первая модель имеет 117 миллиардов параметров, а вторая — 21 миллиард параметров.
3. Какие параметры и аппаратные требования у моделей gpt-oss-safeguard-120b и gpt-oss-safeguard-20b?
Ответ: gpt-oss-safeguard-120b рассчитана на размещение на одном графическом процессоре класса H100 с 80 ГБ памяти. Модель gpt-oss-safeguard-20b ориентирована на более низкую задержку или меньшие графические процессоры, включая установки с 16 ГБ.
4. На каких данных и с помощью каких методов OpenAI оценивала модели gpt-oss-safeguard?
Ответ: OpenAI оценила модели на внутренних тестах с несколькими политиками и на общедоступных наборах данных. В частности, использовались наборы данных для модерации 2022 года и ToxicChat.
5. Какой шаблон развёртывания рекомендует OpenAI для использования моделей gpt-oss-safeguard?
Ответ: OpenAI рекомендует запускать небольшие, быстрые классификаторы с высоким уровнем возврата на весь трафик, затем отправлять только неопределённый или чувствительный контент в gpt-oss-safeguard. Для ситуаций, когда пользовательский опыт требует быстрых ответов, рекомендуется запускать рассуждающую модель асинхронно.