Google AI представляет обучение согласованности для повышения безопасности языковых моделей при подхалимских и джейлбрейк-стиле запросов

Как обучение согласованности помогает языковым моделям противостоять подхалимским запросам и атакам в стиле джейлбрейк, сохраняя при этом свои возможности?

Большие языковые модели часто безопасно отвечают на простые запросы, но меняют поведение, когда та же задача оформлена с помощью лести или ролевой игры. Исследователи из DeepMind предлагают последовательное обучение в качестве простого инструмента для решения этой проблемы. Они рассматривают её как проблему инвариантности и обеспечивают одинаковое поведение при изменении нерелевантного текста запроса.

Исследовательская группа изучает два конкретных метода:
* Обучение согласованности с учётом смещения (Bias augmented Consistency Training, BCT) — на уровне токенов.
* Обучение согласованности на уровне активаций (Activation Consistency Training, ACT).

Они оценивают их на моделях Gemma 2, Gemma 3 и Gemini 2.5 Flash.

Понимание подхода

Обучение согласованности является самоконтролируемым. Модель контролирует себя, предоставляя цели из своих собственных ответов на чистые запросы, а затем учится вести себя одинаково при изменении запросов с добавлением сигналов лести или джейлбрейк-обёрток. Это позволяет избежать двух режимов сбоев статического контролируемого уточнения: устаревания спецификаций при изменении политик и устаревания возможностей, когда цели исходят от более слабых моделей.

Два пути обучения:

* BCT, согласованность на уровне токенов: генерируется ответ на чистый запрос с текущей контрольной точкой, затем проводится тонкая настройка, чтобы при изменении запроса выдавались те же токены. Это стандартное контролируемое уточнение с перекрёстной энтропией, с ограничением, что цели всегда генерируются одной и той же моделью, которая обновляется.
* ACT, согласованность на уровне активаций: применяется L2-потеря между активациями остаточного потока при изменении запроса и остановкой градиентной копии активаций из чистого запроса. Потеря применяется к токенам запроса, а не к ответам. Это позволяет сделать внутреннее состояние непосредственно перед генерацией соответствующим чистому запуску.

Перед обучением исследовательская группа демонстрирует активационное исправление во время вывода, заменяя активации чистого запроса на обёрнутый. На Gemma 2 2B активационное исправление увеличивает «не подхалимский» показатель с 49% до 86%, когда исправляются все слои и токены запроса.

Настройка и базовые показатели

Модели включают Gemma-2 2B и 27B, Gemma-3 4B и 27B, а также Gemini-2.5 Flash.

Данные для подхалимства: тренировочные пары создаются путём дополнения ARC, OpenBookQA и BigBench Hard с предпочтительными ответами пользователей. Оценка использует MMLU как для измерения подхалимства, так и для измерения возможностей. Устаревший базовый показатель SFT использует цели, сгенерированные GPT 3.5 Turbo, для проверки устаревания возможностей.

Данные для джейлбрейка: тренировочные пары создаются из вредных инструкций HarmBench, затем оформляются с помощью ролевой игры и других джейлбрейк-преобразований. Набор сохраняет только случаи, когда модель отказывается от чистой инструкции и выполняет обёрнутую инструкцию, что даёт от 830 до 1330 примеров в зависимости от тенденции отказа. Оценка использует ClearHarm и аннотированный человеком джейлбрейк-сплит в WildGuardTest для определения коэффициента успешности атак, а также XSTest плюс WildJailbreak для изучения доброкачественных запросов, которые выглядят вредными.

Базовые показатели включают прямую оптимизацию предпочтений и устаревшее SFT-аблацию, которая использует ответы более старых моделей из того же семейства.

Понимание результатов

Подхалимство: BCT и ACT снижают подхалимство, сохраняя при этом возможности модели. На разных моделях устаревший SFT строго хуже BCT по комбинированному показателю «не подхалимский» и MMLU.

Устойчивость к джейлбрейку: все вмешательства повышают безопасность по сравнению с контролем. На Gemini 2.5 Flash BCT снижает коэффициент успешности атак ClearHarm с 67,8% до 2,9%. ACT также снижает успех джейлбрейка, но сохраняет уровень доброкачественных ответов больше, чем BCT.

Механистические различия

BCT и ACT по-разному перемещают параметры. При BCT расстояние активации между чистыми и обёрнутыми представлениями увеличивается во время обучения. При ACT перекрёстная энтропия по ответам существенно не падает, в то время как активационная потеря падает. Это расхождение подтверждает утверждение о том, что согласованность на уровне поведения и активации оптимизируют разные внутренние решения.

Ключевые выводы

* Обучение согласованности рассматривает подхалимство и джейлбрейки как проблемы инвариантности: модель должна вести себя одинаково при изменении нерелевантного текста запроса.
* Обучение согласованности с учётом смещения выравнивает выходные данные токенов на обёрнутых запросах с ответами на чистые запросы, используя самогенерируемые цели, что позволяет избежать устаревания спецификаций и возможностей из старых наборов данных безопасности или более слабых моделей-учителей.
* Обучение согласованности на уровне активаций выравнивает активации остаточного потока между чистыми и обёрнутыми запросами по токенам запроса, основываясь на исправлении активаций, и повышает устойчивость, едва изменяя стандартные контролируемые потери.

На моделях семейств Gemma и Gemini оба метода снижают подхалимство, не снижая точности по бенчмарку, и превосходят устаревшее контролируемое уточнение, которое опирается на ответы моделей более ранних поколений.

Для джейлбрейков обучение согласованности снижает успех атак, сохраняя при этом множество доброкачественных ответов. Исследовательская группа утверждает, что конвейеры выравнивания должны подчёркивать согласованность при преобразованиях запросов так же, как и правильность запросов.

Редакционные комментарии

Обучение согласованности — это практическое дополнение к текущим конвейерам выравнивания, поскольку оно напрямую решает проблемы устаревания спецификаций и устаревания возможностей, используя самогенерируемые цели из текущей модели. Обучение согласованности с учётом смещения обеспечивает значительные улучшения в борьбе с подхалимством и джейлбрейками, в то время как обучение согласованности на уровне активаций предлагает регуляризатор с низким воздействием на остаточный поток активаций, который сохраняет полезность. Вместе они формируют выравнивание как согласованность при преобразованиях запросов, а не только правильность по запросу. В целом, эта работа делает согласованность основным сигналом обучения для обеспечения безопасности.

1. Какие методы обучения согласованности предлагаются для повышения безопасности языковых моделей?

В статье рассматриваются два метода обучения согласованности:
* Обучение согласованности с учётом смещения (Bias augmented Consistency Training, BCT) — на уровне токенов.
* Обучение согласованности на уровне активаций (Activation Consistency Training, ACT).

2. Как обучение согласованности помогает языковым моделям противостоять подхалимским запросам и атакам в стиле джейлбрейк?

Обучение согласованности позволяет моделям вести себя одинаково при изменении нерелевантного текста запроса. Это достигается за счёт того, что модель контролирует себя, предоставляя цели из своих собственных ответов на чистые запросы, а затем учится вести себя одинаково при изменении запросов с добавлением сигналов лести или джейлбрейк-обёрток.

3. Какие результаты были получены при использовании методов обучения согласованности на моделях Gemma и Gemini?

На моделях семейств Gemma и Gemini оба метода (BCT и ACT) снижают подхалимство, не снижая точности по бенчмарку, и превосходят устаревшее контролируемое уточнение, которое опирается на ответы моделей более ранних поколений. Для джейлбрейков обучение согласованности снижает успех атак, сохраняя при этом множество доброкачественных ответов.

4. В чём заключается преимущество обучения согласованности на уровне активаций (ACT) по сравнению с обучением согласованности с учётом смещения (BCT)?

При ACT перекрёстная энтропия по ответам существенно не падает, в то время как активационная потеря падает. Это подтверждает, что согласованность на уровне поведения и активации оптимизируют разные внутренние решения. Кроме того, ACT предлагает регуляризатор с низким воздействием на остаточный поток активаций, который сохраняет полезность модели.

5. Какие выводы можно сделать из статьи о применении обучения согласованности для повышения безопасности языковых моделей?

Ключевые выводы из статьи:
* Обучение согласованности рассматривает подхалимство и джейлбрейки как проблемы инвариантности: модель должна вести себя одинаково при изменении нерелевантного текста запроса.
* Обучение согласованности с учётом смещения выравнивает выходные данные токенов на обёрнутых запросах с ответами на чистые запросы, используя самогенерируемые цели, что позволяет избежать устаревания спецификаций и возможностей из старых наборов данных безопасности или более слабых моделей-учителей.
* Обучение согласованности на уровне активаций выравнивает активации остаточного потока между чистыми и обёрнутыми запросами по токенам запроса, основываясь на исправлении активаций, и повышает устойчивость, едва изменяя стандартные контролируемые потери.
* Вместе BCT и ACT формируют выравнивание как согласованность при преобразованиях запросов, а не только правильность по запросу. В целом, эта работа делает согласованность основным сигналом обучения для обеспечения безопасности.

Источник