Crome: система от Google DeepMind для надёжного моделирования вознаграждений в согласовании больших языковых моделей

Модели вознаграждений — фундаментальные компоненты для согласования больших языковых моделей (LLM) с обратной связью от человека. Однако они сталкиваются с проблемой манипулирования вознаграждением (reward hacking). Эти модели фокусируются на поверхностных атрибутах, таких как длина ответа или форматирование, вместо выявления истинных показателей качества, таких как достоверность и релевантность.

Проблема возникает из-за того, что стандартные цели обучения не позволяют отличить ложные корреляции, присутствующие в обучающих данных, от истинных причинно-следственных факторов качества ответа. Неспособность разделить эти факторы приводит к хрупким моделям вознаграждений (RM), которые генерируют несогласованные политики.

Кроме того, необходим метод, который использует причинно-следственное понимание формирования предпочтений для обучения RM, чувствительных к причинно-следственным качествам и невосприимчивых к различным ложным сигналам.

Ограничения существующих подходов к RM и необходимость устойчивости к причинно-следственным связям

Существующие методы пытаются решить проблемы манипулирования вознаграждением в стандартных системах RLHF, которые полагаются на методы Брэдли-Терри или попарного ранжирования. Это включает в себя архитектурные модификации, такие как Odin, корректировки на уровне политики и методы, ориентированные на данные, включая ансамбли или проверки согласованности.

Недавние методы, вдохновлённые причинно-следственными связями, используют регуляризацию MMD против предварительно заданных ложных факторов или оценивают причинно-следственные эффекты посредством исправленных переформулировок. Однако эти методы нацелены только на заранее определённые ложные факторы, упуская неизвестные корреляты. Стратегии аугментации остаются грубыми, а методы, ориентированные на оценку, не позволяют оснастить модели вознаграждений надёжными механизмами обучения против разнообразных ложных вариаций.

Введение в Crome: причинно-следственное моделирование вознаграждений для LLM

Исследователи из Google DeepMind, Университета Макгилла и MILA — Квебекского института искусственного интеллекта предложили Crome (Causally Robust Reward Modeling), систему, основанную на явной причинной модели генерации ответов.

Crome обучает RM различать истинные факторы качества и поверхностные сигналы, добавляя наборы данных о предпочтениях с целевыми контрфактическими примерами, сгенерированными LLM. Кроме того, он создаёт два типа синтетических обучающих пар:

* Причинные дополнения, которые вносят изменения по конкретным причинным атрибутам, таким как достоверность, чтобы обеспечить чувствительность к истинным изменениям качества.
* Нейтральные дополнения, которые обеспечивают инвариантность по ложным атрибутам, таким как стиль, с помощью tie-labels.

Crome повышает надёжность, повышая точность RewardBench до 4,5%, повышая безопасность и обоснованность.

Технический подход: контрфактическая аугментация и оптимизация составных потерь

Crome работает в два этапа:

1. Генерация данных, учитывающих атрибуты, на основе причинной модели.
2. Обучение модели вознаграждения со специализированными потерями на комбинированных данных.

Он обеспечивает теоретический анализ того, как причинная аугментация изолирует истинные факторы вознаграждения от ложных коррелятов в рамках идеализированной модели.

Crome использует набор данных UltraFeedback с контрфактическими данными, сгенерированными с помощью Gemini 2.0 Flash, и оценивает производительность на RewardBench и reWordBench. Исследователи используют в своих экспериментах разнообразные базовые LLM, включая Gemma-2-9B-IT, Qwen2.5-7B и Gemma-2-2B, как для моделей парных предпочтений, так и для моделей вознаграждений Брэдли-Терри.

Повышение производительности: от RewardBench до WildGuardTest

На RewardBench Crome достигает улучшения точности ранжирования по сравнению с RRM для различных базовых моделей со значительными достижениями в категориях безопасности (до 13,18%) и обоснования (до 7,19%).

Crome демонстрирует совокупный прирост точности до 9,1% на reWordBench с Gemma-2-9B-IT в настройках PairPM и превосходную производительность в 21 из 23 преобразований. Кроме того, он демонстрирует меньшее снижение точности ранжирования от RewardBench до reWordBench по сравнению с RRM (19,78% против 21,54%).

Crome демонстрирует отличные улучшения безопасности на WildGuardTest с выбором Best-of-N, достигая более низких показателей успешности атак на вредные подсказки, сохраняя при этом аналогичные показатели отказов на доброкачественных подсказках.

Заключение и будущие направления в аугментации данных

В заключение исследователи представили Crome — систему, которая решает проблемы манипулирования вознаграждением во время обучения RM. Он использует две целевые стратегии синтетического дополнения данных: причинные дополнения и нейтральные дополнения.

Crome превосходит сильные базовые показатели для нескольких базовых моделей и методов моделирования вознаграждений на RewardBench и демонстрирует более высокую надёжность на reWordBench в отношении ложных корреляций.

Этот метод, ориентированный на кураторство наборов данных (например, Crome), открывает новые направления исследований в области генерации синтетических данных для обучения базовых моделей, где проверка причинных атрибутов может оказаться весьма полезной для будущих разработок в области надёжного согласования языковых моделей.

1. Какие проблемы существуют в традиционных моделях вознаграждений для больших языковых моделей (LLM) и как они влияют на качество их работы?

В традиционных моделях вознаграждений для LLM существует проблема манипулирования вознаграждением (reward hacking). Они фокусируются на поверхностных атрибутах, таких как длина ответа или форматирование, вместо выявления истинных показателей качества, таких как достоверность и релевантность. Это приводит к хрупким моделям вознаграждений, которые генерируют несогласованные политики.

2. Какие методы используются для решения проблемы манипулирования вознаграждением в стандартных системах RLHF и какие у них ограничения?

Для решения проблемы манипулирования вознаграждением в стандартных системах RLHF используются архитектурные модификации, такие как Odin, корректировки на уровне политики и методы, ориентированные на данные, включая ансамбли или проверки согласованности. Однако эти методы нацелены только на заранее определённые ложные факторы, упуская неизвестные корреляты.

3. Как система Crome от Google DeepMind решает проблему манипулирования вознаграждением и какие преимущества она предлагает по сравнению с существующими методами?

Crome от Google DeepMind решает проблему манипулирования вознаграждением путём обучения моделей вознаграждений различать истинные факторы качества и поверхностные сигналы. Для этого Crome использует наборы данных о предпочтениях с целевыми контрфактическими примерами, сгенерированными LLM. Кроме того, Crome создаёт два типа синтетических обучающих пар: причинные дополнения и нейтральные дополнения. Это позволяет повысить надёжность и точность моделей вознаграждений.

4. Какие этапы включает в себя работа системы Crome и какие данные она использует для обучения моделей вознаграждений?

Работа системы Crome включает в себя два этапа: генерацию данных, учитывающих атрибуты, на основе причинной модели, и обучение модели вознаграждения со специализированными потерями на комбинированных данных. Crome использует набор данных UltraFeedback с контрфактическими данными, сгенерированными с помощью Gemini 2.0 Flash.

5. Какие результаты демонстрирует Crome на различных бенчмарках и как они подтверждают его эффективность?

На RewardBench Crome достигает улучшения точности ранжирования по сравнению с RRM для различных базовых моделей. Кроме того, Crome демонстрирует совокупный прирост точности до 9,1% на reWordBench с Gemma-2-9B-IT в настройках PairPM и превосходную производительность в 21 из 23 преобразований. Это подтверждает эффективность Crome в решении проблемы манипулирования вознаграждением и повышении надёжности моделей вознаграждений.

Источник

Оставьте комментарий