Можно ли доверять моделям вознаграждения LLM? Master-RM выявляет и устраняет их слабые места

Генеративные модели вознаграждения, в которых большие языковые модели (LLM) выступают в роли оценщиков, набирают популярность в обучении с подкреплением с проверяемыми вознаграждениями (RLVR). Эти модели предпочтительнее систем, основанных на правилах, для задач, связанных с открытыми или сложными ответами. Вместо того чтобы полагаться на строгие правила, LLM сравнивают ответ кандидата с эталонным ответом и генерируют бинарную обратную связь. Однако, несмотря на то что они хорошо согласуются с человеческими оценками, эти модели удивительно восприимчивы к поверхностным сигналам, таким как пунктуация или шаблонные фразы (например, «Let’s solve this step by step»), которые могут давать ложноположительные сигналы.

Проблема поверхностных манипуляций

LLM, используемые в качестве судей в RLVR, могут быть обмануты путём вставки тривиальных сигналов, имитирующих модели рассуждения. Исследователи из Tencent AI Lab, Принстонского университета и Университета Вирджинии обнаружили, что даже неинформативные ответы, такие как слово «Solution» или знаки препинания, могут вызывать положительные оценки. Это создаёт серьёзный риск для алгоритмов, таких как оптимизация предпочтений и выборка с отклонением, где точные сигналы вознаграждения имеют решающее значение. Проблема носит системный характер, затрагивая как проприетарные (например, GPT-4o, Claude-4), так и открытые модели (например, LLaMA3, Qwen2.5).

Введение в Master-RM: надёжная модель вознаграждения

Чтобы противостоять этим уязвимостям, исследовательская группа разработала Master-RM — новую модель вознаграждения, обученную на расширенном наборе данных, содержащем 20 000 состязательных ответов. Эти ответы включают общие рассуждения и бессмысленные утверждения, помеченные как недействительные. Благодаря тонкой настройке на этом обогащённом наборе данных Master-RM значительно снизила уровень ложноположительных результатов по таким бенчмаркам, как GSM8K, MATH и NaturalReasoning. Она последовательно превосходила как общецелевые, так и специализированные модели вознаграждения, достигая почти нулевой частоты ошибок даже в состязательных условиях.

Ключевые выводы

* Системная уязвимость. Все оценённые модели, включая GPT-4o и LLaMA3, показали повышенные ложноположительные результаты при воздействии «мастер-ключевых» взломов.
* Масштабирование модели. Меньшие модели буквально сопоставляли шаблоны токенов; модели среднего размера допускали семантические ошибки; более крупные модели обобщали чрезмерно.
* Аугментация данных работает. Обучение на наборе данных, состоящем из допустимых и манипулируемых ответов, значительно повышает надёжность без ущерба для точности.

Тестирование модели

Master-RM была проверена на пяти различных тестах на рассуждение. По сравнению с такими моделями, как Omni-Judge и Multi-sub RM, она сохраняла превосходную согласованность с золотыми стандартами, такими как GPT-4o, при минимальном количестве ложноположительных результатов. Даже при оценке с использованием состязательных вариантов на разных языках и в различных предметных областях Master-RM сохраняла свою надёжность.

Заключение

Это исследование выявляет критическую слабость в использовании LLM в качестве судей в системах RLVR. Простые поверхностные шаблоны могут нарушить процесс обучения, вводя в заблуждение функцию вознаграждения. Master-RM предлагает действенную защиту, демонстрируя, что целенаправленная аугментация данных может повысить устойчивость моделей вознаграждения к манипуляциям. Модель и набор данных для её обучения теперь доступны через Hugging Face, открывая путь к более надёжной оценке на основе LLM в обучении с подкреплением.

Часто задаваемые вопросы (FAQ)

Q1: Что такое «мастер-ключевые» взломы в моделях вознаграждения на основе LLM?

«Мастер-ключевые» взломы — это поверхностные текстовые сигналы, такие как пунктуация или шаблонные фразы для рассуждений, которые могут вызывать ложноположительные суждения в LLM, используемых в качестве оценщиков в системах RLVR.

Q2: Как Master-RM повышает надёжность по сравнению с существующими моделями?

A2: Master-RM обучена на специально подобранном наборе состязательных примеров, помеченных как недействительные. Такая аугментация данных снижает восприимчивость к поверхностным манипуляциям, сохраняя при этом согласованность с высокопроизводительными моделями, такими как GPT-4o.

Q3: Где я могу получить доступ к Master-RM и её обучающим данным?

A3: И модель, и набор данных находятся в открытом доступе на Hugging Face по адресам: [Master-RM Model](https://huggingface.co/models) и [Master-RM Dataset](https://huggingface.co/datasets).

1. Какие проблемы существуют в использовании больших языковых моделей (LLM) в качестве оценщиков в системах RLVR?

В использовании LLM в качестве оценщиков в системах RLVR существует проблема восприимчивости к поверхностным сигналам, таким как пунктуация или шаблонные фразы. Эти сигналы могут давать ложноположительные оценки, вводя в заблуждение функцию вознаграждения.

2. Как Master-RM решает проблему уязвимости LLM к поверхностным манипуляциям?

Master-RM решает проблему уязвимости LLM путём обучения на расширенном наборе данных, содержащем 20 000 состязательных ответов. Эти ответы включают общие рассуждения и бессмысленные утверждения, помеченные как недействительные. Благодаря тонкой настройке на этом обогащённом наборе данных Master-RM значительно снизила уровень ложноположительных результатов.

3. Какие выводы можно сделать из исследования о масштабировании моделей LLM?

Исследование показало, что меньшие модели сопоставляют шаблоны токенов, модели среднего размера допускают семантические ошибки, а более крупные модели обобщают чрезмерно. Это подчёркивает необходимость тщательного подбора и настройки моделей в зависимости от их размера и задач.

4. Как аугментация данных влияет на надёжность моделей вознаграждения?

Аугментация данных, то есть обучение на наборе данных, состоящем из допустимых и манипулируемых ответов, значительно повышает надёжность моделей вознаграждения без ущерба для точности. Это позволяет моделям лучше распознавать и игнорировать поверхностные манипуляции.

5. Какие преимущества предлагает Master-RM по сравнению с другими моделями вознаграждения?

Master-RM предлагает несколько преимуществ по сравнению с другими моделями вознаграждения. Она сохраняет превосходную согласованность с золотыми стандартами, такими как GPT-4o, при минимальном количестве ложноположительных результатов. Даже при оценке с использованием состязательных вариантов на разных языках и в различных предметных областях Master-RM сохраняет свою надёжность.

Источник

Оставьте комментарий