Rubrics as Rewards (RaR): система подкрепляющего обучения для тренировки языковых моделей с помощью структурированных мультикритериальных оценочных сигналов

Reinforcement Learning with Verifiable Rewards (RLVR) позволяет языковым моделям (LLMs) решать сложные задачи, где есть чёткие и проверяемые результаты, например, в математике и программировании. Однако во многих реальных сценариях таких явных проверяемых ответов нет, что затрудняет обучение моделей без прямых сигналов вознаграждения.

Существующие методы

Текущие методы решают эту проблему с помощью RLHF через ранжирование предпочтений, где собираются человеческие оценки по парам или спискам выходных данных модели. Более того, модели вознаграждения на основе предпочтений могут повысить производительность на ранних этапах, но они склонны к переобучению на поверхностных артефактах, таких как длина ответа, особенности форматирования и предвзятость аннотаторов. Эти модели требуют больших объёмов попарных сравнений, что делает их хрупкими и дорогостоящими.

Расширение методов RLVR

Методы RLVR теперь выходят за рамки математики и программирования, причём GENERAL-REASONER демонстрирует высокую производительность в физике, финансах и политике, достигая прироста в 10 баллов по MMLU-Pro через тонкую настройку GRPO.

Оценочные критерии стали стандартом для продвинутых LLMs, например, HEALTHBENCH объединяет критерии, написанные врачами, с автоматизированными судьями для оценки фактической достоверности, безопасности и эмпатии. Однако эти критерии появляются только на этапах оценки, а не обучения.

Методы контроля процесса пытаются обеспечить более детальную обратную связь, вознаграждая промежуточные этапы рассуждений с помощью меток, сгенерированных MCTS, и генеративных моделей вознаграждения, таких как THINKPRM.

Rubrics as Rewards (RaR)

Исследователи из Scale AI предложили Rubrics as Rewards (RaR) — систему подкрепляющего обучения, которая использует контрольные списки для руководства многокритериальными задачами. Метод генерирует контрольные списки, специфичные для запросов, на основе тщательно разработанных принципов, где каждый контрольный список определяет чёткие стандарты для высококачественных ответов и предоставляет интерпретируемые человеком сигналы управления.

Метод применяется в медицине и науке, в результате чего были созданы два специализированных обучающих набора данных: RaR-Medicine-20k и RaR-Science-20k. RaR позволяет меньшим моделям-судьям достичь лучшего согласования с человеческими предпочтениями, преобразуя контрольные списки в структурированные сигналы вознаграждения, сохраняя при этом стабильную производительность для разных масштабов моделей.

Для каждого домена специализированные запросы инструктируют LLM генерировать 7–20 пунктов контрольного списка на основе сложности входного вопроса. Каждому пункту присваиваются категориальные веса, такие как «Основные критерии» или «Важные критерии», чтобы определить его значимость для правильных ответов.

Обучение использует алгоритм GRPO с Qwen2.5-7B в качестве базовой модели политики. Учебный конвейер состоит из трёх основных компонентов: генерация ответов, вычисление вознаграждения и обновление политики.

Метод RaR-Implicit превосходит базовые методы, такие как Simple-Likert, причём лучший вариант достигает до 28% относительного улучшения на HealthBench-1k и 13% на GPQA. Он также превосходит базовые модели политики и модели, настроенные по инструкциям, демонстрируя эффективность обучения с помощью рубрик для детальной оценки ответов, при этом соответствуя или превосходя базовые показатели Reference-Likert.

Помимо сырых метрик, оценки с помощью рубрик обеспечивают более чёткие и точные сигналы для разных масштабов моделей, достигая более высокой точности, когда предпочтительные ответы получают соответствующие оценки. Более того, экспертные рекомендации оказываются важными для генерации синтетических рубрик, причём рубрики, разработанные с использованием эталонных ответов, достигают более высокой точности, чем те, которые не учитывают человеческий опыт.

В заключение, исследователи представили RaR, который продвигает пост-обучение языковых моделей, используя структурированные контрольные списки в качестве сигналов вознаграждения. Это обеспечивает стабильные сигналы обучения, сохраняя при этом интерпретируемость человеком и согласованность. Однако это исследование ограничено медицинскими и научными областями и требует проверки на таких задачах, как открытый диалог. Исследователи изучили только две стратегии агрегирования вознаграждений, неявную и явную, оставив альтернативные схемы взвешивания. Кроме того, они не проводили контролируемый анализ рисков взлома системы вознаграждений.

1. Какие проблемы существующих методов RLHF (Reinforcement Learning from Human Feedback) описаны в статье?

В статье указано, что существующие методы RLHF через ранжирование предпочтений сталкиваются с проблемой переобучения на поверхностных артефактах, таких как длина ответа, особенности форматирования и предвзятость аннотаторов. Кроме того, эти методы требуют больших объёмов попарных сравнений, что делает их хрупкими и дорогостоящими.

2. В чём заключается инновационность подхода Rubrics as Rewards (RaR)?

Исследователи из Scale AI предложили Rubrics as Rewards (RaR) — систему подкрепляющего обучения, которая использует контрольные списки для руководства многокритериальными задачами. Метод генерирует контрольные списки, специфичные для запросов, на основе тщательно разработанных принципов, где каждый контрольный список определяет чёткие стандарты для высококачественных ответов и предоставляет интерпретируемые человеком сигналы управления.

3. Какие специализированные обучающие наборы данных были созданы для применения метода RaR?

В медицине и науке были созданы два специализированных обучающих набора данных: RaR-Medicine-20k и RaR-Science-20k.

4. Какие результаты показал метод RaR-Implicit по сравнению с базовыми методами?

Метод RaR-Implicit превосходит базовые методы, такие как Simple-Likert, причём лучший вариант достигает до 28% относительного улучшения на HealthBench-1k и 13% на GPQA. Он также превосходит базовые модели политики и модели, настроенные по инструкциям, демонстрируя эффективность обучения с помощью рубрик для детальной оценки ответов.

5. Какие ограничения и направления для будущих исследований указаны в статье?

Исследование ограничено медицинскими и научными областями и требует проверки на таких задачах, как открытый диалог. Исследователи изучили только две стратегии агрегирования вознаграждений, неявную и явную, оставив альтернативные схемы взвешивания. Кроме того, они не проводили контролируемый анализ рисков взлома системы вознаграждений.

Источник