大模型真能推理评判？微软清华提出奖励推理模型，动态调整测试计算资源提升对齐效果

🧠 Обучение с подкреплением (RL) стало ключевым подходом в посттренинге больших языковых моделей (LLM), используя сигналы от человеческой обратной связи (RLHF) или проверяемых наград (RLVR). Хотя RLVR демонстрирует потенциал в математических задачах, он сталкивается с ограничениями из-за зависимости от запросов с проверяемыми ответами. Это сужает его применение в общих доменах, где верификация сложна. Кроме того, текущие модели наград (скалярные и генеративные) не гибко распределяют вычислительные ресурсы для оценки сложных запросов. 🛠️

📊 Современные подходы используют одинаковые ресурсы для всех входных данных, не адаптируясь к сложности. Генеративные модели, работающие в парадигме «LLM-как-судья», дают интерпретируемую обратную связь, но страдают от смещённых оценок. Методы масштабирования на этапе вывода (например, мультисэмплинг) также не адаптивны.

🌟 Решение: Учёные из Microsoft, Цинхуа и Пекинского университетов предложили Модели с Обоснованием Наград (RRM). Они проводят явные рассуждения перед оценкой, динамически выделяя ресурсы для сложных запросов. RRM используют цепочку мыслей (chain-of-thought), чтобы «продумать» оценку, эволюционируя без явных примеров рассуждений в данных. ⚡

🔧 Архитектура: RRM основаны на Qwen2 (трансформер-декодер), моделируя оценку как текстовое завершение. Входные данные содержат запрос и два ответа для сравнения (без ничьих). Тестирование проводится на RewardBench, оценивая точность, безопасность, детализацию и др. Для многокритериальной оценки используются системы ELO и турниры с мажоритарным голосованием.

📈 Результаты:

RRM-32B достиг 98,6% точности в категориях, требующих рассуждений.

В сравнении с DirectJudge наблюдается значительный разрыв, подтверждающий эффективность RRM.

Масштабирование модели (7B → 32B) и увеличение «глубины размышлений» улучшают точность.

Посттренинг RRM показал рост качества на бенчмарках MMLU-Pro и GPQA.

🚀 Итог: RRM преодолевают недостатки традиционных моделей, гибко распределяя ресурсы и используя явные рассуждения. Метод открывает новые возможности для выравнивания LLM через RL с правилами наград и параллельное масштабирование.

✉️ Ссылки: Исследование доступно на [Hugging Face](https://huggingface.co/).
Весь кредит — авторам работы. Подписывайтесь на наши соцсети!

[Оригинал статьи](https://marktechpost.com) 🔗

#ИИ #Нейросети #МашинноеОбучение #Microsoft #Исследования

Источник

Оставьте комментарий Отменить ответ