🧠 Обучение с подкреплением (RL) стало ключевым подходом в посттренинге больших языковых моделей (LLM), используя сигналы от человеческой обратной связи (RLHF) или проверяемых наград (RLVR). Хотя RLVR демонстрирует потенциал в математических задачах, он сталкивается с ограничениями из-за зависимости от запросов с проверяемыми ответами. Это сужает его применение в общих доменах, где верификация сложна. Кроме того, текущие модели наград (скалярные и генеративные) не гибко распределяют вычислительные ресурсы для оценки сложных запросов. 🛠️
📊 Современные подходы используют одинаковые ресурсы для всех входных данных, не адаптируясь к сложности. Генеративные модели, работающие в парадигме «LLM-как-судья», дают интерпретируемую обратную связь, но страдают от смещённых оценок. Методы масштабирования на этапе вывода (например, мультисэмплинг) также не адаптивны.
🌟 Решение: Учёные из Microsoft, Цинхуа и Пекинского университетов предложили Модели с Обоснованием Наград (RRM). Они проводят явные рассуждения перед оценкой, динамически выделяя ресурсы для сложных запросов. RRM используют цепочку мыслей (chain-of-thought), чтобы «продумать» оценку, эволюционируя без явных примеров рассуждений в данных. ⚡
🔧 Архитектура: RRM основаны на Qwen2 (трансформер-декодер), моделируя оценку как текстовое завершение. Входные данные содержат запрос и два ответа для сравнения (без ничьих). Тестирование проводится на RewardBench, оценивая точность, безопасность, детализацию и др. Для многокритериальной оценки используются системы ELO и турниры с мажоритарным голосованием.
📈 Результаты:
- RRM-32B достиг 98,6% точности в категориях, требующих рассуждений.
- В сравнении с DirectJudge наблюдается значительный разрыв, подтверждающий эффективность RRM.
- Масштабирование модели (7B → 32B) и увеличение «глубины размышлений» улучшают точность.
- Посттренинг RRM показал рост качества на бенчмарках MMLU-Pro и GPQA.
🚀 Итог: RRM преодолевают недостатки традиционных моделей, гибко распределяя ресурсы и используя явные рассуждения. Метод открывает новые возможности для выравнивания LLM через RL с правилами наград и параллельное масштабирование.
✉️ Ссылки: Исследование доступно на [Hugging Face](https://huggingface.co/).
Весь кредит — авторам работы. Подписывайтесь на наши соцсети!
[Оригинал статьи](https://marktechpost.com) 🔗
#ИИ #Нейросети #МашинноеОбучение #Microsoft #Исследования