GURU: система подкрепляющего обучения, объединяющая возможности рассуждений LLM в шести областях

Ограничения подкрепляющего обучения в узких областях рассуждений

Подкрепляющее обучение (RL) продемонстрировало большой потенциал для улучшения способностей LLM к рассуждению, особенно в ведущих системах, таких как OpenAI-O3 и DeepSeek-R1. Однако большинство исследований RL сосредоточено на математике и коде, что ограничивает его общую применимость.

Этот узкий охват создаёт две проблемы:
* наше понимание того, как RL улучшает рассуждение, может не распространяться за пределы этих областей;
* получаемым моделям часто не хватает универсальности.

Расширение RL для решения более широких задач рассуждения затруднено из-за отсутствия надёжных сигналов вознаграждения и тщательно отобранных наборов данных, которые проще определить в математических и кодовых терминах, но сложнее в открытых областях рассуждения.

Фокус на узких областях и проблемы обобщения

RL стало популярным методом для улучшения навыков рассуждения LLM, особенно после успехов с такими моделями, как GPT-3 от OpenAI и DeepSeek-R1. Многие проекты с открытым исходным кодом были посвящены в основном математическим и кодирующим областям. Хотя эти модели хорошо работают в своих нишах, их рассуждения не всегда применимы к более широким задачам.

В то же время исследования изучали, как RL влияет на рассуждения. Некоторые исследования предполагают, что RL не учит новым навыкам, а повышает способность модели использовать существующие шаблоны рассуждений. Однако более поздние работы указывают на то, что расширенное обучение с RL может открыть совершенно новые стратегии рассуждений.

Введение набора данных GURU: эталонный тест RL для нескольких доменов

Исследователи из Калифорнийского университета в Сан-Диего, MBZUAI, Карнеги-Меллон и Пердью представляют GURU — набор данных RL, состоящий из 92 тысяч примеров, охватывающий шесть областей рассуждений: математику, код, науку, логику, моделирование и таблицы.

Каждый домен тщательно разработан с учётом индивидуальных функций вознаграждения и тщательной фильтрации. Обучение моделей на GURU показывает, что результаты RL во многом зависят от знакомства с предметной областью: общие области выигрывают от междоменного RL, в то время как незнакомые требуют внутридисциплинарного обучения для значительного улучшения.

Их модели, GURU-7B и GURU-32B, превосходят предыдущие открытые модели на 7,9% по 17 задачам. Эти результаты подчёркивают специфику RL в предметной области и ценность широких, многодоменных эталонов рассуждений.

Междоменное и внутридисциплинарное влияние подкрепляющего обучения

Чтобы лучше понять, как RL поддерживает рассуждения в разных областях, исследователи обучили модели как на отдельных, так и на смешанных данных из набора данных GURU. Они обнаружили, что такие области, как математика, код и наука, получили больше пользы от междоменного RL, вероятно, из-за их более сильного присутствия в предварительном обучении.

Смешанное обучение показало такие же или лучшие результаты, чем однодоменное обучение, показывая, что объединение разнообразных задач может улучшить общие рассуждения. Однако обучение только на более сложных примерах улучшало производительность в этом домене, но снижало точность выполнения более простых функций в других.

Эти результаты показывают, что разнообразие данных и сбалансированная сложность являются ключом к эффективным, переносимым навыкам рассуждения.

Архитектура модели GURU и стратегия оценки

В исследовании были обучены модели размером 7B и 32B с использованием набора данных GURU, чтобы изучить, как объединение нескольких областей во время RL улучшает способности к рассуждению. Используя фреймворк Verl и алгоритм GRPO, модели были оценены по широкому спектру задач, включая математику, код, логику, науку, моделирование и таблицы, с использованием согласованных показателей.

Результаты показали, что модели GURU превзошли доменные базовые модели и хорошо справились с невидимыми задачами. Примечательно, что анализ Pass@k показал, что производительность зависит от типа задачи, размера модели и настроек декодирования. Более крупные модели получили больше пользы от RL, а настройка параметров выборки, таких как температура и top-p, помогла улучшить разнообразие моделей и охват рассуждений.

Резюме: рассуждения общего назначения с GURU

В заключение, GURU — это тщательно подобранный набор данных RL, содержащий 92 тысячи высококачественных, поддающихся проверке примеров в шести областях рассуждений: математике, коде, науке, логике, моделировании и таблицах.

В отличие от предыдущих исследований RL, которые были сосредоточены в основном на математике и коде, GURU позволяет проводить более широкие исследования рассуждений, предоставляя специфичные для предметной области сигналы вознаграждения.

Исследователи обучают две модели, GURU-7B и GURU-32B, которые достигают современных результатов по 17 эталонным задачам, особенно преуспевая в областях, недостаточно представленных во время предварительного обучения. Их выводы показывают, что RL может как совершенствовать существующие знания, так и способствовать развитию новых способностей к рассуждению.

Все данные, модели и код опубликованы для поддержки дальнейших исследований в области рассуждений общего назначения.

1. Какие проблемы возникают при расширении RL для решения более широких задач рассуждения?

Ответ: расширение RL для решения более широких задач рассуждения затруднено из-за отсутствия надёжных сигналов вознаграждения и тщательно отобранных наборов данных, которые проще определить в математических и кодовых терминах, но сложнее в открытых областях рассуждения.

2. Какие области рассуждений охватывает набор данных GURU?

Ответ: набор данных GURU охватывает шесть областей рассуждений: математику, код, науку, логику, моделирование и таблицы.

3. Какие результаты показали модели GURU-7B и GURU-32B по сравнению с предыдущими открытыми моделями?

Ответ: модели GURU-7B и GURU-32B превосходят предыдущие открытые модели на 7,9% по 17 задачам. Эти результаты подчёркивают специфику RL в предметной области и ценность широких, многодоменных эталонов рассуждений.

4. Какие выводы можно сделать о влиянии RL на рассуждения в разных областях на основе исследования, представленного в статье?

Ответ: исследование показало, что RL может как совершенствовать существующие знания, так и способствовать развитию новых способностей к рассуждению. Смешанное обучение показало такие же или лучшие результаты, чем однодоменное обучение, показывая, что объединение разнообразных задач может улучшить общие рассуждения. Однако обучение только на более сложных примерах улучшало производительность в этом домене, но снижало точность выполнения более простых функций в других.

5. Какие параметры были настроены для улучшения разнообразия моделей и охвата рассуждений в исследовании?

Ответ: настройка параметров выборки, таких как температура и top-p, помогла улучшить разнообразие моделей и охват рассуждений. Более крупные модели получили больше пользы от RL.

Источник

Оставьте комментарий