Команда исследователей из Google Cloud AI Research и UCLA разработала систему обучения с подкреплением под контролем (Supervised Reinforcement Learning, SRL). Она позволяет небольшим моделям на самом деле учиться решать сложные математические задачи и задачи для агентов, с которыми не справляются обычные методы тонкой настройки под контролем и обучения с подкреплением, ориентированного на результат.
Как небольшая модель может научиться решать задачи, которые она сейчас не может решить, без механического подражания или полагаясь только на правильный результат?
Команда исследователей из Google Cloud AI Research и UCLA представила систему обучения с подкреплением под контролем (SRL), которая позволяет небольшим моделям на самом деле учиться решать сложные математические задачи и задачи для агентов.
Небольшие модели с открытым исходным кодом, такие как Qwen2.5 7B Instruct, не справляются с самыми сложными задачами в s1K 1.1, даже когда след учителя хороший. Если мы применим тонкую настройку под контролем на полных решениях в стиле DeepSeek R1, модель будет имитировать токен за токеном, последовательность длинная, данных всего 1000 элементов, а итоговые оценки упадут ниже базовой модели.
Основные идеи обучения с подкреплением под контролем (SRL)
* SRL сохраняет оптимизацию в стиле RL, но вводит контроль в канал вознаграждения, а не в потери.
* Каждая экспертная траектория из s1K 1.1 разбивается на последовательность действий.
* Для каждого префикса этой последовательности исследовательская группа создаёт новый тренировочный пример.
* Модель сначала генерирует частный диапазон рассуждений, затем выводит действие для этого шага, и только это действие сравнивается с действием учителя с помощью метрики сходства последовательностей, основанной на difflib.
* Вознаграждение является плотным, потому что каждый шаг имеет оценку, даже когда окончательный ответ неправильный.
* Остальная часть текста, часть рассуждения, не ограничена, поэтому модель может искать свою собственную цепочку, не будучи вынужденной копировать токены учителя.
Математические результаты
Все модели инициализированы из Qwen2.5 7B Instruct и обучены на одном и том же наборе данных DeepSeek R1, отформатированном в s1K 1.1, поэтому сравнения являются чистыми.
Точные цифры в таблице 1:
* Базовая модель Qwen2.5 7B Instruct, AMC23 жадный — 50,0, AIME24 жадный — 13,3, AIME25 жадный — 6,7.
* SRL, AMC23 жадный — 50,0, AIME24 жадный — 16,7, AIME25 жадный — 13,3.
* SRL затем RLVR, AMC23 жадный — 57,5, AIME24 жадный — 20,0, AIME25 жадный — 10,0.
Это ключевое улучшение: SRL уже устраняет деградацию SFT и повышает AIME24 и AIME25, а когда после SRL запускается RLVR, система достигает лучших показателей в открытом исходном коде в исследовании. Исследовательская группа прямо указывает, что лучший конвейер — это SRL, затем RLVR, а не только SRL.
Результаты в области разработки программного обеспечения
Исследовательская группа также применяет SRL к Qwen2.5 Coder 7B Instruct, используя 5000 проверенных траекторий агентов, сгенерированных claude 3 7 sonnet. Каждая траектория разложена на пошаговые экземпляры, и в общей сложности получено 134 000 пошаговых элементов. Оценка проводится на SWE Bench Verified.
Базовая модель получает 5,8% в режиме редактирования файлов-оракулов и 3,2% от конца до конца. SWE Gym 7B получает 8,4% и 4,2%. SRL получает 14,8% и 8,6%, что примерно в 2 раза превышает базовую модель и явно выше, чем базовый уровень SFT.
Основные выводы
* SRL переформулирует сложные рассуждения как пошаговое генерирование действий.
* Модель сначала генерирует внутренний монолог, затем выводит единственное действие, и только это действие вознаграждается сходством последовательностей, поэтому модель получает сигнал, даже когда окончательный ответ неправильный.
* SRL работает на тех же данных DeepSeek R1, отформатированных в s1K 1.1, что и SFT и RLVR, но в отличие от SFT он не перегружает длинные демонстрации, и в отличие от RLVR он не рушится, когда ни один прогон не является правильным.
* В математике точный порядок, который даёт наилучшие результаты в исследовании, — это инициализация Qwen2.5 7B Instruct с помощью SRL, а затем применение RLVR, что повышает показатели рассуждений выше, чем любой из методов по отдельности.
* Тот же рецепт SRL распространяется на разработку программного обеспечения с помощью агентов, используя 5000 проверенных траекторий из claude 3 7 sonnet 20250219, и поднимает SWE Bench Verified значительно выше, чем базовая модель Qwen2.5 Coder 7B Instruct и базовый уровень SWE Gym 7B в стиле SFT.
По сравнению с другими пошаговыми методами RL, которым нужна дополнительная модель вознаграждения, этот SRL сохраняет цель в стиле GRPO и использует только действия из экспертных траекторий и лёгкое сравнение строк, поэтому его легко запустить на небольших сложных наборах данных.
Редакционные комментарии
SRL — это практический вклад исследовательской группы. Он сохраняет настройку обучения с подкреплением в стиле GRPO, но заменяет хрупкие вознаграждения на уровне результатов контролируемыми пошаговыми вознаграждениями, которые вычисляются непосредственно из экспертных траекторий, поэтому модель всегда получает информативный сигнал, даже в режиме Dhard, где RLVR и SFT останавливаются.
Важно, что исследовательская группа показывает SRL в математике и на SWE Bench Verified с одинаковым рецептом, и что наиболее эффективной конфигурацией является SRL, за которой следует RLVR, а не любой из них по отдельности. Это делает SRL реалистичным путём для открытых моделей, чтобы научиться решать сложные задачи.
В целом, SRL — это чёткий мост между процессом контроля и RL, который команды открытых моделей могут принять немедленно.
1. Какие проблемы решает система обучения с подкреплением под контролем (SRL) в контексте обучения небольших языковых моделей?
Ответ: система SRL решает проблему обучения небольших моделей решению сложных математических задач и задач для агентов, с которыми не справляются обычные методы тонкой настройки под контролем и обучения с подкреплением, ориентированного на результат.
2. Какие основные идеи лежат в основе системы SRL?
Ответ: основные идеи SRL включают сохранение оптимизации в стиле RL, введение контроля в канал вознаграждения, разбиение экспертной траектории на последовательность действий, создание нового тренировочного примера для каждого префикса последовательности, генерацию моделью частного диапазона рассуждений и вывод действия для этого шага.
3. Какие математические результаты были получены при использовании системы SRL?
Ответ: при использовании SRL были получены улучшения в решении математических задач. Например, SRL устраняет деградацию SFT и повышает AIME24 и AIME25. Когда после SRL запускается RLVR, система достигает лучших показателей в открытом исходном коде в исследовании.
4. Какие результаты были получены при применении SRL к разработке программного обеспечения?
Ответ: при применении SRL к Qwen2.5 Coder 7B Instruct с использованием 5000 проверенных траекторий агентов, сгенерированных claude 3 7 sonnet, было получено значительное улучшение показателей на SWE Bench Verified по сравнению с базовой моделью.
5. Какие выводы можно сделать о системе SRL на основе представленного текста?
Ответ: на основе представленного текста можно сделать вывод, что SRL является практическим вкладом исследовательской группы, который сохраняет настройку обучения с подкреплением в стиле GRPO, но заменяет хрупкие вознаграждения на уровне результатов контролируемыми пошаговыми вознаграждениями, которые вычисляются непосредственно из экспертных траекторий. Это делает SRL реалистичным путём для открытых моделей, чтобы научиться решать сложные задачи.
