Исследователи из Шанхайского Jiao Tong предложили OctoThinker для масштабируемого развития больших языковых моделей в области обучения с подкреплением

Введение: прогресс в обучении с подкреплением через цепочку мыслей (CoT prompting)

Большие языковые модели (LLMs) продемонстрировали значительный прогресс в решении сложных задач благодаря использованию CoT prompting в сочетании с крупномасштабным обучением с подкреплением (RL). Модели, такие как Deepseek-R1-Zero, показали сильные способности к рассуждению, применяя RL непосредственно к базовым моделям. Аналогично методы, такие как SimpleRL и Open-ReasonerZero, демонстрируют улучшения в небольших моделях, таких как серия Qwen. Однако достижение успеха с разными семействами базовых моделей остаётся сложной задачей.

Ограничения масштабирования RL на моделях Llama

Крупномасштабные достижения RL в моделях, таких как OpenAI’s o1, o3 и DeepSeek’s R1, в решении математических задач на уровне соревнований, стимулируют исследование RL в небольших моделях с менее чем 100B параметрами. Однако они ограничены семейством моделей Qwen, в то время как повторение результатов на таких семействах, как Llama, затруднено.

Отсутствие прозрачности в конвейерах предварительного обучения затрудняет понимание того, как предварительное обучение влияет на масштабирование RL. Это привело к нетрадиционным исследованиям, которые показали, что однократное prompting улучшает рассуждения в Qwen, но приносит мало пользы в Llama.

Исследование промежуточного обучения со стратегией Stable-then-Decay

Исследователи из Шанхайского Jiao Tong University изучают, как стратегии промежуточного обучения формируют динамику RL, фокусируясь на Qwen и Llama. Исследование выявило несколько ключевых моментов:

* Высококачественные математические корпуса, такие как MegaMath-Web-Pro, улучшают результаты как для базовой модели, так и для RL.
* Использование данных в стиле QA, особенно с длинными рассуждениями CoT, дополнительно улучшает результаты RL.
* Длинные CoT вносят многословность и нестабильность в обучение RL.
* Применение масштабирования во время промежуточного обучения приводит к повышению производительности RL в дальнейшем.

Исследователи вводят двухэтапную стратегию промежуточного обучения под названием Stable-then-Decay, где базовые модели сначала обучаются на 200B токенах, а затем на 20B токенах по трём ветвям, ориентированным на CoT, что приводит к созданию моделей OctoThinker, демонстрирующих сильную совместимость с RL.

Конфигурация RL и оценка по бенчмаркам

Исследователи используют набор данных MATH8K для обучения RL. Конфигурация включает глобальный размер обучающей партии в 128, 16 ответов на запрос и мини-пакет PPO размером 64. Эксперименты проводились на моделях Llama-3.2-3B-Base и Qwen2.5-3B-Base. Для оценки использовались несколько задач-индикаторов, включая GSM8K, MATH500, OlympiadBench и AMC23.

Во время обучения RL модели Qwen демонстрируют увеличение длины ответов, которые остаются разумными на протяжении всего процесса, в то время как Llama демонстрирует аномальное поведение с увеличением средней длины ответов до 4096 токенов.

OctoThinker превосходит Llama по совместимости с RL

Каждая ветвь OctoThinker демонстрирует улучшение на 10–20% по сравнению с исходной базовой моделью Llama и последовательный прирост по сравнению с моделью на стадии стабильности при всех размерах. При оценке по 13 математическим бенчмаркам семейство OctoThinker-Zero демонстрирует разнообразное поведение во время масштабирования RL, с высокими показателями у варианта OctoThinker-Long.

Заключение и перспективы

Эта статья исследует, почему базовые модели, такие как Llama и Qwen, демонстрируют расходящееся поведение во время RL для рассуждений, показывая, что промежуточное обучение играет важную роль в масштабируемости RL. Двухэтапная стратегия промежуточного обучения преобразует Llama в модель-основу, лучше подходящую для RL, что приводит к созданию моделей OctoThinker.

Направления будущих исследований включают:

* Создание более качественных математических корпусов для улучшения промежуточного обучения.
* Разработка базовых моделей, дружественных к RL, с использованием открытых рецептов без дистилляции из моделей с длинными рассуждениями CoT.
* Разделение формата QA и контента для понимания их индивидуального вклада.
* Расширение семейства OctoThinker за счёт новых ветвей, таких как интегрированное с инструментами рассуждение.

1. Какие стратегии промежуточного обучения исследуют учёные из Шанхайского Jiao Tong University и какие результаты они получили?

Учёные из Шанхайского Jiao Tong University исследуют стратегии промежуточного обучения, фокусируясь на моделях Qwen и Llama. Они вводят двухэтапную стратегию под названием Stable-then-Decay, где базовые модели сначала обучаются на 200B токенах, а затем на 20B токенах по трём ветвям, ориентированным на CoT. Это приводит к созданию моделей OctoThinker, демонстрирующих сильную совместимость с RL.

2. Какие ключевые моменты были выявлены в исследовании промежуточного обучения со стратегией Stable-then-Decay?

В исследовании были выявлены несколько ключевых моментов:
* Высококачественные математические корпуса, такие как MegaMath-Web-Pro, улучшают результаты как для базовой модели, так и для RL.
* Использование данных в стиле QA, особенно с длинными рассуждениями CoT, дополнительно улучшает результаты RL.
* Длинные CoT вносят многословность и нестабильность в обучение RL.
* Применение масштабирования во время промежуточного обучения приводит к повышению производительности RL в дальнейшем.

3. Какие модели и конфигурации использовались для обучения RL в этом исследовании?

Для обучения RL использовались модели Llama-3.2-3B-Base и Qwen2.5-3B-Base. Конфигурация включала глобальный размер обучающей партии в 128, 16 ответов на запрос и мини-пакет PPO размером 64. Набор данных MATH8K использовался для обучения RL.

4. Какие результаты были получены при оценке моделей Qwen и Llama по бенчмаркам?

Модели Qwen демонстрируют увеличение длины ответов, которые остаются разумными на протяжении всего процесса обучения RL. Llama демонстрирует аномальное поведение с увеличением средней длины ответов до 4096 токенов. При оценке по 13 математическим бенчмаркам семейство OctoThinker-Zero демонстрирует разнообразное поведение во время масштабирования RL, с высокими показателями у варианта OctoThinker-Long.

5. Какие направления будущих исследований предлагаются в статье?

Направления будущих исследований включают:
* Создание более качественных математических корпусов для улучшения промежуточного обучения.
* Разработка базовых моделей, дружественных к RL, с использованием открытых рецептов без дистилляции из моделей с длинными рассуждениями CoT.
* Разделение формата QA и контента для понимания их индивидуального вклада.
* Расширение семейства OctoThinker за счёт новых ветвей, таких как интегрированное с инструментами рассуждение.

Источник

Оставьте комментарий