Sakana AI представляет учителей, обученных с помощью подкрепления (RLTs): эффективное упрощение рассуждений в языковых моделях с использованием маломасштабного обучения с подкреплением

Sakana AI представляет инновационную систему для языковых моделей (LLMs) с акцентом на эффективности и возможности повторного использования: учителей, обученных с помощью подкрепления (RLTs).

Традиционные подходы к обучению с подкреплением (RL) в LLMs страдают от редких сигналов вознаграждения и непомерно высоких вычислительных требований. В отличие от них, RLTs переопределяют парадигму «учитель-ученик», обучая меньшие модели действовать как оптимизированные инструкторы, выдавая пошаговые объяснения вместо решения задач с нуля.

Переосмысление обучения с подкреплением для обучения, а не решения задач

Обычные установки RL обучают модели решать задачи автономно, используя редкие вознаграждения, основанные на правильности. Эти модели часто используются для обучения меньших моделей, генерируя логические цепочки для дистилляции. Однако несоответствие между целью RL (решение задач) и фактическим последующим использованием (обучение) приводит к неэффективности. RLTs напрямую решают эту проблему, предлагая моделям как задачу, так и её решение, требуя от них только генерации подробных педагогических объяснений.

Сигнал вознаграждения плотный и ориентирован на ученика: он измеряет, насколько хорошо модель-ученик понимает объяснение и воспроизводит решение.

Основная концепция: плотные, ориентированные на ученика вознаграждения

Цель обучения RLT построена вокруг двух ключевых терминов вознаграждения:
* Score of Solution (rSS): количественно оценивает способность ученика воспроизвести правильное решение, учитывая объяснение и задачу.
* Explanation Score (rKL): измеряет, насколько логически связным является объяснение учителя с точки зрения ученика.

Эти показатели объединены в плотный сигнал вознаграждения, который поощряет объяснения, которые одновременно являются наглядными и понятными.

Удивительная эффективность небольших учителей

Sakana AI демонстрирует, что RLT с 7 миллиардами параметров превосходит гораздо более крупные LLM (например, модели с 32 миллиардами параметров) в задачах дистилляции на множестве сложных наборов данных, включая AIME 2024, MATH 500 и GPQA Diamond.

Холодный старт обучения с подкреплением с помощью RLTs

Ещё одним важным случаем использования является холодный старт RL, когда начальная модель загружается с внешними данными перед формальным обучением с подкреплением. Следы, генерируемые RLT, служат более эффективным материалом для холодного старта, чем следы, полученные от более крупных моделей, обученных с помощью RL.

Обобщение вне домена и нулевой перенос

RLTs также демонстрируют сильные возможности нулевого переноса. При применении к новому домену — например, к арифметической задаче «Countdown» — следы, обученные с помощью RLT, позволяют моделям-ученикам превзойти даже прямое RL в новой области.

Учебный конвейер: эффективный и масштабируемый

Процесс обучения вычислительно лёгок:
* 250 шагов RL (~1 эпоха), размер пакета 256, размер группы 64.
* Обучение проводилось с использованием одноузловой установки с Qwen2.5-7B-Instruct.

Код и предварительно обученные контрольные точки доступны на GitHub.

В отличие от традиционных конвейеров RL, RLTs не требуют постобработки, исправления форматирования или фильтров проверки — необработанные выходные данные используются напрямую.

Основные моменты оценки

Sakana AI представляет RLTs — лёгкую, но мощную систему для обучения LLM рассуждать. В отличие от традиционных RL-моделей, которые учатся решать задачи с нуля, RLT получают как вопрос, так и его решение, и обучаются генерировать пошаговые объяснения. Такая настройка приводит RL-награды в соответствие с результатами обучения ученика, позволяя RLT с 7 миллиардами параметров превосходить гораздо более крупные LLM в сценариях дистилляции и холодного старта.

🔬📊💡 RLTs экономичны, переносимы между доменами и устраняют необходимость в дорогостоящей постобработке — предлагая масштабируемый план построения рассуждающих LLM с использованием скромных вычислительных ресурсов и инструментов с открытым исходным кодом.

Подробнее в статье и технических деталях.

Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему ML SubReddit с более чем 100 тысячами участников и подписывайтесь на нашу рассылку.

1. Какие проблемы решают RLTs в контексте обучения языковых моделей (LLMs)?

RLTs решают проблему традиционных подходов к обучению с подкреплением (RL) в LLMs, которые страдают от редких сигналов вознаграждения и высоких вычислительных требований. Они переопределяют парадигму «учитель-ученик», обучая меньшие модели действовать как оптимизированные инструкторы, выдавая пошаговые объяснения вместо решения задач с нуля.

2. Какие ключевые термины вознаграждения используются в RLTs и как они измеряются?

В RLTs используются два ключевых термина вознаграждения: Score of Solution (rSS) и Explanation Score (rKL). Score of Solution количественно оценивает способность ученика воспроизвести правильное решение, учитывая объяснение и задачу. Explanation Score измеряет, насколько логически связным является объяснение учителя с точки зрения ученика.

3. Как RLTs могут быть использованы для холодного старта RL?

RLTs могут быть использованы для холодного старта RL, когда начальная модель загружается с внешними данными перед формальным обучением с подкреплением. Следы, генерируемые RLT, служат более эффективным материалом для холодного старта, чем следы, полученные от более крупных моделей, обученных с помощью RL.

4. Какие преимущества RLTs имеют по сравнению с традиционными RL-моделями?

RLTs имеют несколько преимуществ по сравнению с традиционными RL-моделями. Они экономичны, переносимы между доменами и устраняют необходимость в дорогостоящей постобработке. Кроме того, они позволяют RLT с 7 миллиардами параметров превосходить гораздо более крупные LLM в сценариях дистилляции и холодного старта.

5. Какие вычислительные ресурсы требуются для обучения RLTs?

Процесс обучения RLTs вычислительно лёгок. Он включает 250 шагов RL (~1 эпоха), размер пакета 256, размер группы 64. Обучение проводилось с использованием одноузловой установки с Qwen2.5-7B-Instruct. Код и предварительно обученные контрольные точки доступны на GitHub.

Источник