Новое исследование MIT: обучение с подкреплением минимизирует катастрофическое забывание по сравнению с точной настройкой под контролем учителя

Что такое катастрофическое забывание в фундаментальных моделях?

Фундаментальные модели отлично справляются с разнообразными задачами, но после развёртывания они в значительной степени статичны. Точная настройка под контролем учителя (SFT) на новых задачах часто приводит к катастрофическому забыванию — утрате ранее приобретённых способностей. Это ограничение препятствует созданию долгоживущих, постоянно совершенствующихся агентов искусственного интеллекта.

Почему онлайн-обучение с подкреплением забывает меньше, чем точная настройка под контролем учителя?

Новое исследование MIT сравнивает обучение с подкреплением (RL) и точную настройку под контролем учителя (SFT). Оба метода могут достичь высокой производительности на новых задачах, но SFT имеет тенденцию перезаписывать предыдущие способности. RL, напротив, сохраняет их. Ключ заключается в том, как каждый метод сдвигает распределение выходных данных модели относительно базовой политики.

Как можно измерить забывание?

Исследовательская группа предлагает эмпирический закон забывания:

$Forgetting ∝ KL(π_0∣∣π)$

где $π_0$ — базовая модель, а $π$ — точно настроенная модель. Расхождение KL, измеренное на новой задаче, сильно предсказывает степень забывания. Это позволяет количественно оценить забывание без необходимости данных из предыдущих задач.

Что показывают эксперименты на больших языковых моделях?

Используя Qwen 2.5 3B-Instruct в качестве базовой модели, была выполнена точная настройка на:
* математических рассуждениях (Open-Reasoner-Zero);
* научных вопросах и ответах (подмножество SciKnowEval);
* использовании инструментов (ToolAlpaca).

Производительность оценивалась на предыдущих тестах, таких как HellaSwag, MMLU, TruthfulQA и HumanEval. Результаты показали, что RL улучшил точность выполнения новых задач, сохраняя при этом точность выполнения предыдущих задач на стабильном уровне, тогда как SFT последовательно жертвовала предыдущими знаниями.

Как RL сравнивается с SFT в задачах робототехники?

В экспериментах по управлению роботами с OpenVLA-7B, точно настроенных в сценариях pick-and-place в SimplerEnv, адаптация RL сохраняла общие навыки манипулирования в разных задачах. SFT, хотя и была успешной в новой задаче, ухудшала предыдущие способности к манипулированию — ещё раз иллюстрируя консервативность RL в сохранении знаний.

Какие выводы можно сделать из исследования ParityMNIST?

Чтобы изолировать механизмы, исследовательская группа представила игрушечную задачу ParityMNIST. Здесь RL и SFT достигли высокой точности выполнения новых задач, но SFT вызвала более резкое снижение показателей на вспомогательном бенчмарке FashionMNIST. Ключевым моментом является то, что построение графика забывания в зависимости от расхождения KL выявило единую прогнозирующую кривую, подтверждая, что KL является определяющим фактором.

Почему обновления в соответствии с политикой имеют значение?

RL с выборкой в соответствии с политикой берёт образцы из собственных выходных данных модели, постепенно перераспределяя их в соответствии с вознаграждением. Этот процесс ограничивает обучение распределениями, уже близкими к базовой модели. SFT, напротив, оптимизирует фиксированные метки, которые могут быть произвольно удалены. Теоретический анализ показывает, что градиенты политики сходятся к оптимальным решениям, минимизирующим KL, что формализует преимущество RL.

Достаточно ли других объяснений?

Исследовательская группа проверила альтернативы: изменения в весовом пространстве, дрейф скрытых представлений, разреженность обновлений и альтернативные метрики распределения (обратное KL, полная вариация, расстояние L2). Ни одна из них не соответствовала прогностической силе прямого расхождения KL, подтверждая, что близость распределений является решающим фактором.

Каковы более широкие последствия?

* Оценка: после обучения следует учитывать KL-консерватизм, а не только точность выполнения задач.
* Гибридные методы: сочетание эффективности SFT с явной минимизацией KL может привести к оптимальному компромиссу.
* Непрерывное обучение: принцип RL’s Razor предлагает измеримый критерий для разработки адаптивных агентов, которые учатся новым навыкам, не стирая старые.

Заключение

Исследование MIT переосмысливает катастрофическое забывание как проблему распределения, управляемую прямым расхождением KL. Обучение с подкреплением забывает меньше, потому что его обновления в соответствии с политикой естественным образом смещаются в сторону KL-минимальных решений. Этот принцип — RL’s Razor — обеспечивает как объяснение устойчивости RL, так и дорожную карту для разработки методов пост-тренинга, поддерживающих непрерывное обучение в фундаментальных моделях.

Ключевые выводы

* Обучение с подкреплением (RL) лучше сохраняет предыдущие знания, чем точная настройка под контролем учителя (SFT): даже когда оба метода достигают одинаковой точности на новых задачах, RL сохраняет предыдущие возможности, в то время как SFT стирает их.
* Забывание можно предсказать по KL-расхождению: степень катастрофического забывания сильно коррелирует с прямым расхождением KL между настроенной и базовой политикой, измеренным на новой задаче.
* Принцип RL’s Razor: RL с выборкой в соответствии с политикой сходится к KL-минимальным решениям, обеспечивая сохранение обновлений, близких к базовой модели, и снижение забывания.
* Эмпирическая проверка в разных областях: эксперименты на больших языковых моделях (математические рассуждения, научные вопросы и ответы, использование инструментов) и задачах робототехники подтверждают устойчивость RL к забыванию, в то время как SFT последовательно жертвует старыми знаниями ради производительности в новых задачах.
* Контролируемые эксперименты подтверждают общность: в игрушечной постановке ParityMNIST RL и SFT показали забывание, соответствующее KL-расхождению, доказывая, что принцип применим не только к крупномасштабным моделям.
* Ось будущего проектирования пост-тренинга: алгоритмы должны оцениваться не только по точности выполнения новых задач, но и по тому, насколько консервативно они сдвигают распределения в пространстве KL, открывая возможности для гибридных методов RL–SFT.

1. В чём заключается основная проблема, которую решает исследование MIT?

Основная проблема, которую решает исследование MIT, заключается в катастрофическом забывании — утрате ранее приобретённых способностей фундаментальными моделями после их точной настройки под контролем учителя на новых задачах.

2. Какой метод обучения, согласно тексту, лучше сохраняет предыдущие знания — RL или SFT?

Согласно тексту, метод обучения с подкреплением (RL) лучше сохраняет предыдущие знания, чем точная настройка под контролем учителя (SFT). Даже когда оба метода достигают одинаковой точности на новых задачах, RL сохраняет предыдущие возможности, в то время как SFT стирает их.

3. Как можно количественно оценить забывание в фундаментальных моделях?

Исследовательская группа предлагает эмпирический закон забывания: $Forgetting ∝ KL(π0∣∣π)$, где $π0$ — базовая модель, а $π$ — точно настроенная модель. Расхождение KL, измеренное на новой задаче, сильно предсказывает степень забывания. Это позволяет количественно оценить забывание без необходимости данных из предыдущих задач.

4. Какие выводы можно сделать из экспериментов на больших языковых моделях и задачах робототехники?

Эксперименты на больших языковых моделях (математические рассуждения, научные вопросы и ответы, использование инструментов) и задачах робототехники подтверждают устойчивость RL к забыванию, в то время как SFT последовательно жертвует старыми знаниями ради производительности в новых задачах. Это подтверждает, что RL лучше сохраняет предыдущие знания и способности.

5. Какие более широкие последствия имеет исследование MIT для разработки адаптивных агентов искусственного интеллекта?

Исследование MIT имеет несколько более широких последствий для разработки адаптивных агентов искусственного интеллекта:
* После обучения следует учитывать KL-консерватизм, а не только точность выполнения задач.
* Сочетание эффективности SFT с явной минимизацией KL может привести к оптимальному компромиссу.
* Принцип RL’s Razor предлагает измеримый критерий для разработки адаптивных агентов, которые учатся новым навыкам, не стирая старые.

Источник