Динамическая точная настройка (DFT): преодоление разрыва в обобщении при контролируемой точной настройке (SFT) для больших языковых моделей

Контролируемая точная настройка (SFT) — это стандартный метод адаптации больших языковых моделей (LLM) к новым задачам путём их обучения на экспертных демонстрационных наборах данных. Он ценится за свою простоту и способность быстро развивать поведение, похожее на экспертное, но часто не достигает нужного уровня обобщения по сравнению с обучением с подкреплением (RL).

RL позволяет моделям исследовать разнообразные стратегии, что приводит к более сильному обобщению. Однако RL требует больших вычислительных ресурсов, тщательной настройки гиперпараметров и доступа к сигналам вознаграждения, что не всегда практично.

Хотя существуют гибридные методы, сочетающие SFT и RL, вопрос остаётся открытым: можно ли принципиально улучшить саму SFT? Это важно, когда в наборах данных отсутствуют отрицательные примеры или недоступны модели вознаграждения.

Существующие попытки решения проблем SFT и RL

Существующие попытки решения проблем SFT и RL привели к появлению различных гибридных методов. Обычная стратегия сочетает начальный этап SFT с последующей доработкой RL, как это видно в таких методах, как InstructGPT.

Альтернативные методы, такие как чередование этапов SFT и RL или прямая оптимизация предпочтений (DPO), направлены на более эффективную интеграцию имитационных и подкрепляющих сигналов. Такие методы, как тонкая настройка с учётом отрицательных примеров (NFT), позволяют моделям самосовершенствоваться путём моделирования некорректных выходных данных.

Теоретические работы пытались объединить SFT и RL, рассматривая SFT как взвешенное по вознаграждению или неявное RL. Однако они не смогли установить точную математическую эквивалентность между SFT и офлайн-градиентами политики.

Динамическая точная настройка (DFT)

Группа исследователей из Юго-Восточного университета, Калифорнийского университета в Беркли, Шанхайского университета Цзяо Тун, Наньянского технологического университета и Уханьского университета предложила динамическую точную настройку (DFT) — метод решения проблемы ограниченного обобщения LLM с SFT.

С помощью математического анализа они определили, что стандартные градиенты SFT кодируют несовершенную структуру вознаграждения, ограничивая способность модели эффективно обобщать. DFT решает эту проблему путём стабилизации обновлений градиента за счёт динамической перестройки целевой функции на основе вероятности каждого токена.

DFT оценивается в стандартной настройке SFT, где доступны только экспертные демонстрационные данные, без отрицательных примеров, моделей вознаграждения или сигналов верификации. Он обучен на наборе данных NuminaMath CoT, который содержит 860 тысяч математических задач и решений.

В настройках офлайн RL DFT превосходит как офлайн-, так и онлайн-базовые показатели RL. Он набирает в среднем 35,43 балла, превышая лучший офлайн-метод RFT на +11,46 балла и превосходя сильнейший онлайн-алгоритм RL GRPO на +3,43 балла.

В этой работе исследователи решают проблему разрыва в обобщении между SFT и RL. Они представляют динамическую точную настройку (DFT) — простой, но мощный метод, который динамически перераспределяет потери SFT с использованием вероятностей токенов. Эта однострочная модификация стабилизирует обучение и улучшает обобщение, что подтверждается повышением производительности на тестах по математическим рассуждениям.

Однако оценки DFT ограничены наборами данных и моделями, ориентированными на математику, и параметрами до 7 миллиардов. Кроме того, это исследование ограничено сценариями, связанными только с текстом. Будущая работа направлена на то, чтобы распространить DFT на более широкие тесты, более крупные модели и задачи, связанные со зрением и языком, чтобы проверить его кросс-модальную эффективность.

1. Какие проблемы существуют при использовании контролируемой точной настройки (SFT) для больших языковых моделей (LLM)?

При использовании SFT для LLM существует проблема ограниченного обобщения. Контролируемая точная настройка (SFT) часто не достигает нужного уровня обобщения по сравнению с обучением с подкреплением (RL).

2. Какие методы пытаются решить проблемы SFT и RL?

Существуют гибридные методы, сочетающие SFT и RL. Например, начальный этап SFT может сочетаться с последующей доработкой RL, как это видно в таких методах, как InstructGPT. Альтернативные методы, такие как чередование этапов SFT и RL или прямая оптимизация предпочтений (DPO), направлены на более эффективную интеграцию имитационных и подкрепляющих сигналов.

3. Что такое динамическая точная настройка (DFT) и как она решает проблему ограниченного обобщения LLM с SFT?

Динамическая точная настройка (DFT) — это метод решения проблемы ограниченного обобщения LLM с SFT. С помощью математического анализа исследователи определили, что стандартные градиенты SFT кодируют несовершенную структуру вознаграждения, ограничивая способность модели эффективно обобщать. DFT решает эту проблему путём стабилизации обновлений градиента за счёт динамической перестройки целевой функции на основе вероятности каждого токена.

4. Какие результаты были получены при использовании DFT в стандартной настройке SFT?

В стандартной настройке SFT, где доступны только экспертные демонстрационные данные, без отрицательных примеров, моделей вознаграждения или сигналов верификации, DFT обучен на наборе данных NuminaMath CoT, который содержит 860 тысяч математических задач и решений. В настройках офлайн RL DFT превосходит как офлайн-, так и онлайн-базовые показатели RL. Он набирает в среднем 35,43 балла, превышая лучший офлайн-метод RFT на +11,46 балла и превосходя сильнейший онлайн-алгоритм RL GRPO на +3,43 балла.

5. Каковы ограничения DFT и направления будущей работы?

Оценки DFT ограничены наборами данных и моделями, ориентированными на математику, и параметрами до 7 миллиардов. Кроме того, это исследование ограничено сценариями, связанными только с текстом. Будущая работа направлена на то, чтобы распространить DFT на более широкие тесты, более крупные модели и задачи, связанные со зрением и языком, чтобы проверить его кросс-модальную эффективность.

Источник