Методы постобучения предварительно обученных языковых моделей (LM) зависят от контроля со стороны человека через демонстрации или обратную связь по предпочтениям для определения желаемого поведения. Однако этот подход сталкивается с критическими ограничениями, поскольку задачи и поведение моделей становятся очень сложными. В таких сценариях человеческий контроль ненадёжен, поскольку LM учатся имитировать ошибки в демонстрациях или использовать недостатки в системах обратной связи.
Ограничения человеческого контроля в постобучении LLM
Исследователи изучили несколько подходов к масштабированию за пределы человеческого контроля. Один из стандартных методов использует высококачественные проверяемые вознаграждения, например, сопоставление выходных данных модели с решениями, основанными на фактах, в математических областях.
Несмотря на доказательства того, что предварительно обученные базовые модели обладают сильными скрытыми возможностями для последующих задач, постобучение добавляет минимальные улучшения. Эффективное выявление остаётся сложной задачей.
Метод контрастно-согласованного поиска (CCS) — это подход к обучению без контроля, который использует логическую согласованность для поиска скрытых знаний без надзора. Однако CCS уступает методам с контролем и часто не может идентифицировать знания из-за других заметных особенностей, удовлетворяющих свойствам согласованности.
Представление метода ICM
Исследователи из Anthropic, Schmidt Sciences, Independent, Constellation, New York University и George Washington University предложили метод максимизации внутренней согласованности (ICM), который точно настраивает предварительно обученные модели на основе их собственных сгенерированных меток без использования каких-либо предоставленных меток.
ICM решает эту задачу путём поиска наборов меток, которые являются логически согласованными и взаимно предсказуемыми в соответствии с предварительно обученной моделью. Поскольку идентификация оптимального набора меток остаётся вычислительно неосуществимой, ICM использует алгоритм поиска, вдохновлённый имитацией отжига, для аппроксимации максимального результата.
Более того, этот метод соответствует производительности обучения на золотых метках в TruthfulQA и GSM8K, а также превосходит обучение на основе краудсорсинговых человеческих меток в Alpaca.
Как работает алгоритм ICM
Алгоритм ICM следует итеративному трёхэтапному процессу:
1. Система выбирает новый немаркированный пример из набора данных для потенциального включения.
2. Определяет оптимальную метку для этого примера, одновременно устраняя любые логические несоответствия.
3. Алгоритм оценивает, принимать ли этот новый размеченный пример на основе функции оценки.
ICM оценивается на трёх наборах данных: TruthfulQA для оценки правдивости, GSM8K-verification для математической корректности и Alpaca для оценки полезности и безвредности.
Сравнительная производительность и сравнение моделей
В задачах выявления сверхчеловеческих возможностей ICM соответствует точности золотого надзора на 80%, превосходя расчётную точность человека в 60%. Используя модели вознаграждения, сгенерированные ICM, исследователи успешно обучили чат-бота-помощника без контроля со стороны человека.
Неоплачиваемая модель вознаграждения достигает 75,0% точности на RewardBench по сравнению с 72,2% для моделей с контролем со стороны человека, обученных на производственных данных.
Заключение и перспективы на будущее
В этой статье представлен метод максимизации внутренней согласованности (ICM) — достижение в области обучения языковых моделей без контроля для точной настройки предварительно обученных моделей на основе самостоятельно сгенерированных меток.
Метод последовательно соответствует производительности золотого надзора и превосходит краудсорсинговый человеческий надзор в задачах моделирования вознаграждений GSM8K-verification, TruthfulQA и Alpaca. Однако ограничения ICM включают зависимость от значимости концепций в предварительно обученных моделях и неэффективность при работе с длинными входными данными из-за ограничений контекстного окна.
По мере того как языковые модели превосходят возможности человеческой оценки, ICM предлагает многообещающие альтернативы традиционному RLHF, обеспечивая согласование моделей с намерениями человека без границ контроля со стороны человека.