Максимизация внутренней согласованности (ICM): фреймворк для обучения языковых моделей без использования меток и без надзора
Методы постобучения предварительно обученных языковых моделей (LM) зависят от контроля со стороны человека через демонстрации или обратную связь по предпочтениям для определения желаемого поведения. Однако этот подход сталкивается с критическими ограничениями, поскольку задачи и поведение моделей становятся очень сложными. В таких сценариях человеческий контроль ненадёжен, поскольку LM учатся имитировать ошибки в демонстрациях или использовать недостатки … Читать далее