Crome: система от Google DeepMind для надёжного моделирования вознаграждений в согласовании больших языковых моделей
Модели вознаграждений — фундаментальные компоненты для согласования больших языковых моделей (LLM) с обратной связью от человека. Однако они сталкиваются с проблемой манипулирования вознаграждением (reward hacking). Эти модели фокусируются на поверхностных атрибутах, таких как длина ответа или форматирование, вместо выявления истинных показателей качества, таких как достоверность и релевантность. Проблема возникает из-за того, что стандартные цели обучения … Читать далее