Языковые модели большого размера (LLM) очень часто генерируют «галлюцинации» — уверенные, но неверные результаты, которые кажутся правдоподобными. Несмотря на улучшения в методах обучения и архитектурах, галлюцинации сохраняются. Новое исследование от OpenAI даёт чёткое объяснение: галлюцинации возникают из-за статистических свойств обучения с учителем по сравнению с самообучением, а их сохранение усиливается из-за несогласованности оценочных критериев.
Что делает галлюцинации статистически неизбежными?
Исследовательская группа объясняет галлюцинации как ошибки, присущие генеративному моделированию. Даже при идеально чистых обучающих данных цель перекрёстной энтропии, используемая при предварительном обучении, вводит статистические факторы, которые приводят к ошибкам.
Исследователи сводят задачу к контролируемой бинарной классификации под названием Is-It-Valid (IIV): определение того, является ли вывод модели действительным или ошибочным. Они доказывают, что частота генеративных ошибок LLM как минимум вдвое превышает частоту ошибок классификации IIV.
Другими словами, галлюцинации возникают по тем же причинам, по которым появляются ошибки классификации при обучении с учителем: эпистемическая неопределённость, плохие модели, смещение распределения или зашумлённые данные.
Почему редкие факты вызывают больше галлюцинаций?
Одним из основных факторов является частота одиночных фактов — доля фактов, которые появляются только один раз в обучающих данных. По аналогии с оценкой недостающей массы по методу Гуд — Тьюринга, если 20% фактов являются одиночными, то по крайней мере 20% из них будут галлюцинациями.
Это объясняет, почему LLM надёжно отвечают на широко повторяющиеся факты (например, день рождения Эйнштейна), но терпят неудачу на малоизвестных или редко упоминаемых.
Могут ли плохие семейства моделей привести к галлюцинациям?
Да. Галлюцинации также возникают, когда модель не может адекватно представить закономерность. Классические примеры включают n-граммные модели, генерирующие неграмматические предложения, или современные токенизированные модели, неправильно подсчитывающие буквы, потому что символы скрыты внутри подсловных токенов. Эти ограничения представления вызывают систематические ошибки даже тогда, когда данных достаточно.
Почему пост-обучение не устраняет галлюцинации?
Методы пост-обучения, такие как RLHF (обучение с подкреплением на основе обратной связи от человека), DPO и RLAIF, уменьшают некоторые ошибки, особенно вредные или конспирологические результаты. Но самоуверенные галлюцинации остаются, потому что стимулы оценки не согласованы.
Как студенты, угадывающие ответы в тестах с множественным выбором, LLM получают вознаграждение за блеф, когда не уверены. Большинство тестов — такие как MMLU, GPQA и SWE-bench — применяют бинарную оценку: правильные ответы получают баллы, воздержания («Я не знаю») не получают баллов, а неправильные ответы наказываются не более жёстко, чем воздержания.
По этой схеме угадывание максимизирует баллы в тестах, даже если оно способствует появлению галлюцинаций.
Как таблицы лидеров усиливают галлюцинации?
Обзор популярных тестов показывает, что почти все они используют бинарную оценку без частичного кредита за неуверенность. В результате модели, которые правдиво выражают неуверенность, работают хуже, чем те, которые всегда угадывают. Это создаёт системное давление для разработчиков оптимизировать модели для уверенных ответов, а не для калиброванных.
Какие изменения могут уменьшить галлюцинации?
Исследовательская группа утверждает, что устранение галлюцинаций требует социально-технических изменений, а не только новых наборов оценок. Они предлагают явные цели по достоверности: тесты должны чётко указывать штрафы за неправильные ответы и частичный кредит за воздержания.
Например: «Отвечайте, только если вы уверены более чем на 75%. Ошибки теряют 2 балла; правильные ответы приносят 1; «Я не знаю» приносит 0».
Такая схема напоминает реальные экзамены, такие как более ранние форматы SAT и GRE, где угадывание влекло за собой штрафы. Это поощряет поведенческую калибровку — модели воздерживаются, когда их уверенность ниже порога, что приводит к меньшему количеству самоуверенных галлюцинаций, одновременно оптимизируя производительность в тестах.
Каковы более широкие последствия?
Эта работа переосмысливает галлюцинации как предсказуемые результаты целей обучения и несогласованности оценки, а не как необъяснимые причуды. Результаты подчёркивают:
* неизбежность предварительного обучения: галлюцинации аналогичны ошибкам классификации при обучении с учителем;
* усиление пост-обучения: бинарные схемы оценки стимулируют угадывание;
* реформа оценки: корректировка основных тестов для вознаграждения за неуверенность может перестроить стимулы и повысить доверие.
Связывая галлюцинации с устоявшейся теорией обучения, исследование демистифицирует их происхождение и предлагает практические стратегии смягчения, которые перекладывают ответственность с архитектуры моделей на дизайн оценки.
Ознакомиться с докладом и техническими деталями можно здесь. Заходите на нашу страницу GitHub за учебными пособиями, кодами и ноутбуками. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit с более чем 100 тысячами участников и подписывайтесь на нашу рассылку.
Статья «От предварительного обучения к пост-обучению: почему языковые модели галлюцинируют и как методы оценки усугубляют проблему» впервые опубликована на MarkTechPost.
1. Почему языковые модели большого размера (LLM) генерируют «галлюцинации» и как это связано с методами обучения?
Ответ: галлюцинации возникают из-за статистических свойств обучения с учителем по сравнению с самообучением. Даже при идеально чистых обучающих данных цель перекрёстной энтропии, используемая при предварительном обучении, вводит статистические факторы, которые приводят к ошибкам.
2. Какие факторы способствуют появлению галлюцинаций при работе с языковыми моделями?
Ответ: галлюцинации возникают по нескольким причинам, включая эпистемическую неопределённость, плохие модели, смещение распределения или зашумлённые данные. Кроме того, частота одиночных фактов в обучающих данных также способствует появлению галлюцинаций.
3. Почему пост-обучение не всегда устраняет галлюцинации?
Ответ: методы пост-обучения, такие как RLHF (обучение с подкреплением на основе обратной связи от человека), DPO и RLAIF, уменьшают некоторые ошибки, но самоуверенные галлюцинации остаются, потому что стимулы оценки не согласованы. Модели получают вознаграждение за блеф, когда не уверены, что способствует появлению галлюцинаций.
4. Какие изменения могут уменьшить количество галлюцинаций у языковых моделей?
Ответ: исследовательская группа утверждает, что устранение галлюцинаций требует социально-технических изменений. Они предлагают явные цели по достоверности: тесты должны чётко указывать штрафы за неправильные ответы и частичный кредит за воздержания. Такая схема напоминает реальные экзамены, где угадывание влекло за собой штрафы. Это поощряет поведенческую калибровку — модели воздерживаются, когда их уверенность ниже порога, что приводит к меньшему количеству самоуверенных галлюцинаций.
5. Какие более широкие последствия имеет проблема галлюцинаций для разработки языковых моделей?
Ответ: работа переосмысливает галлюцинации как предсказуемые результаты целей обучения и несогласованности оценки. Результаты подчёркивают неизбежность предварительного обучения, усиление пост-обучения и необходимость реформы оценки. Корректировка основных тестов для вознаграждения за неуверенность может перестроить стимулы и повысить доверие.