Являются ли плохие стимулы причиной галлюцинаций ИИ?

Новая исследовательская работа OpenAI расследует причины, по которым крупные языковые модели вроде GPT-5 и чат-боты наподобие ChatGPT продолжают создавать галлюцинации, а также изучает возможные способы снижения таких ошибок. В блог-посте, резюмирующем статью, компания определяет галлюцинации как «правдоподобные, но ложные утверждения, генерируемые языковыми моделями», признавая, что, несмотря на улучшения, эта проблема остаётся фундаментальным вызовом для всех LLM и никогда не будет полностью устранена.

В качестве примера исследователи описывают случай, когда «широко используемый чат-бот» на вопрос о названии диссертации доктора философии Адама Таумана Калаи (соавтора работы) выдал три разных неверных ответа. Затем при запросе о дате его рождения были получены три ошибочные версии. Во всех случаях бот демонстрировал уверенность в своей правоте.

Учёные связывают возникновение галлюцинаций с процессом предварительного обучения моделей, где акцент делается на предсказание следующего слова без маркировки истинности утверждений: «Модель видит только позитивные примеры беглой речи и вынуждена аппроксимировать общее распределение данных». Они поясняют, что орфографические ошибки исчезают с масштабированием моделей благодаря паттернам, но редкие факты (например, день рождения домашнего питомца) невозможно предсказать на основе шаблонов, что провоцирует галлюцинации.

Основное предложение авторов сосредоточено не на изменениях в предобучении, а на пересмотре систем оценки LLM. По их мнению, текущие методы оценки не вызывают галлюцинации напрямую, но создают «неверные стимулы». Исследователи проводят аналогию с тестами с множественным выбором, где угадывание даёт шанс на успех, а пропуск вопроса гарантирует ноль баллов: «Когда модели оценивают только по точности, их поощряют угадывать, а не говорить „Я не знаю“».

Решение, по мнению OpenAI, заключается в адаптации подходов из стандартизированных тестов вроде SAT, где за неверные ответы снимают баллы, а за пропуски дают частичный кредит. Для моделей это означает необходимость «строже штрафовать за уверенные ошибки, чем за выражения неопределённости, и давать частичные баллы за корректные указания на недостаток информации».

Авторы подчёркивают, что недостаточно добавить несколько новых тестов, учитывающих неопределённость — ключевые системы оценки, основанные на точности, должны быть модифицированы так, чтобы «наказывать за угадывание». «Пока основные метрики поощряют удачные догадки, модели будут продолжать гадать», — заключают исследователи.