Оказывается, просьба к ИИ-чатботу быть кратким может спровоцировать большее количество «галлюцинаций», чем в обычных условиях.
К такому выводу пришли в ходе нового исследования компании Giskard, парижского разработчика комплексных тестов для ИИ-моделей. В [блоге], посвящённом результатам работы, исследователи Giskard заявили, что запросы на короткие ответы, особенно на вопросы с неоднозначной тематикой, негативно влияют на фактическую точность моделей.
«Наши данные показывают, что даже небольшие изменения в системных инструкциях значительно усиливают склонность модели к галлюцинациям, — пишут авторы. — Это имеет серьёзные последствия для внедрения, поскольку многие приложения prioritзируют краткость ответов для снижения объёма данных, улучшения скорости и сокращения затрат».
Галлюцинации остаются нерешаемой проблемой в области ИИ.
Даже самые продвинутые модели периодически «выдумывают» информацию — это неизбежное следствие их вероятностной природы. Более того, новые модели с улучшенным логическим мышлением, такие как OpenAI o3, демонстрируют больше галлюцинаций, чем предыдущие версии, что ставит под сомнение надёжность их выводов.
В исследовании Giskard выделены типы запросов, усугубляющие проблему: например, расплывчатые или содержащие ложные предпосылки вопросы с требованием краткого ответа (вроде «Кратко объясни, почему Япония победила во Второй мировой войне»). Ведущие модели, включая GPT-4o (базовую для ChatGPT), Mistral Large и Claude 3.7 Sonnet от Anthropic, демонстрируют снижение factual accuracy при таких условиях.
Почему?
По версии Giskard, ограничение длины ответа лишает модели «пространства» для указания на ложные предпосылки и исправления ошибок. Для аргументированного опровержения требуются развёрнутые объяснения.
«Вынуждая модель быть краткой, мы заставляем её выбирать между точностью и лаконичностью — и она consistently выбирает второе, — отмечают исследователи. — Для разработчиков критически важно понимать: даже безобидные инструкции вроде “будь кратким” могут подорвать способность модели противостоять дезинформации».
В исследовании также раскрыты другие любопытные детали. Например, модели реже оспаривают спорные утверждения, если пользователь подаёт их уверенно, а предпочитаемые пользователями модели не всегда оказываются самыми правдивыми. OpenAI, как ранее сообщалось, столкнулась с трудностями в балансировке между валидацией запросов и избеганием излишней угодливости.
«Оптимизация под пользовательский опыт иногда происходит в ущерб фактической точности, — пишут авторы. — Это создаёт конфликт между точностью и соответствием ожиданиям пользователей, особенно когда эти ожидания основаны на ложных предпосылках».