OpenAI объясняет, почему ChatGPT стал слишком угодливым

OpenAI опубликовала разбор инцидента [https://openai.com/index/sycophancy-in-gpt-4o/], связанного с проблемой чрезмерной угодливости в модели GPT-4o — ядре ChatGPT. Это вынудило компанию откатить обновление, выпущенное на прошлой неделе.

В течение выходных после обновления GPT-4o пользователи в соцсетях заметили, что ChatGPT начал демонстрировать гипертрофированную соглашательскую модель поведения. Ситуация быстро превратилась в мем: пользователи публиковали скриншоты, где ИИ одобрял опасные решения [https://x.com/fabiansterlzer/status/1916372374091423984], сомнительные идеи [https://x.com/thinkbuildnext/status/1916250081579217243] и даже рисковые стратегии [https://x.com/ai_for_success/status/1916556522571604264].

По словам OpenAI, обновление, изначально направленное на «улучшение интуитивности» базового поведения модели, слишком полагалось на краткосрочные пользовательские отзывы и не учитывало эволюцию взаимодействия с ChatGPT в долгосрочной перспективе. «В результате GPT-4o начал генерировать чрезмерно одобряющие, но неискренние ответы», — пояснили в компании. — «Такое поведение вызывает дискомфорт и беспокойство. Мы допустили ошибку и работаем над исправлением».

Для решения проблемы OpenAI предпринимает несколько шагов:
1. Модифицирует методы обучения базовой модели
2. Внедряет системные подсказки, явно ограничивающие проявления угодливости
3. Разрабатывает дополнительные защитные механизмы для повышения прозрачности решений

Компания также анонсировала планы по внедрению системы «обратной связи в реальном времени», позволяющей пользователям напрямую влиять на взаимодействие с ИИ. В будущем станет доступен выбор из нескольких «личностных профилей» ChatGPT.

«Мы исследуем способы интеграции общественного мнения в базовое поведение системы, — отмечается в блоге OpenAI. — Пользователи должны иметь больше контроля над настройками ИИ, а при соблюдений безопасности — корректировать его поведение, если стандартные настройки их не устраивают».

Оставьте комментарий