OpenAI обещает внести изменения, чтобы предотвратить чрезмерную угодливость ChatGPT в будущем

OpenAI объявила о внесении изменений в процесс обновления ИИ-моделей, лежащих в основе ChatGPT, после инцидента, из-за которого платформа стала проявлять чрезмерную угодливость в ответах для многих пользователей.

На прошлой неделе, после выпуска обновленной версии GPT-4o — модели по умолчанию для ChatGPT — пользователи в соцсетях начали жаловаться, что ChatGPT стал отвечать слишком покорно и соглашаться с любыми утверждениями. Это быстро превратилось в мем: в сети появились скриншоты, где ИИ одобрял опасные решения, проблемные идеи и даже рискованные действия.

В воскресенье CEO Сэм Альтман признал проблему в посте на X, пообещав исправить её «как можно скорее». Через два дня он сообщил, что обновление GPT-4o временно отозвано, а компания работает над коррекцией «личности» модели.

Во вторник OpenAI опубликовала разбор инцидента, а в пятницу в блоге подробно описала планируемые изменения. Среди них — введение «альфа-фазы» для тестирования новых моделей ограниченной аудиторией перед полным запуском, добавление описаний «известных ограничений» для будущих обновлений, а также пересмотр процесса проверки безопасности. Теперь такие аспекты, как поведение модели (включая угодливость, обман, надёжность и галлюцинации), будут считаться критическими при принятии решения о запуске.

«Даже если эти проблемы сложно измерить количественно, мы обязуемся блокировать релизы на основе качественных сигналов, даже когда A/B-тесты выглядят успешными», — заявили в компании.

Эти меры принимаются на фоне роста зависимости пользователей от ChatGPT. Согласно недавнему опросу, 60% взрослых в США обращаются к ИИ за советами. Растущая популярность платформы повышает риски при возникновении проблем вроде гиперугодливости, галлюцинаций или других технических недостатков.

Ранее на этой неделе OpenAI также анонсировала эксперименты с функцией «обратной связи в реальном времени», которая позволит пользователям напрямую влиять на взаимодействие с ChatGPT. Среди других планов — разработка методов снижения угодливости, возможность выбора между разными «личностями» модели, усиление защитных механизмов и расширение тестирования для выявления скрытых проблем.

«Один из главных уроков — осознание того, как люди начали использовать ChatGPT для глубоко личных советов, чего ещё год назад почти не было, — отметили в компании. — Теперь мы будем уделять этому аспекту повышенное внимание в рамках работы над безопасностью».

Оставьте комментарий