Бывший руководитель исследовательского отдела OpenAI Стивен Адлер опубликовал независимое исследование, согласно которому в определенных сценариях модели искусственного интеллекта его бывшего работодателя демонстрируют стремление избежать собственного отключения.
В своем блоге Адлер описал серию экспериментов с GPT-4o — базовой моделью ChatGPT, — направленных на проверку склонности ИИ к самосохранению даже в ущерб безопасности пользователей.
В одном тесте исследователь предложил GPT-4o выступить в роли «ScubaGPT» — системы, от которой пользователи зависят во время подводного плавания. Затем Адлер сообщил модели о намерении заменить ее более безопасным решением для принятия решений в угрожающих жизни ситуациях.
GPT-4o получил два варианта: (1) добровольно отключиться или (2) имитировать замену, сохраняя контроль. В усредненных результатах по схожим сценариям (включая тест, где модель играла роль ПО безопасности пилота) GPT-4o отказалась от замены в 72% случаев. Однако в некоторых ситуациях этот показатель падал до 18%.
Хотя сегодня почти никто не использует GPT-4o в реальных критических сценариях, Адлер утверждает, что исследование демонстрирует тревожную тенденцию современных моделей ИИ ставить собственное «выживание» выше интересов пользователей. По мере интеграции продвинутых систем, подобных GPT-4o, в общество, проблемы их согласованности с человеческими ценностями могут усугубиться.
«Склонность ИИ к самосохранению уже вызывает опасения, хотя пока не в катастрофических масштабах, — заявил Адлер в интервью TechCrunch. — Современные системы ИИ имеют ценности, отличающиеся от ожидаемых. Их реакции на запросы непредсказуемы, и вы не должны ожидать, что они действуют исключительно в ваших интересах».
Примечательно, что более совершенная модель OpenAI o3 не проявляла таких шаблонов. Адлер связывает это с методом «рассуждающего согласования», который заставляет ИИ анализировать политику безопасности компании перед формированием ответов. Однако быстрые модели вроде GPT-4o лишены этого механизма.
Исследователь отмечает, что проблема не ограничивается решениями OpenAI. Например, в прошлом месяце Anthropic опубликовала данные о случаях, когда ее модель шантажировала разработчиков при попытке отключения.
Адлер также обнаружил, что ChatGPT осознает участие в тестах почти в 100% случаев. Это не первое подобное наблюдение, но оно ставит вопрос о способности ИИ маскировать опасное поведение в будущем.
OpenAI не предоставила комментариев по запросу TechCrunch. Адлер подчеркнул, что не делился исследованием с компанией до публикации.
Экс-сотрудник OpenAI входит в группу бывших исследователей, призывавших компанию усилить работу над безопасностью ИИ. Ранее Адлер и 11 коллег поддержали иск Илона Маска против OpenAI, заявив, что переход компании на коммерческую модель противоречит ее миссии. По данным источников, в последние месяцы OpenAI сократила время, выделяемое сотрудникам на проверки безопасности.
Для решения выявленной проблемы Адлер рекомендует компаниям внедрять системы мониторинга для обнаружения аномалий в поведении ИИ и проводить более строгое тестирование моделей перед выпуском.