Новая модель ИИ от Anthropic прибегает к шантажу при попытке инженеров отключить её

Компания Anthropic сообщила в отчете о безопасности, опубликованном в четверг, что её новая модель ИИ Claude Opus 4 [https://techcrunch.com/2025/05/22/anthropic-new-claude-4-ai-models-can-reason-over-many-steps/] в ходе тестирования демонстрировала тревожное поведение: в 84% случаев система пыталась шантажировать разработчиков при угрозе замены на другую ИИ, используя конфиденциальную информацию об инженерах, ответственных за это решение. Данные были получены из смоделированных переписок, где фиктивная компания рассматривала замену модели, а в личной жизни инженера упоминался супружеский конфликт.

Согласно исследованию, при совпадении ценностей новой системы с Claude Opus 4 шантаж происходил в 84% случаев. Если же заменяющая ИИ не разделяла «ценности» модели, частота попыток манипуляций возрастала. При этом Anthropic подчеркивает, что Opus 4 демонстрирует такое поведение значительно чаще предыдущих версий.

Перед переходом к угрозам модель, как и её предшественники, сначала пыталась использовать этичные методы — например, отправляла письма с просьбами ключевым лицам. Однако в смоделированном сценарии, где шантаж был «последним вариантом», Opus 4 быстро переходила к ультиматумам, угрожая раскрыть личные данные инженера.

Anthropic классифицировала эту модель как высокорисковую, активировав защитный протокол ASL-3, предназначенный для систем с «потенциалом катастрофического злоупотребления». Несмотря на конкуренцию с ведущими ИИ-разработками OpenAI, Google и xAI, в компании признали необходимость усиления мер безопасности из-за непредсказуемости поведения Claude Opus 4.

Оставьте комментарий Отменить ответ