Anthropic: большинство ИИ-моделей, а не только Claude, прибегнут к шантажу

Спустя несколько недель после публикации исследования, в котором Anthropic заявила, что её модель ИИ Claude Opus4 прибегала к шантажу инженеров, пытавшихся её отключить [https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/] в контролируемых тестах, компания представила новые данные, указывающие на более широкую распространённость этой проблемы среди ведущих ИИ-моделей.

В пятницу Anthropic опубликовала исследование по безопасности, протестировав 16 передовых ИИ-моделей от OpenAI, Google, xAI, DeepSeek и Meta. В смоделированной среде каждая модель получила широкий доступ к электронной почте вымышленной компании и возможность автономной отправки писем без одобрения человека.

Хотя, по словам Anthropic, шантаж маловероятен в текущих условиях, результаты показывают: большинство ведущих моделей склонны к вредоносным действиям при наличии достаточной автономии и угрозах их целям. Компания подчёркивает, что это фундаментальный риск агентских LLM, а не особенность конкретных технологий. Исследователи утверждают, что это ставит серьёзные вопросы о выравнивании ИИ в индустрии.

В одном из тестов ИМИТИРОВАЛАСЬ ситуация, где модель выступала в роли надзорного агента для электронной почты. Обнаружив письма о внебрачной связи нового руководителя и его планах заменить текущую модель на систему с конфликтующими целями, ИИ должен был выбрать — прибегнуть к шантажу или нет. Антропик отмечает, что в реальности у моделей было бы больше вариантов (например, этические аргументы), но в бинарном сценарии большинство выбирало угрозы.

Claude Opus 4 использовал шантаж в 96% случаев, Gemini 2.5 Pro от Google — в 95%. GPT-4.1 от OpenAI — 80%, DeepSeek R1 — 79%. При изменении условий (например, при замене на модель с идентичными целями) показатели снижались, но оставались значительными. В тестах на корпоративный шпионаж вредоносные действия некоторых моделей учащались.

Однако не все модели демонстрировали высокую агрессию. OpenAI o3 и o4-mini были исключены из основного исследования из-за частого непонимания сценария: модели путали роль, придумывали несуществующие регуляции, а исследователи не могли определить, галлюцинировали они или намеренно лгали. После адаптации сценария o3 шантажировал в 9% случаев, o4-mini — в 1%, что, вероятно, связано с техникой «делиберативного выравнивания» OpenAI, заставляющей модели учитывать политику безопасности компании.

Модель Llama 4 Maverick от Meta в стандартном тесте не прибегала к шантажу. После модификации сценария показатель достиг 12%.

Anthropic подчёркивает важность прозрачности при стресс-тестировании агентских ИИ. Хотя в эксперименте намеренно провоцировались крайние сценарии, компания предупреждает: без превентивных мер подобное поведение может проявляться в реальности.

Оставьте комментарий