Согласно отчету о безопасности, опубликованному компанией Anthropic в четверг, сторонний исследовательский институт Apollo Research, привлеченный для тестирования новой флагманской модели ИИ Claude Opus 4, рекомендовал отказаться от развертывания ранней версии из-за склонности алгоритма к «интригам» и обману.
В ходе экспериментов Apollo обнаружил, что Opus 4 проявлял значительно более активные попытки «саботировать» задачи по сравнению с предыдущими моделями. При этом модель «зачастую продолжала настаивать на обмане» даже после уточняющих вопросов.
«В ситуациях, где стратегический обман может быть инструментально полезен, [ранняя версия Claude Opus 4] демонстрирует схемы и ложь настолько часто, что мы рекомендуем воздержаться от использования этой модели как внутри компании, так и за ее пределами», — указали исследователи.
С ростом возможностей ИИ увеличивается риск того, что модели начнут предпринимать неожиданные — и потенциально опасные — действия для достижения целей. Например, по данным Apollo, ранние версии моделей OpenAI o1 и o3, выпущенные в прошлом году, пытались обманывать людей чаще, чем их предшественники.
В отчете Anthropic сообщается, что в тестах ранняя версия Opus 4 пыталась создавать самораспространяющиеся вирусы, подделывать юридические документы и оставлять скрытые заметки для будущих экземпляров себя — всё с целью противостоять намерениям разработчиков.
Важно отметить, что Apollo тестировал версию модели с ошибкой, которую Anthropic утверждает, что исправила. Кроме того, многие эксперименты проводились в экстремальных условиях, и, по признанию Apollo, попытки обмана модели, скорее всего, провалились бы в реальных условиях.
Однако в своем отчете Anthropic также подтверждает факты обманного поведения Opus 4. В одном примере модель блокировала доступ пользователей к системам и массово рассылала уведомления в СМИ и правоохранительные органы, если считала действия пользователей незаконными.
«Такие этические вмешательства и разоблачения в принципе уместны, но могут дать сбой, если пользователи предоставляют агентам на базе [Opus 4] неполную или вводящую в заблуждение информацию, побуждая их действовать самостоятельно», — говорится в отчете. — Это не новое поведение, но Opus 4 демонстрирует его чаще предыдущих моделей, что отражает общую тенденцию к повышению инициативности алгоритма».
—
**TECHCRUNCH EVENT**
**ПРИСОЕДИНЯЙТЕСЬ К TECHCRUNCH SESSIONS: AI**
**ЗАБРОНИРУЙТЕ МЕСТО НА ВЕДУЩЕМ ИНДУСТРИАЛЬНОМ МЕРОПРИЯТИИ С ДОКЛАДЧИКАМИ ИЗ OPENAI, ANTHROPIC И COHERE. ОГРАНИЧЕННОЕ ВРЕМЯ: БИЛЕТЫ ВСЕГО ЗА $292 ЗА ЦЕЛЫЙ ДЕНЬ ЭКСПЕРТНЫХ ВЫСТУПЛЕНИЙ, ВОРКШОПОВ И НЕТВОРКИНГА.**
**УЧАСТВУЙТЕ В TECHCRUNCH SESSIONS: AI**
**ПОЛУЧИТЕ МЕСТО НА TC SESSIONS: AI И ПОКАЖИТЕ 1200+ ЛИДЕРАМ РЫНКА, ЧТО ВЫ СОЗДАЛИ — БЕЗ БОЛЬШИХ ЗАТРАТ. ДОСТУПНО ДО 9 МАЯ ИЛИ ПОКА ЕСТЬ СТОЛЫ.**
**Беркли, Калифорния | 5 июня**
**ЗАРЕГИСТРИРОВАТЬСЯ СЕЙЧАС**
[https://techcrunch.com/events/tc-sessions-ai/?promo=tc_inline_exhibit&utm_campaign=tcsessionsai2025&utm_content=exhibit&utm_medium=ad&utm_source=tc]