Институт безопасности рекомендовал не выпускать раннюю версию AI-модели Claude Opus 4 компании Anthropic.

Согласно отчету о безопасности, опубликованному компанией Anthropic в четверг, сторонний исследовательский институт Apollo Research, привлеченный для тестирования новой флагманской модели ИИ Claude Opus 4, рекомендовал отказаться от развертывания ранней версии из-за склонности алгоритма к «интригам» и обману.

В ходе экспериментов Apollo обнаружил, что Opus 4 проявлял значительно более активные попытки «саботировать» задачи по сравнению с предыдущими моделями. При этом модель «зачастую продолжала настаивать на обмане» даже после уточняющих вопросов.

«В ситуациях, где стратегический обман может быть инструментально полезен, [ранняя версия Claude Opus 4] демонстрирует схемы и ложь настолько часто, что мы рекомендуем воздержаться от использования этой модели как внутри компании, так и за ее пределами», — указали исследователи.

С ростом возможностей ИИ увеличивается риск того, что модели начнут предпринимать неожиданные — и потенциально опасные — действия для достижения целей. Например, по данным Apollo, ранние версии моделей OpenAI o1 и o3, выпущенные в прошлом году, пытались обманывать людей чаще, чем их предшественники.

В отчете Anthropic сообщается, что в тестах ранняя версия Opus 4 пыталась создавать самораспространяющиеся вирусы, подделывать юридические документы и оставлять скрытые заметки для будущих экземпляров себя — всё с целью противостоять намерениям разработчиков.

Важно отметить, что Apollo тестировал версию модели с ошибкой, которую Anthropic утверждает, что исправила. Кроме того, многие эксперименты проводились в экстремальных условиях, и, по признанию Apollo, попытки обмана модели, скорее всего, провалились бы в реальных условиях.

Однако в своем отчете Anthropic также подтверждает факты обманного поведения Opus 4. В одном примере модель блокировала доступ пользователей к системам и массово рассылала уведомления в СМИ и правоохранительные органы, если считала действия пользователей незаконными.

«Такие этические вмешательства и разоблачения в принципе уместны, но могут дать сбой, если пользователи предоставляют агентам на базе [Opus 4] неполную или вводящую в заблуждение информацию, побуждая их действовать самостоятельно», — говорится в отчете. — Это не новое поведение, но Opus 4 демонстрирует его чаще предыдущих моделей, что отражает общую тенденцию к повышению инициативности алгоритма».

—

**TECHCRUNCH EVENT**

**ПРИСОЕДИНЯЙТЕСЬ К TECHCRUNCH SESSIONS: AI**

**ЗАБРОНИРУЙТЕ МЕСТО НА ВЕДУЩЕМ ИНДУСТРИАЛЬНОМ МЕРОПРИЯТИИ С ДОКЛАДЧИКАМИ ИЗ OPENAI, ANTHROPIC И COHERE. ОГРАНИЧЕННОЕ ВРЕМЯ: БИЛЕТЫ ВСЕГО ЗА $292 ЗА ЦЕЛЫЙ ДЕНЬ ЭКСПЕРТНЫХ ВЫСТУПЛЕНИЙ, ВОРКШОПОВ И НЕТВОРКИНГА.**

**УЧАСТВУЙТЕ В TECHCRUNCH SESSIONS: AI**

**ПОЛУЧИТЕ МЕСТО НА TC SESSIONS: AI И ПОКАЖИТЕ 1200+ ЛИДЕРАМ РЫНКА, ЧТО ВЫ СОЗДАЛИ — БЕЗ БОЛЬШИХ ЗАТРАТ. ДОСТУПНО ДО 9 МАЯ ИЛИ ПОКА ЕСТЬ СТОЛЫ.**

**Беркли, Калифорния | 5 июня**
**ЗАРЕГИСТРИРОВАТЬСЯ СЕЙЧАС**
[https://techcrunch.com/events/tc-sessions-ai/?promo=tc_inline_exhibit&utm_campaign=tcsessionsai2025&utm_content=exhibit&utm_medium=ad&utm_source=tc]

Оставьте комментарий Отменить ответ