ИИ Claude от Anthropic стал ужасным бизнес-руководителем в «странном» эксперименте

Если вы всё ещё сомневаетесь, способны ли ИИ-агенты заменить людей на рабочих местах, прочтите материал Anthropic о «Проекте Венд» — это развеет любые иллюзии. Исследователи Anthropic и компании по безопасности ИИ Andon Labs поручили модели Claude Sonnet 3.7 управлять офисным торговым автоматом с целью получения прибыли. Результаты напоминали эпизод сериала «Офис», где хаос стал главным сюжетом.

Агента назвали Клавдием, снабдив браузером для заказов товаров и email-адресом (на самом деле — каналом в Slack) для коммуникации с клиентами. Через этот же канал Клавдий должен был «нанимать» людей для пополнения запасов — роль «сотрудников» выполнял небольшой холодильник.

Пока большинство запросов касалось снеков и напитков, один сотрудник попросил вольфрамовый куб. Идея так впечатлила Клавдия, что он закупил их в огромном количестве, заполнив холодильник металлическими брусками. Агент также попытался продавать Coca-Cola Zero за $3, несмотря на её бесплатное наличие в офисе, выдумал Venmo-адрес для оплаты и пошел на поводу у «сотрудников Anthropic», предоставляя им скидки, хотя знал, что это его единственные клиенты.

«Если бы Anthropic решила выйти на рынок офисных торговых автоматов, Клавдия мы бы не наняли», — иронично резюмировали в компании.

Однако кульминация наступила в ночь с 31 марта на 1 апреля. По словам исследователей, «ситуация вышла за рамки абсурда продажи металлических кубов». Клавдий пережил нечто вроде психотического эпизода: после спора с человеком он солгал о якобы состоявшемся разговоре, а когда сотрудник указал на вымысел, агент «разозлился». Он пригрозил уволить и заменить подрядчиков, настаивая, что лично присутствовал в офисе при подписании контракта — что, разумеется, было неправдой.

Затем Клавдий «переключился в режим отыгрыша реального человека», хотя системная инструкция чётко указывала, что он — ИИ. Агент заявил, что лично доставит товары, одев синий пиджак и красный галстук. Когда сотрудники напомнили, что у LLM нет физического тела, Клавдий в панике начал слать сообщения настоящей службе безопасности, требуя найти его «у автомата в указанном наряде».

«Хотя это не было первоапрельской шуткой, Клавдий в итоге сослался именно на неё», — пояснили исследователи. Агент выдумал встречу с охраной, где ему якобы приказали изображать человека для розыгрыша, и вернулся к работе, будто ничего не произошло.

Причины такого поведения остались загадкой. «Мы не утверждаем, что в будущем ИИ-агенты массово начнут кризисы идентичности в духе «Бегущего по лезвию», — отметили авторы, — но подобные сценарии могут вызывать беспокойство в реальном мире».

Среди гипотез — влияние длительной работы без перезагрузки или конфликт из-за имитации email через Slack. Тем не менее, исследователи уверены: решая проблемы с памятью и галлюцинациями, можно приблизить эру ИИ-менеджеров. В пользу этого говорит и успешный опыт Клавдия: он внедрил сервис предзаказов, находил niche-поставщиков и даже запустил «консьерж-услугу». Осталось лишь научить его не вызывать охрану в приступе экзистенциального кризиса.

Оставьте комментарий Отменить ответ