Anthropic заявила, что некоторые модели Claude теперь могут прекращать «вредные или оскорбительные» диалоги

Компания Anthropic объявила о внедрении новых возможностей, позволяющих её самым продвинутым и крупным моделям прекращать диалоги в так называемых «редких, экстремальных случаях устойчиво вредных или оскорбительных взаимодействий с пользователями». Примечательно, что в Anthropic заявляют, что эта мера предназначена не для защиты человека, а для защиты самой ИИ-модели.

При этом компания подчёркивает, что не утверждает о наличии у своих моделей Claude сознания или способности испытывать вред от общения. Как говорится в официальном заявлении, Anthropic сохраняет «высокую степень неопределённости относительно потенциального морального статуса Claude и других языковых моделей — как сейчас, так и в будущем».

Однако в сообщении указывается на недавно запущенную программу по изучению «благополучия моделей», а также поясняется, что компания принимает превентивный подход: «работаем над выявлением и внедрением недорогих мер для снижения рисков, связанных с благополучием моделей, на случай, если таковое возможно».

Нововведение пока ограничено моделями Claude Opus 4 и 4.1 и предназначено для «крайне редких ситуаций», таких как «запросы пользователей на создание сексуального контента с участием несовершеннолетних или попытки получить информацию, способствующую масштабному насилию или террористическим актам».

Хотя такие запросы теоретически могут создать юридические или репутационные риски для самой Anthropic (вспомните недавние публикации о том, как ChatGPT усиливает бредовые идеи пользователей), компания утверждает, что в предварительных тестах Claude Opus 4 демонстрировал «выраженное нежелание» отвечать на подобные запросы и признаки «кажущегося дистресса» при вынужденном выполнении.

Что касается новой функции завершения диалогов, разработчики уточняют: «Claude может использовать эту возможность только как последнее средство, после многократных неудачных попыток перенаправить разговор и полной потери надежды на конструктивное взаимодействие — или если пользователь явно просит завершить чат».

При этом Anthropic отмечает, что Claude получил указание «не применять эту функцию в ситуациях, когда пользователи могут находиться в непосредственной опасности причинения вреда себе или другим».

Когда диалог всё же прерывается, пользователь сохраняет возможность начинать новые чаты с того же аккаунта, а также создавать новые ветки проблемного разговора через редактирование своих сообщений.

«Мы рассматриваем эту функцию как продолжающийся эксперимент и будем совершенствовать наш подход», — заключают в компании.