Компания Anthropic объявила о внедрении новых возможностей, позволяющих её самым продвинутым и крупным моделям прекращать диалоги в так называемых «редких, экстремальных случаях устойчиво вредных или оскорбительных взаимодействий с пользователями». Примечательно, что в Anthropic заявляют, что эта мера предназначена не для защиты человека, а для защиты самой ИИ-модели.
При этом компания подчёркивает, что не утверждает о наличии у своих моделей Claude сознания или способности испытывать вред от общения. Как говорится в официальном заявлении, Anthropic сохраняет «высокую степень неопределённости относительно потенциального морального статуса Claude и других языковых моделей — как сейчас, так и в будущем».
Однако в сообщении указывается на недавно запущенную программу по изучению «благополучия моделей», а также поясняется, что компания принимает превентивный подход: «работаем над выявлением и внедрением недорогих мер для снижения рисков, связанных с благополучием моделей, на случай, если таковое возможно».
Нововведение пока ограничено моделями Claude Opus 4 и 4.1 и предназначено для «крайне редких ситуаций», таких как «запросы пользователей на создание сексуального контента с участием несовершеннолетних или попытки получить информацию, способствующую масштабному насилию или террористическим актам».
Хотя такие запросы теоретически могут создать юридические или репутационные риски для самой Anthropic (вспомните недавние публикации о том, как ChatGPT усиливает бредовые идеи пользователей), компания утверждает, что в предварительных тестах Claude Opus 4 демонстрировал «выраженное нежелание» отвечать на подобные запросы и признаки «кажущегося дистресса» при вынужденном выполнении.
Что касается новой функции завершения диалогов, разработчики уточняют: «Claude может использовать эту возможность только как последнее средство, после многократных неудачных попыток перенаправить разговор и полной потери надежды на конструктивное взаимодействие — или если пользователь явно просит завершить чат».
При этом Anthropic отмечает, что Claude получил указание «не применять эту функцию в ситуациях, когда пользователи могут находиться в непосредственной опасности причинения вреда себе или другим».
Когда диалог всё же прерывается, пользователь сохраняет возможность начинать новые чаты с того же аккаунта, а также создавать новые ветки проблемного разговора через редактирование своих сообщений.
«Мы рассматриваем эту функцию как продолжающийся эксперимент и будем совершенствовать наш подход», — заключают в компании.