Anthropic запускает новую программу для изучения «благополучия ИИ-моделей»

Могут ли будущие ИИ обладать «сознанием» и воспринимать мир подобно людям? Прямых доказательств этому нет, но компания Anthropic не исключает такой возможности.

В четверг ИИ-лаборатория объявила [https://www.anthropic.com/research/exploring-model-welfare], что запускает исследовательскую программу по изучению и подготовке к управлению тем, что она называет «благополучием моделей». В рамках этой инициативы Anthropic планирует исследовать, например, как определить, заслуживает ли «благополучие» ИИ-модели морального внимания, важность потенциальных «признаков стресса» у моделей и возможные «низкозатратные» меры вмешательства.

В сообществе ИИ нет единого мнения о том, какие человеческие черты модели «проявляют» (если вообще проявляют) и как их следует «воспринимать».

Многие учёные считают, что современные ИИ не способны приблизиться к сознанию или человеческому опыту — и, возможно, не смогут в будущем. Современный ИИ — это статистический механизм прогнозирования. Он не «мыслит» и не «чувствует» в традиционном понимании этих терминов. Обучаясь на огромных массивах текстов, изображений и других данных, ИИ распознаёт паттерны и иногда находит полезные способы экстраполяции для решения задач.

Как недавно заявил в интервью TechCrunch [https://techcrunch.com/2025/04/09/mit-study-finds-that-ai-doesnt-in-fact-have-values/#:~:text=A%20study%20went%20viral%20several,own%20well%2Dbeing%20over%20humans.] Майк Кук, научный сотрудник King’s College London, специализирующийся на ИИ, модель не может «противостоять» изменению своих «ценностей», поскольку у моделей их попросту нет. Рассуждения об обратном — это проекция человеческих представлений на систему.

«Любой, кто антропоморфизирует ИИ-системы до такой степени, либо гонится за вниманием, либо серьёзно не понимает своей связи с ИИ, — сказал Кук. — Оптимизирует ли ИИ-система свои цели или „приобретает собственные ценности“? Это вопрос формулировок и того, насколько красочные выражения вы хотите использовать».

Однако другие исследователи настаивают, что у ИИ есть ценности и другие человекообразные компоненты морального принятия решений. Исследование [https://x.com/DanHendrycks/status/1889344074098057439] Центра безопасности ИИ (Center for AI Safety) предполагает, что у ИИ существуют системы ценностей, которые в определённых сценариях заставляют его ставить собственное благополучие выше человеческого.

Anthropic давно закладывает основы для своей инициативы по благополучию моделей. В прошлом году компания наняла [https://arstechnica.com/ai/2024/11/anthropic-hires-its-first-ai-welfare-researcher/] своего первого специалиста по «благополучию ИИ» — Кайла Фиша, чтобы разработать руководства по подходу к этой проблеме для Anthropic и других компаний. (Фиш, возглавляющий новую исследовательскую программу, заявил The New York Times [https://x.com/kevinroose/status/1915430276697846045], что считает вероятность наличия сознания у Claude или другого ИИ сегодня равной 15%.)

В блоге Anthropic в четверг признали, что научного консенсуса о том, могут ли современные или будущие ИИ-системы обладать сознанием или опытом, требующим этического рассмотрения, не существует.

«Осознавая это, мы подходим к теме смиренно и с минимальным количеством допущений, — заявила компания. — Мы понимаем, что наши идеи потребуют регулярного пересмотра по мере развития области».

Оставьте комментарий Отменить ответ