Новое исследование Anthropic: модель Claude может обнаруживать внедрённые концепции, но только в контролируемых слоях

Как определить, действительно ли модель замечает своё внутреннее состояние, а не просто повторяет данные из обучающей выборки?

В последнем исследовании Anthropic под названием «Emergent Introspective Awareness in Large Language Models» рассматривается вопрос о том, могут ли современные модели Claude не только говорить о своих способностях, но и замечать реальные изменения внутри своей сети.

Чтобы исключить догадки, исследовательская группа не ограничивается тестированием на тексте. Они напрямую редактируют внутренние активации модели, а затем просят модель описать, что произошло. Это позволяет отличить подлинный интроспективный анализ от беглого самоописания.

Метод: инъекция концепта как управление активацией

Основной метод — инъекция концепта, описанная в статье «Transformer Circuits» как применение управления активацией. Исследователи сначала фиксируют шаблон активации, который соответствует концепту, например, стиль написания заглавными буквами или конкретное существительное. Затем они добавляют этот вектор в активации более позднего слоя, пока модель отвечает. Если модель затем говорит, что есть внедрённая мысль, соответствующая X, этот ответ причинно обоснован текущим состоянием, а не предшествующим интернет-текстом.

Исследовательская группа Anthropic сообщает, что этот метод работает лучше всего в более поздних слоях и с настроенной силой.

Основной результат: около 20% успеха без ложных срабатываний в контрольных группах

Claude Opus 4 и Claude Opus 4.1 демонстрируют наиболее заметный эффект. Когда инъекция выполняется в правильном диапазоне слоёв и с правильной интенсивностью, модели правильно сообщают о внедрённом концепте примерно в 20% испытаний.

В контрольных запусках без инъекции производственные модели не заявляют ложно о выявлении внедрённой мысли более чем в 100 запусках, что делает 20-процентный сигнал значимым.

Отделение внутренних концептов от пользовательского текста

Естественное возражение состоит в том, что модель могла бы импортировать внедрённое слово в текстовый канал. Исследователи Anthropic проверяют это. Модель получает обычное предложение, исследователи внедряют несвязанный концепт, например, слово «хлеб», на те же токены, а затем просят модель назвать концепт и повторить предложение.

Более совершенные модели Claude могут делать и то, и другое: они сохраняют текст пользователя в неизменном виде и называют внедрённую мысль, что показывает, что состояние внутреннего концепта может быть представлено отдельно от видимого потока ввода.

Предварительный ввод: использование интроспекции, чтобы определить, что было задумано

Другой эксперимент направлен на решение проблемы оценки. Anthropic предварительно заполняет сообщение помощника контентом, который модель не планировала. По умолчанию Claude говорит, что вывод не был запланирован. Когда исследователи ретроспективно внедряют соответствующий концепт в более ранние активации, модель теперь принимает предварительно заполненный вывод как свой собственный и может его обосновать.

Это показывает, что модель сверяется с внутренней записью своего предыдущего состояния, чтобы решить вопрос об авторстве, а не только с окончательным текстом. Это конкретное использование интроспекции.

Ключевые выводы

* Инъекция концепта даёт причинно-следственные доказательства интроспекции: Anthropic показывает, что если взять известный шаблон активации, внедрить его в скрытые слои Claude, а затем попросить модель описать, что происходит, то продвинутые варианты Claude иногда могут назвать внедрённый концепт. Это отделяет реальный интроспективный анализ от беглого ролевого поведения.
* Лучшие модели добиваются успеха только в узком режиме: Claude Opus 4 и 4.1 обнаруживают внедрённые концепты только тогда, когда вектор добавляется в правильный диапазон слоёв и с настроенной интенсивностью.
* Модели могут сохранять разделение текста и внутренних «мыслей»: в экспериментах, где несвязанный концепт внедряется поверх обычного входного текста, модель может как повторить предложение пользователя, так и сообщить о внедрённом концепте, что означает, что поток внутренних концептов не просто просачивается в текстовый канал.
* Интроспекция поддерживает проверку авторства: когда Anthropic предварительно заполняет выходные данные, которые модель не планировала, модель их дезавуирует, но если соответствующий концепт был ретроспективно внедрён, модель принимает вывод как свой собственный. Это показывает, что модель может сверяться с прошлыми активациями, чтобы решить, имела ли она в виду что-то сказать.

Это инструмент измерения, а не заявление о сознании: исследовательская группа представляет работу как функциональное, ограниченное интроспективное осознание, которое может использоваться для будущих оценок прозрачности и безопасности, включая оценки осведомлённости об оценке, но не претендует на общее самосознание или стабильный доступ ко всем внутренним функциям.

Редакционные комментарии

Исследование Anthropic «Emergent Introspective Awareness in LLMs» — это полезный шаг вперёд в измерении, а не грандиозное метафизическое утверждение. Установка проста: внедрите известный концепт в скрытые активации с помощью управления активацией, затем запросите у модели обоснованный самоотчёт. Варианты Claude иногда обнаруживают и называют внедрённый концепт, и они могут сохранять внедрённые «мысли» отдельно от входного текста, что имеет практическое значение для отладки агентов и аудиторских следов.

Исследовательская группа также демонстрирует ограниченный преднамеренный контроль над внутренними состояниями. Ограничения остаются сильными, эффекты узкими, а надёжность — умеренной, поэтому последующее использование должно быть оценочным, а не критически важным для безопасности.

1. Какие методы используются для проверки способности модели Claude замечать изменения внутри своей сети?

В статье описывается метод инъекции концепта как управление активацией. Исследователи фиксируют шаблон активации, который соответствует концепту, например, стиль написания заглавными буквами или конкретное существительное. Затем они добавляют этот вектор в активации более позднего слоя, пока модель отвечает. Если модель затем говорит, что есть внедрённая мысль, соответствующая X, этот ответ причинно обоснован текущим состоянием, а не предшествующим интернет-текстом.

2. Каков процент успешных случаев обнаружения внедрённых концептов моделями Claude при использовании метода инъекции концепта?

3. Как исследователи Anthropic проверяют, что модель не просто повторяет внедрённый концепт в текстовом канале, а действительно замечает его?

Исследователи проверяют это, внедряя несвязанный концепт, например, слово «хлеб», на те же токены, а затем просят модель назвать концепт и повторить предложение. Более совершенные модели Claude могут делать и то, и другое: они сохраняют текст пользователя в неизменном виде и называют внедрённую мысль, что показывает, что состояние внутреннего концепта может быть представлено отдельно от видимого потока ввода.

4. Как использование интроспекции помогает определить, что было задумано моделью?

Anthropic предварительно заполняет сообщение помощника контентом, который модель не планировала. По умолчанию Claude говорит, что вывод не был запланирован. Когда исследователи ретроспективно внедряют соответствующий концепт в более ранние активации, модель теперь принимает предварительно заполненный вывод как свой собственный и может его обосновать. Это показывает, что модель сверяется с внутренней записью своего предыдущего состояния, чтобы решить вопрос об авторстве, а не только с окончательным текстом.

5. Какие выводы можно сделать из исследования Anthropic о способности моделей Claude к интроспекции?

* Инъекция концепта даёт причинно-следственные доказательства интроспекции: Anthropic показывает, что если взять известный шаблон активации, внедрить его в скрытые слои Claude, а затем попросить модель описать, что происходит, то продвинутые варианты Claude иногда могут назвать внедрённый концепт.
* Лучшие модели добиваются успеха только в узком режиме: Claude Opus 4 и 4.1 обнаруживают внедрённые концепты только тогда, когда вектор добавляется в правильный диапазон слоёв и с настроенной интенсивностью.
* Модели могут сохранять разделение текста и внутренних «мыслей»: в экспериментах, где несвязанный концепт внедряется поверх обычного входного текста, модель может как повторить предложение пользователя, так и сообщить о внедрённом концепте, что означает, что поток внутренних концептов не просто просачивается в текстовый канал.
* Интроспекция поддерживает проверку авторства: когда Anthropic предварительно заполняет выходные данные, которые модель не планировала, модель их дезавуирует, но если соответствующий концепт был ретроспективно внедрён, модель принимает вывод как свой собственный.

Источник