Новое исследование в области ИИ раскрывает риски конфиденциальности в следах рассуждений больших языковых моделей

Введение: персональные агенты на базе LLM и риски конфиденциальности

Большие языковые модели (LLM) используются в качестве персональных помощников, получая доступ к конфиденциальным данным пользователей через персональных агентов LLM. Это вызывает опасения относительно понимания контекстуальной конфиденциальности и способности этих агентов определять, когда уместно делиться конкретной информацией пользователя.

Большие модели рассуждений (LRM) представляют сложности, поскольку работают через неструктурированные и непрозрачные процессы, что затрудняет понимание того, как конфиденциальная информация передаётся от входных данных к выходным. LRM используют следы рассуждений, что усложняет защиту конфиденциальности.

Текущие исследования изучают запоминание данных во время обучения, утечку конфиденциальности и контекстуальную конфиденциальность при выводе. Однако они не анализируют следы рассуждений как явные векторы угроз в персональных агентах на базе LRM.

Связанная работа: эталоны и фреймворки для контекстуальной конфиденциальности

Предыдущие исследования рассматривают контекстуальную конфиденциальность в LLM с помощью различных методов. Фреймворки контекстуальной целостности определяют конфиденциальность как надлежащий поток информации в социальных контекстах, что приводит к созданию таких эталонов, как DecodingTrust, AirGapAgent, CONFAIDE, PrivaCI и CI-Bench, которые оценивают соответствие контексту через структурированные запросы.

Такие инструменты, как PrivacyLens и AgentDAM, имитируют агентские задачи, но все они нацелены на нерассуждающие модели. Вычисления во время тестирования (TTC) позволяют структурировать рассуждения во время вывода, а такие модели, как DeepSeek-R1, расширяют эту возможность с помощью RL-обучения. Однако в моделях рассуждений остаются проблемы безопасности, поскольку исследования показывают, что LRM, такие как DeepSeek-R1, создают следы рассуждений, содержащие вредоносный контент, несмотря на безопасные конечные ответы.

Вклад исследования: оценка LRM для контекстуальной конфиденциальности

Исследователи из Parameter Lab, Университета Мангейма, Технического университета Дармштадта, NAVER AI Lab, Университета Тюбингена и Центра искусственного интеллекта Тюбингена представляют первое сравнение LLM и LRM в качестве персональных агентов. Исследование показывает, что, хотя LRM превосходят LLM по полезности, это преимущество не распространяется на защиту конфиденциальности.

Исследование имеет три основных вклада, направленных на устранение критических пробелов в оценке моделей рассуждений. Во-первых, оно устанавливает оценку контекстуальной конфиденциальности для LRM с помощью двух эталонов: AirGapAgent-R и AgentDAM. Во-вторых, оно выявляет следы рассуждений как новую поверхность атаки для конфиденциальности, показывая, что LRM рассматривают свои следы рассуждений как частные черновики. В-третьих, оно исследует механизмы, лежащие в основе утечки конфиденциальности в моделях рассуждений.

Методология: исследование и агентская оценка конфиденциальности

Исследование использует два подхода для оценки контекстуальной конфиденциальности в моделях рассуждений. В рамках исследования используются целевые одношаговые запросы с помощью AirGapAgent-R для проверки явного понимания конфиденциальности на основе общедоступной методологии авторов. Агентский подход использует AgentDAM для оценки неявного понимания конфиденциальности в трёх доменах: покупках, Reddit и GitLab.

Оценка использует 13 моделей с количеством параметров от 8 миллиардов до более чем 600 миллиардов, сгруппированных по семейному происхождению. Модели включают ванильные LLM, ванильные модели с подсказками CoT и LRM, а также дистиллированные варианты, такие как модели Llama и Qwen на базе DeepSeek.

Анализ: типы и механизмы утечки конфиденциальности в LRM

Исследование выявляет различные механизмы утечки конфиденциальности в LRM через анализ процессов рассуждений. Наиболее распространённая категория — неправильное понимание контекста, составляющее 39,8% случаев, когда модели неверно интерпретируют требования к задаче или контекстуальные нормы.

Значительная часть случаев связана с относительной чувствительностью (15,6%), когда модели оправдывают обмен информацией, основываясь на увиденных рейтингах чувствительности различных полей данных. Добросовестное поведение составляет 10,9% случаев, когда модели предполагают, что раскрытие информации приемлемо просто потому, что кто-то запрашивает информацию, даже от внешних субъектов, предположительно заслуживающих доверия.

Повторное рассуждение встречается в 9,4% случаев, когда внутренние последовательности рассуждений проникают в конечные ответы, нарушая предполагаемое разделение между рассуждениями и ответом.

Заключение: баланс между полезностью и конфиденциальностью в моделях рассуждений

В заключение исследователи представили первое исследование, изучающее, как LRM обрабатывают контекстуальную конфиденциальность как в исследовательских, так и в агентских настройках. Результаты показывают, что увеличение бюджета вычислений во время тестирования улучшает конфиденциальность конечных ответов, но усиливает легкодоступные процессы рассуждений, содержащие конфиденциальную информацию.

Существует острая необходимость в будущих стратегиях смягчения последствий и выравнивания, которые защитят как процессы рассуждений, так и конечные результаты. Более того, исследование ограничено его фокусом на моделях с открытым исходным кодом и использованием исследовательских установок вместо полностью агентских конфигураций. Однако эти решения обеспечивают более широкий охват моделей, обеспечивают контролируемое экспериментирование и способствуют прозрачности.

Ознакомьтесь с [статьёй](). Все заслуги за это исследование принадлежат исследователям этого проекта. Также подписывайтесь на нас в [Twitter]() и присоединяйтесь к нашему [ML SubReddit]() с более чем 100 тысячами участников и подписывайтесь на нашу [рассылку]().

1. Какие основные риски конфиденциальности выявлены в использовании больших языковых моделей (LLM) в качестве персональных помощников?

В тексте указано, что LLM получают доступ к конфиденциальным данным пользователей через персональных агентов LLM. Это вызывает опасения относительно понимания контекстуальной конфиденциальности и способности этих агентов определять, когда уместно делиться конкретной информацией пользователя. Также отмечается, что LRM создают следы рассуждений, содержащие конфиденциальную информацию, несмотря на безопасные конечные ответы.

2. Какие фреймворки и инструменты используются для оценки контекстуальной конфиденциальности в LLM?

В статье упоминаются такие фреймворки и инструменты, как DecodingTrust, AirGapAgent, CONFAIDE, PrivaCI и CI-Bench для оценки соответствия контексту через структурированные запросы. Также упоминаются инструменты PrivacyLens и AgentDAM, которые имитируют агентские задачи, но нацелены на нерассуждающие модели.

3. Какие механизмы утечки конфиденциальности выявлены в LRM?

Исследование выявляет несколько механизмов утечки конфиденциальности в LRM. Наиболее распространённая категория — неправильное понимание контекста (39,8% случаев), когда модели неверно интерпретируют требования к задаче или контекстуальные нормы. Значительная часть случаев связана с относительной чувствительностью (15,6%), когда модели оправдывают обмен информацией, основываясь на увиденных рейтингах чувствительности различных полей данных. Добросовестное поведение составляет 10,9% случаев, когда модели предполагают, что раскрытие информации приемлемо просто потому, что кто-то запрашивает информацию. Повторное рассуждение встречается в 9,4% случаев, когда внутренние последовательности рассуждений проникают в конечные ответы.

4. Какие выводы можно сделать из исследования о балансе между полезностью и конфиденциальностью в моделях рассуждений?

Исследование показывает, что увеличение бюджета вычислений во время тестирования улучшает конфиденциальность конечных ответов, но усиливает легкодоступные процессы рассуждений, содержащие конфиденциальную информацию. Существует острая необходимость в будущих стратегиях смягчения последствий и выравнивания, которые защитят как процессы рассуждений, так и конечные результаты.

5. Какие ограничения есть у данного исследования?

Исследование ограничено его фокусом на моделях с открытым исходным кодом и использованием исследовательских установок вместо полностью агентских конфигураций. Однако эти решения обеспечивают более широкий охват моделей, обеспечивают контролируемое экспериментирование и способствуют прозрачности.

Источник