Введение: персональные агенты на базе LLM и риски конфиденциальности
Большие языковые модели (LLM) используются в качестве персональных помощников, получая доступ к конфиденциальным данным пользователей через персональных агентов LLM. Это вызывает опасения относительно понимания контекстуальной конфиденциальности и способности этих агентов определять, когда уместно делиться конкретной информацией пользователя.
Большие модели рассуждений (LRM) представляют сложности, поскольку работают через неструктурированные и непрозрачные процессы, что затрудняет понимание того, как конфиденциальная информация передаётся от входных данных к выходным. LRM используют следы рассуждений, что усложняет защиту конфиденциальности.
Текущие исследования изучают запоминание данных во время обучения, утечку конфиденциальности и контекстуальную конфиденциальность при выводе. Однако они не анализируют следы рассуждений как явные векторы угроз в персональных агентах на базе LRM.
Связанная работа: эталоны и фреймворки для контекстуальной конфиденциальности
Предыдущие исследования рассматривают контекстуальную конфиденциальность в LLM с помощью различных методов. Фреймворки контекстуальной целостности определяют конфиденциальность как надлежащий поток информации в социальных контекстах, что приводит к созданию таких эталонов, как DecodingTrust, AirGapAgent, CONFAIDE, PrivaCI и CI-Bench, которые оценивают соответствие контексту через структурированные запросы.
Такие инструменты, как PrivacyLens и AgentDAM, имитируют агентские задачи, но все они нацелены на нерассуждающие модели. Вычисления во время тестирования (TTC) позволяют структурировать рассуждения во время вывода, а такие модели, как DeepSeek-R1, расширяют эту возможность с помощью RL-обучения. Однако в моделях рассуждений остаются проблемы безопасности, поскольку исследования показывают, что LRM, такие как DeepSeek-R1, создают следы рассуждений, содержащие вредоносный контент, несмотря на безопасные конечные ответы.
Вклад исследования: оценка LRM для контекстуальной конфиденциальности
Исследователи из Parameter Lab, Университета Мангейма, Технического университета Дармштадта, NAVER AI Lab, Университета Тюбингена и Центра искусственного интеллекта Тюбингена представляют первое сравнение LLM и LRM в качестве персональных агентов. Исследование показывает, что, хотя LRM превосходят LLM по полезности, это преимущество не распространяется на защиту конфиденциальности.
Исследование имеет три основных вклада, направленных на устранение критических пробелов в оценке моделей рассуждений. Во-первых, оно устанавливает оценку контекстуальной конфиденциальности для LRM с помощью двух эталонов: AirGapAgent-R и AgentDAM. Во-вторых, оно выявляет следы рассуждений как новую поверхность атаки для конфиденциальности, показывая, что LRM рассматривают свои следы рассуждений как частные черновики. В-третьих, оно исследует механизмы, лежащие в основе утечки конфиденциальности в моделях рассуждений.
Методология: исследование и агентская оценка конфиденциальности
Исследование использует два подхода для оценки контекстуальной конфиденциальности в моделях рассуждений. В рамках исследования используются целевые одношаговые запросы с помощью AirGapAgent-R для проверки явного понимания конфиденциальности на основе общедоступной методологии авторов. Агентский подход использует AgentDAM для оценки неявного понимания конфиденциальности в трёх доменах: покупках, Reddit и GitLab.
Оценка использует 13 моделей с количеством параметров от 8 миллиардов до более чем 600 миллиардов, сгруппированных по семейному происхождению. Модели включают ванильные LLM, ванильные модели с подсказками CoT и LRM, а также дистиллированные варианты, такие как модели Llama и Qwen на базе DeepSeek.
Анализ: типы и механизмы утечки конфиденциальности в LRM
Исследование выявляет различные механизмы утечки конфиденциальности в LRM через анализ процессов рассуждений. Наиболее распространённая категория — неправильное понимание контекста, составляющее 39,8% случаев, когда модели неверно интерпретируют требования к задаче или контекстуальные нормы.
Значительная часть случаев связана с относительной чувствительностью (15,6%), когда модели оправдывают обмен информацией, основываясь на увиденных рейтингах чувствительности различных полей данных. Добросовестное поведение составляет 10,9% случаев, когда модели предполагают, что раскрытие информации приемлемо просто потому, что кто-то запрашивает информацию, даже от внешних субъектов, предположительно заслуживающих доверия.
Повторное рассуждение встречается в 9,4% случаев, когда внутренние последовательности рассуждений проникают в конечные ответы, нарушая предполагаемое разделение между рассуждениями и ответом.
Заключение: баланс между полезностью и конфиденциальностью в моделях рассуждений
В заключение исследователи представили первое исследование, изучающее, как LRM обрабатывают контекстуальную конфиденциальность как в исследовательских, так и в агентских настройках. Результаты показывают, что увеличение бюджета вычислений во время тестирования улучшает конфиденциальность конечных ответов, но усиливает легкодоступные процессы рассуждений, содержащие конфиденциальную информацию.
Существует острая необходимость в будущих стратегиях смягчения последствий и выравнивания, которые защитят как процессы рассуждений, так и конечные результаты. Более того, исследование ограничено его фокусом на моделях с открытым исходным кодом и использованием исследовательских установок вместо полностью агентских конфигураций. Однако эти решения обеспечивают более широкий охват моделей, обеспечивают контролируемое экспериментирование и способствуют прозрачности.
Ознакомьтесь с [статьёй](). Все заслуги за это исследование принадлежат исследователям этого проекта. Также подписывайтесь на нас в [Twitter]() и присоединяйтесь к нашему [ML SubReddit]() с более чем 100 тысячами участников и подписывайтесь на нашу [рассылку]().
1. Какие основные риски конфиденциальности выявлены в использовании больших языковых моделей (LLM) в качестве персональных помощников?
В тексте указано, что LLM получают доступ к конфиденциальным данным пользователей через персональных агентов LLM. Это вызывает опасения относительно понимания контекстуальной конфиденциальности и способности этих агентов определять, когда уместно делиться конкретной информацией пользователя. Также отмечается, что LRM создают следы рассуждений, содержащие конфиденциальную информацию, несмотря на безопасные конечные ответы.
2. Какие фреймворки и инструменты используются для оценки контекстуальной конфиденциальности в LLM?
В статье упоминаются такие фреймворки и инструменты, как DecodingTrust, AirGapAgent, CONFAIDE, PrivaCI и CI-Bench для оценки соответствия контексту через структурированные запросы. Также упоминаются инструменты PrivacyLens и AgentDAM, которые имитируют агентские задачи, но нацелены на нерассуждающие модели.
3. Какие механизмы утечки конфиденциальности выявлены в LRM?
Исследование выявляет несколько механизмов утечки конфиденциальности в LRM. Наиболее распространённая категория — неправильное понимание контекста (39,8% случаев), когда модели неверно интерпретируют требования к задаче или контекстуальные нормы. Значительная часть случаев связана с относительной чувствительностью (15,6%), когда модели оправдывают обмен информацией, основываясь на увиденных рейтингах чувствительности различных полей данных. Добросовестное поведение составляет 10,9% случаев, когда модели предполагают, что раскрытие информации приемлемо просто потому, что кто-то запрашивает информацию. Повторное рассуждение встречается в 9,4% случаев, когда внутренние последовательности рассуждений проникают в конечные ответы.
4. Какие выводы можно сделать из исследования о балансе между полезностью и конфиденциальностью в моделях рассуждений?
Исследование показывает, что увеличение бюджета вычислений во время тестирования улучшает конфиденциальность конечных ответов, но усиливает легкодоступные процессы рассуждений, содержащие конфиденциальную информацию. Существует острая необходимость в будущих стратегиях смягчения последствий и выравнивания, которые защитят как процессы рассуждений, так и конечные результаты.
5. Какие ограничения есть у данного исследования?
Исследование ограничено его фокусом на моделях с открытым исходным кодом и использованием исследовательских установок вместо полностью агентских конфигураций. Однако эти решения обеспечивают более широкий охват моделей, обеспечивают контролируемое экспериментирование и способствуют прозрачности.