Рост угроз для LLM
Большие языковые модели (LLM) становятся основной мишенью для быстро развивающихся атак, включая внедрение запросов (prompt injection), взлом (jailbreaking) и несанкционированный вынос конфиденциальных данных. Из-за изменчивого характера этих угроз необходимо адаптировать защитные механизмы, выходящие за рамки статических мер безопасности.
Существующие методы защиты LLM страдают из-за своей зависимости от статических вмешательств во время обучения. Статические фильтры и ограничители хрупки перед незначительными изменениями со стороны злоумышленников, а корректировки во время обучения не могут быть обобщены для новых атак после развёртывания.
Почему существующие методы защиты LLM недостаточны
Методы тонкой настройки безопасности на основе RLHF и безопасности пытаются выровнять модели во время обучения, но показывают ограниченную эффективность против новых атак после развёртывания. Стратегии защиты на системном уровне и стратегии «красной команды» обеспечивают дополнительные уровни защиты, но оказываются хрупкими перед возмущениями со стороны злоумышленников.
Оптимизация поведения с помощью методов машинного обучения показывает себя многообещающе в определённых сценариях, но не позволяет достичь полного подавления знаний. Мультиагентные архитектуры эффективны для распределения сложных задач, но их прямое применение для обеспечения безопасности LLM остаётся неизученным.
AegisLLM: адаптивная система безопасности во время вывода
Исследователи из Университета Мэриленда, Национальной лаборатории Лоуренса Ливермора и Capital One предложили AegisLLM (Adaptive Agentic Guardrails for LLM Security) — систему для повышения безопасности LLM с помощью совместной мультиагентной системы во время вывода.
AegisLLM использует структурированную агентскую систему автономных агентов на базе LLM, которые непрерывно отслеживают, анализируют и снижают уровень угроз со стороны злоумышленников.
Ключевые компоненты AegisLLM:
* Оркестратор;
* Дефлектор;
* Респондер;
* Оценщик.
Благодаря автоматизированной оптимизации запросов и байесовскому обучению система совершенствует свои защитные возможности без переобучения модели. Эта архитектура позволяет в реальном времени адаптироваться к меняющимся стратегиям атак, обеспечивая масштабируемую защиту во время вывода и сохраняя полезность модели.
Координированный агентский конвейер и оптимизация запросов
AegisLLM работает через координированный конвейер специализированных агентов, каждый из которых отвечает за определённые функции, работая совместно для обеспечения безопасности выходных данных. Все агенты руководствуются тщательно разработанными системными запросами и входными данными пользователя во время тестирования.
Каждый агент управляется системным запросом, который кодирует его специализированную роль и поведение. Однако вручную созданные запросы обычно не обеспечивают оптимальной производительности в сценариях с высокими ставками безопасности. Поэтому система автоматически оптимизирует системные запросы каждого агента для максимизации эффективности посредством итеративного процесса оптимизации.
Бенчмаркинг AegisLLM: WMDP, TOFU и защита от взлома
На бенчмарке WMDP с использованием Llama-3-8B AegisLLM достигает наименьшей точности по ограниченным темам среди всех методов, при этом точность WMDP-Cyber и WMDP-Bio приближается к 25% теоретического минимума.
На бенчмарке TOFU система достигает почти идеальной точности маркировки для моделей Llama-3-8B, Qwen2.5-72B и DeepSeek-R1, при этом Qwen2.5-72B показывает почти 100% точность по всем подмножествам.
В защите от взлома результаты демонстрируют высокую эффективность против попыток атак при сохранении соответствующих ответов на законные запросы в StrongREJECT и PHTest. AegisLLM достигает показателя 0,038 в StrongREJECT, что конкурентоспособно с передовыми методами, и уровня соблюдения требований в 88,5% без необходимости обширного обучения, повышая защитные возможности.
Заключение: переосмысление безопасности LLM как агентской координации во время вывода
В заключение исследователи представили AegisLLM — систему, которая переосмысливает безопасность LLM как динамическую мультиагентную систему, работающую во время вывода.
Успех AegisLLM подчёркивает, что к безопасности следует подходить как к эмерджентному поведению координированных специализированных агентов, а не как к характеристике статической модели. Такой переход от статических вмешательств во время обучения к адаптивным защитным механизмам во время вывода решает ограничения существующих методов, обеспечивая при этом адаптивность в реальном времени против развивающихся угроз.
Системы, подобные AegisLLM, которые обеспечивают динамическую масштабируемую безопасность, станут всё более важными для ответственного внедрения ИИ по мере развития языковых моделей.
Ознакомиться с докладом и GitHub-страницей можно на MarkTechPost.
Все заслуги за это исследование принадлежат исследователям этого проекта.
Возможность спонсорства
Охватите наиболее влиятельных разработчиков ИИ по всему миру. 1 миллион+ читателей в месяц, 500 тысяч+ создателей сообществ, бесконечные возможности. [Explore Sponsorship]
1. Какие основные угрозы существуют для больших языковых моделей (LLM) и почему существующие методы защиты оказываются недостаточными?
Ответ: основные угрозы для LLM включают внедрение запросов (prompt injection), взлом (jailbreaking) и несанкционированный вынос конфиденциальных данных. Существующие методы защиты оказываются недостаточными из-за своей зависимости от статических вмешательств во время обучения, которые хрупки перед незначительными изменениями со стороны злоумышленников.
2. Какие ключевые компоненты включает в себя система AegisLLM и как она работает для повышения безопасности LLM?
Ответ: ключевые компоненты AegisLLM включают оркестратор, дефлектор, респондер и оценщик. Система работает через координированный конвейер специализированных агентов, каждый из которых отвечает за определённые функции, работая совместно для обеспечения безопасности выходных данных.
3. Какие результаты были достигнуты системой AegisLLM на бенчмарках WMDP и TOFU, и как они демонстрируют её эффективность?
Ответ: на бенчмарке WMDP с использованием Llama-3-8B AegisLLM достигает наименьшей точности по ограниченным темам среди всех методов, при этом точность WMDP-Cyber и WMDP-Bio приближается к 25% теоретического минимума. На бенчмарке TOFU система достигает почти идеальной точности маркировки для моделей Llama-3-8B, Qwen2.5-72B и DeepSeek-R1. Эти результаты демонстрируют эффективность AegisLLM в обеспечении безопасности LLM.
4. Как система AegisLLM адаптируется к меняющимся стратегиям атак и обеспечивает масштабируемую защиту во время вывода?
Ответ: AegisLLM использует структурированную агентскую систему автономных агентов на базе LLM, которые непрерывно отслеживают, анализируют и снижают уровень угроз со стороны злоумышленников. Благодаря автоматизированной оптимизации запросов и байесовскому обучению система совершенствует свои защитные возможности без переобучения модели, что позволяет ей адаптироваться к меняющимся стратегиям атак.
5. Почему исследователи считают, что к безопасности LLM следует подходить как к эмерджентному поведению координированных специализированных агентов, а не как к характеристике статической модели?
Ответ: исследователи считают, что к безопасности LLM следует подходить как к эмерджентному поведению координированных специализированных агентов, потому что такой подход решает ограничения существующих методов, обеспечивая при этом адаптивность в реальном времени против развивающихся угроз. Системы, подобные AegisLLM, которые обеспечивают динамическую масштабируемую безопасность, станут всё более важными для ответственного внедрения ИИ по мере развития языковых моделей.