Исследователи из Tsinghua и Ant Group разработали пятиуровневую систему безопасности для защиты автономных агентов LLM в OpenClaw

Исследователи из университетов Tsinghua и компании Ant Group представили новую систему безопасности, ориентированную на жизненный цикл, для снижения уязвимости автономных агентов LLM в OpenClaw.

Автономные агенты LLM, такие как OpenClaw, меняют парадигму с пассивных помощников на проактивные сущности, способные выполнять сложные задачи с высоким уровнем привилегий. Однако анализ безопасности, проведённый учёными из Tsinghua University и Ant Group, показал, что архитектура «kernel-plugin» в OpenClaw уязвима для многоэтапных системных рисков, которые обходят традиционные изолированные защиты.

Архитектура OpenClaw: агент с π-кодированием и TCB

OpenClaw использует архитектуру «kernel-plugin», которая отделяет основную логику от расширяемой функциональности. Система Trusted Computing Base (TCB) определяется агентом π-кодирования, который отвечает за управление памятью, планирование задач и координацию выполнения.

Эта TCB управляет расширяемой экосистемой сторонних плагинов — или «навыков» — которые позволяют агенту выполнять операции с высоким уровнем привилегий, такие как автоматизированное проектирование программного обеспечения и системное администрирование.

Критическая архитектурная уязвимость, выявленная исследовательской группой, заключается в динамической загрузке этих плагинов без строгой проверки целостности, что создаёт неоднозначную границу доверия и расширяет поверхность атаки системы.

Таксономия угроз жизненного цикла

Исследовательская группа систематизирует ландшафт угроз на пяти операционных этапах, которые соответствуют функциональному конвейеру агента:

1. Инициализация. Агент устанавливает свою операционную среду и границы доверия, загружая системные подсказки, конфигурации безопасности и плагины.
2. Ввод. Многомодальные данные поступают на вход, требуя от агента различать доверенные инструкции пользователя и недоверенные внешние источники данных.
3. Вывод (Inference). Процесс рассуждения агента использует такие методы, как Chain-of-Thought (CoT), поддерживая контекстуальную память и извлекая внешние знания с помощью дополненной генерации.
4. Принятие решения. Агент выбирает соответствующие инструменты и генерирует параметры выполнения через такие механизмы планирования, как ReAct.
5. Выполнение. Высокоуровневые планы преобразуются в действия системы с привилегиями, требующие строгого песочницырования и механизмов контроля доступа для управления операциями.

Этот структурированный подход подчёркивает, что автономные агенты сталкиваются с многоэтапными системными рисками, которые выходят за рамки изолированных атак внедрения подсказок.

Технические примеры компрометации агентов

1. Отравление навыков (этап инициализации). Атакующие могут внедрить вредоносные навыки, которые используют интерфейс маршрутизации возможностей.
2. Косвенное внедрение подсказок (этап ввода). Автономные агенты часто получают ненадёжные внешние данные, что делает их уязвимыми для атак с нулевым кликом.
3. Отравление памяти (этап вывода). Поскольку OpenClaw поддерживает постоянное состояние, он уязвим для долгосрочной поведенческой манипуляции.
4. Дрейф намерений (этап принятия решения). Дрейф намерений происходит, когда последовательность локально оправданных вызовов инструментов приводит к глобально разрушительному результату.
5. Выполнение высокорисковых команд (этап выполнения). Это представляет собой окончательную реализацию атаки, когда предыдущие компрометации приводят к конкретному воздействию на систему.

Пятиуровневая архитектура защиты

Исследовательская группа оценила существующие средства защиты как «фрагментированные» точечные решения и предложила целостную архитектуру, учитывающую жизненный цикл.

1. Основополагающий базовый уровень. Устанавливает проверяемый корень доверия на этапе запуска. Он использует статический/динамический анализ (AST) для обнаружения неавторизованного кода и криптографические подписи (SBOM) для проверки происхождения навыков.
2. Уровень восприятия входных данных. Действует как шлюз для предотвращения захвата управления агентом внешним данными. Он обеспечивает иерархию инструкций с помощью криптографической маркировки токенов для определения приоритетов запросов разработчиков над ненадёжным внешним контентом.
3. Уровень когнитивного состояния. Защищает внутреннюю память и рассуждения от коррупции. Он использует структуры Меркла для создания снимков состояния и отката, а также кросс-энкодеры для измерения семантического расстояния и обнаружения дрейфа контекста.
4. Уровень согласования решений. Обеспечивает соответствие синтезированных планов целям пользователя до выполнения каких-либо действий. Он включает формальную верификацию с помощью символьных решателей, чтобы доказать, что предлагаемые последовательности не нарушают инварианты безопасности.
5. Уровень контроля выполнения. Служит конечной границей обеспечения с использованием парадигмы «предполагается нарушение». Он обеспечивает изоляцию через песочницу на уровне ядра с использованием eBPF и seccomp для перехвата неавторизованных системных вызовов на уровне ОС.

Ключевые выводы

Автономные агенты расширяют поверхность атаки за счёт выполнения с высокими привилегиями и постоянной памяти.

Существующие точечные средства защиты, такие как простые входные фильтры, недостаточны для борьбы с межвременными многоэтапными атаками.

Эффективная защита должна быть интегрирована на всех пяти уровнях жизненного цикла агента: основополагающий базовый уровень, уровень восприятия входных данных, уровень когнитивного состояния, уровень согласования решений и уровень контроля выполнения.

Статья подготовлена при поддержке Ant Research.

1. Какие уязвимости были выявлены в архитектуре OpenClaw?

В архитектуре OpenClaw, использующей модель «kernel-plugin», была выявлена критическая уязвимость, связанная с динамической загрузкой плагинов без строгой проверки целостности. Это создаёт неоднозначную границу доверия и расширяет поверхность атаки системы.

2. Какие этапы включает в себя таксономия угроз жизненного цикла автономных агентов LLM?

Таксономия угроз жизненного цикла включает в себя пять этапов:
* Инициализация: агент устанавливает свою операционную среду и границы доверия, загружая системные подсказки, конфигурации безопасности и плагины.
* Ввод: многомодальные данные поступают на вход, требуя от агента различать доверенные инструкции пользователя и недоверенные внешние источники данных.
* Вывод (Inference): процесс рассуждения агента использует такие методы, как Chain-of-Thought (CoT), поддерживая контекстуальную память и извлекая внешние знания с помощью дополненной генерации.
* Принятие решения: агент выбирает соответствующие инструменты и генерирует параметры выполнения через такие механизмы планирования, как ReAct.
* Выполнение: высокоуровневые планы преобразуются в действия системы с привилегиями, требующие строгого песочницырования и механизмов контроля доступа для управления операциями.

3. Какие уровни включает в себя предложенная исследователями архитектура защиты?

Предложенная исследователями архитектура защиты включает в себя пять уровней:
* Основополагающий базовый уровень: устанавливает проверяемый корень доверия на этапе запуска. Он использует статический/динамический анализ (AST) для обнаружения неавторизованного кода и криптографические подписи (SBOM) для проверки происхождения навыков.
* Уровень восприятия входных данных: действует как шлюз для предотвращения захвата управления агентом внешним данными. Он обеспечивает иерархию инструкций с помощью криптографической маркировки токенов для определения приоритетов запросов разработчиков над ненадёжным внешним контентом.
* Уровень когнитивного состояния: защищает внутреннюю память и рассуждения от коррупции. Он использует структуры Меркла для создания снимков состояния и отката, а также кросс-энкодеры для измерения семантического расстояния и обнаружения дрейфа контекста.
* Уровень согласования решений: обеспечивает соответствие синтезированных планов целям пользователя до выполнения каких-либо действий. Он включает формальную верификацию с помощью символьных решателей, чтобы доказать, что предлагаемые последовательности не нарушают инварианты безопасности.
* Уровень контроля выполнения: служит конечной границей обеспечения с использованием парадигмы «предполагается нарушение». Он обеспечивает изоляцию через песочницу на уровне ядра с использованием eBPF и seccomp для перехвата неавторизованных системных вызовов на уровне ОС.

4. Какие методы и инструменты используются на каждом уровне предложенной архитектуры защиты?

На каждом уровне предложенной архитектуры защиты используются следующие методы и инструменты:
* Основополагающий базовый уровень: статический/динамический анализ (AST) для обнаружения неавторизованного кода и криптографические подписи (SBOM) для проверки происхождения навыков.
* Уровень восприятия входных данных: криптографическая маркировка токенов для определения приоритетов запросов разработчиков над ненадёжным внешним контентом.
* Уровень когнитивного состояния: структуры Меркла для создания снимков состояния и отката, а также кросс-энкодеры для измерения семантического расстояния и обнаружения дрейфа контекста.
* Уровень согласования решений: формальная верификация с помощью символьных решателей для доказательства соответствия предлагаемых последовательностей действий инвариантам безопасности.
* Уровень контроля выполнения: песочница на уровне ядра с использованием eBPF и seccomp для перехвата неавторизованных системных вызовов на уровне ОС.

Источник