Агенты в системах — это стохастические, зависящие от контекста и ограниченные политикой сущности. Традиционные методы контроля качества (QA), такие как модульные тесты, статические запросы или скалярные оценки типа «LLM как судья», не выявляют уязвимости при многошаговом взаимодействии и не обеспечивают надёжных аудиторских следов. Командам разработчиков нужны точные по протоколам диалоги, явные проверки политик и машиночитаемые доказательства, которые могут с уверенностью использоваться для выпуска.
Qualifire AI выпустила в открытый доступ Rogue — фреймворк на Python, который оценивает агентов искусственного интеллекта по протоколу Agent-to-Agent (A2A). Rogue преобразует бизнес-политики в исполняемые сценарии, проводит многошаговые взаимодействия с целевым агентом и выдаёт детерминированные отчёты, подходящие для CI/CD и проверок соответствия.
Быстрый старт
Предварительные требования:
* uvx — если не установлен, следуйте руководству по установке uvx;
* Python 3.10+;
* API-ключ для поставщика LLM (например, OpenAI, Google, Anthropic).
Установка
Вариант 1: быстрая установка (рекомендуется)
Используйте наш автоматизированный скрипт установки, чтобы быстро приступить к работе:
TUI
uvx rogue-ai
Web UI
uvx rogue-ai ui
CLI / CI/CD
uvx rogue-ai cli
Вариант 2: ручная установка
a) Клонируйте репозиторий:
git clone https://github.com/qualifire-dev/rogue.git
cd rogue
b) Установите зависимости:
Если вы используете uvx:
uv sync
Или, если вы используете pip:
pip install -e .
c) ОПЦИОНАЛЬНО: настройте переменные среды: создайте файл .env в корневом каталоге и добавьте свои API-ключи. Rogue использует LiteLLM, поэтому вы можете установить ключи для различных поставщиков.
OPENAIAPIKEY=»sk-…»
ANTHROPICAPIKEY=»sk-…»
GOOGLEAPIKEY=»…»
Запуск Rogue
Rogue работает по архитектуре «клиент-сервер», где основная логика оценки выполняется на сервере, а различные клиенты подключаются к нему для разных интерфейсов.
Поведение по умолчанию
Когда вы запускаете uvx rogue-ai без указания режима, он:
* запускает сервер Rogue в фоновом режиме;
* запускает клиент TUI (Terminal User Interface).
Доступные режимы
* Default (Server + TUI): uvx rogue-ai — запускает сервер в фоновом режиме + клиент TUI;
* Server: uvx rogue-ai server — запускает только сервер;
* TUI: uvx rogue-ai tui — запускает только клиент TUI (требуется работающий сервер);
* Web UI: uvx rogue-ai ui — запускает только веб-интерфейс клиента Gradio (требуется работающий сервер);
* CLI: uvx rogue-ai cli — запускает неинтерактивную оценку в командной строке (требуется работающий сервер, идеально подходит для CI/CD).
Rogue: практическое применение
* Повышение безопасности и соответствия требованиям: проверка обработки личных данных, поведения при отказе, предотвращения утечки секретов и соблюдения политик в регулируемых доменах с доказательствами, привязанными к транскриптам.
* Электронная коммерция и поддержка агентов: обеспечение скидок с одноразовым паролем (OTP), правил возврата, соблюдения SLA, правильности использования инструментов (поиск заказов, тикетинг) в условиях конкуренции и сбоёв.
* Агенты разработчиков/DevOps: оценка помощников по написанию кода и CLI для ограничения рабочего пространства, семантики откатов, поведения при ограничении скорости и предотвращения небезопасных команд.
* Многоагентные системы: проверка контрактов планировщика-исполнителя, переговоров по возможностям и соответствия схеме в A2A; оценка совместимости между разнородными фреймворками.
* Мониторинг регрессии и дрейфа: ночные наборы тестов для новых версий моделей или изменений в подсказках; обнаружение поведенческого дрейфа и соблюдение критически важных для политики критериев прохождения перед выпуском.
Что такое Rogue и почему командам разработчиков агентов это важно?
Rogue — это комплексная система тестирования, разработанная для оценки производительности, соответствия требованиям и надёжности агентов искусственного интеллекта. Rogue синтезирует бизнес-контекст и риски в структурированные тесты с чёткими целями, тактиками и критериями успеха. Агент-оценщик запускает корректные по протоколу диалоги в быстром одношаговом или глубоком многошаговом состязательном режимах. Вы можете использовать собственную модель или позволить Rogue использовать специально разработанные судьи Qualifire для проведения тестов. Потоковая наблюдаемость и детерминированные артефакты: живые транскрипты, вердикты «прошёл/не прошёл», обоснования, привязанные к участкам транскриптов, время и происхождение модели/версии.
Как устроен Rogue
Rogue работает по архитектуре «клиент-сервер»:
* Сервер Rogue: содержит основную логику оценки.
* Клиентские интерфейсы: несколько интерфейсов, которые подключаются к серверу:
* TUI (Terminal UI): современный интерфейс терминала, созданный с помощью Go и Bubble Tea;
* Web UI: веб-интерфейс на основе Gradio;
* CLI: интерфейс командной строки для автоматизированной оценки и CI/CD.
Эта архитектура обеспечивает гибкие шаблоны развёртывания и использования, когда сервер может работать независимо, а несколько клиентов могут подключаться к нему одновременно.
Резюме
Rogue помогает командам разработчиков тестировать поведение агентов так, как оно фактически работает в производственной среде. Он превращает написанные политики в конкретные сценарии, отрабатывает эти сценарии в A2A и записывает, что произошло, с помощью транскриптов, которые можно проверить. В результате получается чёткий, повторяемый сигнал, который можно использовать в CI/CD для выявления нарушений политик и регрессий до их отправки.
1. Какие проблемы решают традиционные методы контроля качества (QA) в контексте тестирования агентов искусственного интеллекта и как Rogue предлагает их преодолеть?
Ответ: традиционные методы контроля качества, такие как модульные тесты, статические запросы или скалярные оценки, не выявляют уязвимости при многошаговом взаимодействии и не обеспечивают надёжных аудиторских следов. Rogue преобразует бизнес-политики в исполняемые сценарии, проводит многошаговые взаимодействия с целевым агентом и выдаёт детерминированные отчёты, подходящие для CI/CD и проверок соответствия.
2. Какие предварительные требования необходимы для установки Rogue и какие варианты установки предлагает Qualifire AI?
Ответ: для установки Rogue необходимы следующие предварительные требования: uvx (если не установлен, следуйте руководству по установке uvx), Python 3.10+ и API-ключ для поставщика LLM (например, OpenAI, Google, Anthropic). Qualifire AI предлагает два варианта установки: автоматизированный скрипт установки и ручную установку.
3. Какие практические применения предлагает Rogue для команд разработчиков агентов искусственного интеллекта?
Ответ: Rogue предлагает следующие практические применения:
* повышение безопасности и соответствия требованиям;
* электронная коммерция и поддержка агентов;
* агенты разработчиков/DevOps;
* многоагентные системы;
* мониторинг регрессии и дрейфа.
4. Как устроена архитектура Rogue и какие клиентские интерфейсы она поддерживает?
Ответ: Rogue работает по архитектуре «клиент-сервер». Сервер содержит основную логику оценки, а клиентские интерфейсы подключаются к серверу. Поддерживаемые клиентские интерфейсы: TUI (Terminal UI), Web UI и CLI (интерфейс командной строки).
5. Какие преимущества предоставляет Rogue командам разработчиков при тестировании поведения агентов искусственного интеллекта?
Ответ: Rogue помогает командам разработчиков тестировать поведение агентов так, как оно фактически работает в производственной среде. Он превращает написанные политики в конкретные сценарии, отрабатывает эти сценарии в A2A и записывает, что произошло, с помощью транскриптов, которые можно проверить. В результате получается чёткий, повторяемый сигнал, который можно использовать в CI/CD для выявления нарушений политик и регрессий до их отправки.