Агенты — это стохастические, зависящие от контекста и ограниченные политикой системы. Традиционные методы контроля качества (QA), такие как модульные тесты, статические запросы или скалярные оценки типа «LLM как судья», не выявляют уязвимости при многоэтапном взаимодействии и не обеспечивают надёжных аудиторских следов. Командам разработчиков нужны точные по протоколам диалоги, явные проверки политик и машиночитаемые доказательства, которые могут с уверенностью использоваться для выпуска.
Qualifire AI выпустила в открытый доступ Rogue — фреймворк на Python, который оценивает агентов ИИ по протоколу Agent-to-Agent (A2A). Rogue преобразует бизнес-политики в исполняемые сценарии, управляет многоэтапным взаимодействием с целевым агентом и выводит детерминированные отчёты, подходящие для CI/CD и проверок соответствия.
Краткое руководство
Требования
* uvx (если не установлен, следуйте руководству по установке uvx).
* Python 3.10+.
* Ключ API для поставщика LLM (например, OpenAI, Google, Anthropic).
Установка
Вариант 1: быстрая установка (рекомендуется)
Используйте наш автоматизированный скрипт установки, чтобы быстро приступить к работе:
TUI
uvx rogue-ai
Web UI
uvx rogue-ai ui
CLI / CI/CD
uvx rogue-ai cli
Вариант 2: ручная установка
a) Клонируйте репозиторий:
«`
git clone https://github.com/qualifire-dev/rogue.git
cd rogue
«`
b) Установите зависимости:
Если вы используете uv:
«`
uv sync
«`
Или, если вы используете pip:
«`
pip install -e .
«`
c) ОПЦИОНАЛЬНО: настройте переменные среды: создайте файл .env в корневом каталоге и добавьте свои ключи API. Rogue использует LiteLLM, поэтому вы можете установить ключи для различных поставщиков.
«`
OPENAIAPIKEY=»sk-…»
ANTHROPICAPIKEY=»sk-…»
GOOGLEAPIKEY=»…»
«`
Запуск Rogue
Rogue работает по архитектуре клиент-сервер, где основная логика оценки выполняется на бэкенд-сервере, а различные клиенты подключаются к нему для разных интерфейсов.
Поведение по умолчанию
При запуске uvx rogue-ai без указания режима:
* запускается сервер Rogue в фоновом режиме;
* запускается клиент TUI (Terminal User Interface).
Доступные режимы
* Default (Server + TUI): uvx rogue-ai — запускает сервер в фоновом режиме + клиент TUI.
* Server: uvx rogue-ai server — запускает только бэкенд-сервер.
* TUI: uvx rogue-ai tui — запускает только клиент TUI (требуется работающий сервер).
* Web UI: uvx rogue-ai ui — запускает только веб-интерфейс клиента Gradio (требуется работающий сервер).
* CLI: uvx rogue-ai cli — запускает неинтерактивную оценку в командной строке (требуется работающий сервер, идеально подходит для CI/CD).
Режим и аргументы
Режим сервера
«`
uvx rogue-ai server [OPTIONS]
«`
Опции:
* –host HOST — хост для запуска сервера (по умолчанию: 127.0.0.1 или переменная окружения HOST).
* –port PORT — порт для запуска сервера (по умолчанию: 8000 или переменная окружения PORT).
* –debug — включить ведение журнала отладки.
Режим TUI
«`
uvx rogue-ai tui [OPTIONS]
«`
Режим Web UI
«`
uvx rogue-ai ui [OPTIONS]
«`
Опции:
* –rogue-server-url URL — URL-адрес сервера Rogue (по умолчанию: http://localhost:8000).
* –port PORT — порт для запуска пользовательского интерфейса.
* –workdir WORKDIR — рабочий каталог (по умолчанию: ./.rogue).
* –debug — включить ведение журнала отладки.
Пример: тестирование агента по продаже футболок
Этот репозиторий включает простой пример агента, который продаёт футболки. Вы можете использовать его, чтобы увидеть Rogue в действии.
Установите примеры зависимостей:
Если вы используете uv:
«`
uv sync —group examples
«`
Или, если вы используете pip:
«`
pip install -e .[examples]
«`
Запуск примера агента-сервера в отдельном терминале:
Если вы используете uv:
«`
uv run examples/tshirtstoreagent
«`
Если нет:
«`
python examples/tshirtstoreagent
«`
Это запустит агента на http://localhost:10001.
Настройте Rogue в пользовательском интерфейсе так, чтобы он указывал на пример агента:
* URL-адрес агента: http://localhost:10001.
* Аутентификация: без аутентификации.
Проведите оценку и наблюдайте, как Rogue тестирует политики агента по продаже футболок!
Вы можете использовать либо TUI (uvx rogue-ai), либо режим веб-интерфейса (uvx rogue-ai ui).
Где применяется Rogue: практические примеры использования
* Повышение безопасности и соответствия требованиям. Проверка обработки персональных данных, поведения отказа, предотвращения утечки секретов и соблюдения политик в регулируемых доменах с использованием доказательств, привязанных к транскриптам.
* Агенты электронной коммерции и поддержки. Обеспечение выполнения правил предоставления скидок по OTP, правил возврата, эскалации в соответствии с SLA и правильности использования инструментов (поиск заказов, тикетинг) в условиях противодействия и сбоёв.
* Агенты разработчиков/DevOps. Оценка помощников по работе с кодом и CLI для ограничения рабочего пространства, семантики отката, поведения при ограничении скорости и предотвращения использования небезопасных команд.
* Многоагентные системы. Проверка контрактов планировщика-исполнителя, согласования возможностей и соответствия схеме в A2A; оценка совместимости в гетерогенных средах.
* Мониторинг регрессии и дрейфа. Ночные пакеты для новых версий моделей или изменений в подсказках; обнаружение поведенческого дрейфа и соблюдение критически важных для политики критериев прохождения перед выпуском.
Что такое Rogue и почему командам разработчиков агентов это важно?
Rogue — это комплексная система тестирования, разработанная для оценки производительности, соответствия требованиям и надёжности агентов искусственного интеллекта. Rogue синтезирует бизнес-контекст и риски в структурированные тесты с чёткими целями, тактиками и критериями успеха. Агент-оценщик выполняет корректные по протоколам диалоги в быстрых одношаговых или глубоких многошаговых состязательных режимах. Вы можете использовать свою модель или позволить Rogue использовать специализированных судей Qualifire для проведения тестов. Потоковая наблюдаемость и детерминированные артефакты: живые транскрипты, вердикты «прошёл/не прошёл», обоснования, привязанные к участкам транскриптов, время и происхождение модели/версии.
Под капотом: как устроен Rogue
Rogue работает по архитектуре клиент-сервер:
* Сервер Rogue: содержит основную логику оценки.
* Клиентские интерфейсы: несколько интерфейсов, которые подключаются к серверу:
* TUI (Terminal UI): современный интерфейс терминала, созданный с помощью Go и Bubble Tea.
* Web UI: веб-интерфейс на основе Gradio.
* CLI: интерфейс командной строки для автоматизированной оценки и CI/CD.
Эта архитектура обеспечивает гибкое развёртывание и модели использования, когда сервер может работать независимо, а несколько клиентов могут подключаться к нему одновременно.
Резюме
Rogue помогает командам разработчиков тестировать поведение агентов так, как оно фактически работает в производственной среде. Он превращает письменные политики в конкретные сценарии, отрабатывает эти сценарии в A2A и записывает всё происходящее с помощью транскриптов, которые можно проверить. В результате получается чёткий, повторяемый сигнал, который можно использовать в CI/CD для выявления нарушений политик и регрессий до их отправки.
1. Какие проблемы решают традиционные методы контроля качества при тестировании агентов ИИ, и как Rogue помогает преодолеть эти ограничения?
Ответ: традиционные методы контроля качества, такие как модульные тесты, статические запросы или скалярные оценки, не выявляют уязвимости при многоэтапном взаимодействии и не обеспечивают надёжных аудиторских следов. Rogue — это комплексная система тестирования, разработанная для оценки производительности, соответствия требованиям и надёжности агентов искусственного интеллекта. Она синтезирует бизнес-контекст и риски в структурированные тесты с чёткими целями, тактиками и критериями успеха.
2. Какие требования необходимы для установки Rogue и как можно быстро начать работу с ним?
Ответ: для установки Rogue необходимы следующие требования: uvx (если не установлен, следуйте руководству по установке uvx), Python 3.10+ и ключ API для поставщика LLM (например, OpenAI, Google, Anthropic). Для быстрой установки рекомендуется использовать автоматизированный скрипт установки:
* TUI: uvx rogue-ai;
* Web UI: uvx rogue-ai ui;
* CLI / CI/CD: uvx rogue-ai cli.
3. Какие режимы работы доступны в Rogue и как выбрать наиболее подходящий для конкретной задачи?
Ответ: в Rogue доступны следующие режимы работы:
* Default (Server + TUI): uvx rogue-ai — запускает сервер в фоновом режиме + клиент TUI.
* Server: uvx rogue-ai server — запускает только бэкенд-сервер.
* TUI: uvx rogue-ai tui — запускает только клиент TUI (требуется работающий сервер).
* Web UI: uvx rogue-ai ui — запускает только веб-интерфейс клиента Gradio (требуется работающий сервер).
* CLI: uvx rogue-ai cli — запускает неинтерактивную оценку в командной строке (требуется работающий сервер, идеально подходит для CI/CD).
Выбор режима зависит от конкретной задачи и предпочтений пользователя. Например, для тестирования агента по продаже футболок можно использовать режим TUI или Web UI.