Qualifire AI открывает исходный код Rogue: комплексная система тестирования агентов искусственного интеллекта для оценки производительности, соответствия требованиям и надёжности

Агенты — это стохастические, зависящие от контекста и ограниченные политикой системы. Традиционные методы контроля качества (QA), такие как модульные тесты, статические запросы или скалярные оценки типа «LLM как судья», не выявляют уязвимости при многоэтапном взаимодействии и не обеспечивают надёжных аудиторских следов. Командам разработчиков нужны точные по протоколам диалоги, явные проверки политик и машиночитаемые доказательства, которые могут с уверенностью использоваться для выпуска.

Qualifire AI выпустила в открытый доступ Rogue — фреймворк на Python, который оценивает агентов ИИ по протоколу Agent-to-Agent (A2A). Rogue преобразует бизнес-политики в исполняемые сценарии, управляет многоэтапным взаимодействием с целевым агентом и выводит детерминированные отчёты, подходящие для CI/CD и проверок соответствия.

Краткое руководство

Требования
* uvx (если не установлен, следуйте руководству по установке uvx).
* Python 3.10+.
* Ключ API для поставщика LLM (например, OpenAI, Google, Anthropic).

Установка

Вариант 1: быстрая установка (рекомендуется)
Используйте наш автоматизированный скрипт установки, чтобы быстро приступить к работе:

TUI

uvx rogue-ai

Web UI

uvx rogue-ai ui

CLI / CI/CD

uvx rogue-ai cli

Вариант 2: ручная установка

a) Клонируйте репозиторий:
«`
git clone https://github.com/qualifire-dev/rogue.git
cd rogue
«`

b) Установите зависимости:
Если вы используете uv:
«`
uv sync
«`
Или, если вы используете pip:
«`
pip install -e .
«`

c) ОПЦИОНАЛЬНО: настройте переменные среды: создайте файл .env в корневом каталоге и добавьте свои ключи API. Rogue использует LiteLLM, поэтому вы можете установить ключи для различных поставщиков.
«`
OPENAIAPIKEY=»sk-…»
ANTHROPICAPIKEY=»sk-…»
GOOGLEAPIKEY=»…»
«`

Запуск Rogue

Rogue работает по архитектуре клиент-сервер, где основная логика оценки выполняется на бэкенд-сервере, а различные клиенты подключаются к нему для разных интерфейсов.

Поведение по умолчанию

При запуске uvx rogue-ai без указания режима:
* запускается сервер Rogue в фоновом режиме;
* запускается клиент TUI (Terminal User Interface).

Доступные режимы

* Default (Server + TUI): uvx rogue-ai — запускает сервер в фоновом режиме + клиент TUI.
* Server: uvx rogue-ai server — запускает только бэкенд-сервер.
* TUI: uvx rogue-ai tui — запускает только клиент TUI (требуется работающий сервер).
* Web UI: uvx rogue-ai ui — запускает только веб-интерфейс клиента Gradio (требуется работающий сервер).
* CLI: uvx rogue-ai cli — запускает неинтерактивную оценку в командной строке (требуется работающий сервер, идеально подходит для CI/CD).

Режим и аргументы

Режим сервера
«`
uvx rogue-ai server [OPTIONS]
«`

Опции:
* –host HOST — хост для запуска сервера (по умолчанию: 127.0.0.1 или переменная окружения HOST).
* –port PORT — порт для запуска сервера (по умолчанию: 8000 или переменная окружения PORT).
* –debug — включить ведение журнала отладки.

Режим TUI
«`
uvx rogue-ai tui [OPTIONS]
«`

Режим Web UI
«`
uvx rogue-ai ui [OPTIONS]
«`

Опции:
* –rogue-server-url URL — URL-адрес сервера Rogue (по умолчанию: http://localhost:8000).
* –port PORT — порт для запуска пользовательского интерфейса.
* –workdir WORKDIR — рабочий каталог (по умолчанию: ./.rogue).
* –debug — включить ведение журнала отладки.

Пример: тестирование агента по продаже футболок

Этот репозиторий включает простой пример агента, который продаёт футболки. Вы можете использовать его, чтобы увидеть Rogue в действии.

Установите примеры зависимостей:
Если вы используете uv:
«`
uv sync —group examples
«`
Или, если вы используете pip:
«`
pip install -e .[examples]
«`

Запуск примера агента-сервера в отдельном терминале:

Если вы используете uv:
«`
uv run examples/tshirtstoreagent
«`
Если нет:
«`
python examples/tshirtstoreagent
«`
Это запустит агента на http://localhost:10001.

Настройте Rogue в пользовательском интерфейсе так, чтобы он указывал на пример агента:

* URL-адрес агента: http://localhost:10001.
* Аутентификация: без аутентификации.

Проведите оценку и наблюдайте, как Rogue тестирует политики агента по продаже футболок!

Вы можете использовать либо TUI (uvx rogue-ai), либо режим веб-интерфейса (uvx rogue-ai ui).

Где применяется Rogue: практические примеры использования

* Повышение безопасности и соответствия требованиям. Проверка обработки персональных данных, поведения отказа, предотвращения утечки секретов и соблюдения политик в регулируемых доменах с использованием доказательств, привязанных к транскриптам.
* Агенты электронной коммерции и поддержки. Обеспечение выполнения правил предоставления скидок по OTP, правил возврата, эскалации в соответствии с SLA и правильности использования инструментов (поиск заказов, тикетинг) в условиях противодействия и сбоёв.
* Агенты разработчиков/DevOps. Оценка помощников по работе с кодом и CLI для ограничения рабочего пространства, семантики отката, поведения при ограничении скорости и предотвращения использования небезопасных команд.
* Многоагентные системы. Проверка контрактов планировщика-исполнителя, согласования возможностей и соответствия схеме в A2A; оценка совместимости в гетерогенных средах.
* Мониторинг регрессии и дрейфа. Ночные пакеты для новых версий моделей или изменений в подсказках; обнаружение поведенческого дрейфа и соблюдение критически важных для политики критериев прохождения перед выпуском.

Что такое Rogue и почему командам разработчиков агентов это важно?

Rogue — это комплексная система тестирования, разработанная для оценки производительности, соответствия требованиям и надёжности агентов искусственного интеллекта. Rogue синтезирует бизнес-контекст и риски в структурированные тесты с чёткими целями, тактиками и критериями успеха. Агент-оценщик выполняет корректные по протоколам диалоги в быстрых одношаговых или глубоких многошаговых состязательных режимах. Вы можете использовать свою модель или позволить Rogue использовать специализированных судей Qualifire для проведения тестов. Потоковая наблюдаемость и детерминированные артефакты: живые транскрипты, вердикты «прошёл/не прошёл», обоснования, привязанные к участкам транскриптов, время и происхождение модели/версии.

Под капотом: как устроен Rogue

Rogue работает по архитектуре клиент-сервер:
* Сервер Rogue: содержит основную логику оценки.
* Клиентские интерфейсы: несколько интерфейсов, которые подключаются к серверу:
* TUI (Terminal UI): современный интерфейс терминала, созданный с помощью Go и Bubble Tea.
* Web UI: веб-интерфейс на основе Gradio.
* CLI: интерфейс командной строки для автоматизированной оценки и CI/CD.

Эта архитектура обеспечивает гибкое развёртывание и модели использования, когда сервер может работать независимо, а несколько клиентов могут подключаться к нему одновременно.

Резюме

Rogue помогает командам разработчиков тестировать поведение агентов так, как оно фактически работает в производственной среде. Он превращает письменные политики в конкретные сценарии, отрабатывает эти сценарии в A2A и записывает всё происходящее с помощью транскриптов, которые можно проверить. В результате получается чёткий, повторяемый сигнал, который можно использовать в CI/CD для выявления нарушений политик и регрессий до их отправки.

1. Какие проблемы решают традиционные методы контроля качества при тестировании агентов ИИ, и как Rogue помогает преодолеть эти ограничения?

Ответ: традиционные методы контроля качества, такие как модульные тесты, статические запросы или скалярные оценки, не выявляют уязвимости при многоэтапном взаимодействии и не обеспечивают надёжных аудиторских следов. Rogue — это комплексная система тестирования, разработанная для оценки производительности, соответствия требованиям и надёжности агентов искусственного интеллекта. Она синтезирует бизнес-контекст и риски в структурированные тесты с чёткими целями, тактиками и критериями успеха.

2. Какие требования необходимы для установки Rogue и как можно быстро начать работу с ним?

Ответ: для установки Rogue необходимы следующие требования: uvx (если не установлен, следуйте руководству по установке uvx), Python 3.10+ и ключ API для поставщика LLM (например, OpenAI, Google, Anthropic). Для быстрой установки рекомендуется использовать автоматизированный скрипт установки:
* TUI: uvx rogue-ai;
* Web UI: uvx rogue-ai ui;
* CLI / CI/CD: uvx rogue-ai cli.

3. Какие режимы работы доступны в Rogue и как выбрать наиболее подходящий для конкретной задачи?

Ответ: в Rogue доступны следующие режимы работы:
* Default (Server + TUI): uvx rogue-ai — запускает сервер в фоновом режиме + клиент TUI.
* Server: uvx rogue-ai server — запускает только бэкенд-сервер.
* TUI: uvx rogue-ai tui — запускает только клиент TUI (требуется работающий сервер).
* Web UI: uvx rogue-ai ui — запускает только веб-интерфейс клиента Gradio (требуется работающий сервер).
* CLI: uvx rogue-ai cli — запускает неинтерактивную оценку в командной строке (требуется работающий сервер, идеально подходит для CI/CD).

Выбор режима зависит от конкретной задачи и предпочтений пользователя. Например, для тестирования агента по продаже футболок можно использовать режим TUI или Web UI.

Источник