Qualifire AI открывает исходный код Rogue: комплексная система тестирования агентов искусственного интеллекта для оценки производительности, соответствия требованиям и надёжности

Агенты в системах — это стохастические, зависящие от контекста и ограниченные политикой сущности. Традиционные методы контроля качества (QA), такие как модульные тесты, статические запросы или скалярные оценки типа «LLM как судья», не выявляют уязвимости при многошаговом взаимодействии и не обеспечивают надёжных аудиторских следов. Командам разработчиков нужны точные по протоколам диалоги, явные проверки политик и машиночитаемые доказательства, которые могут с уверенностью использоваться для выпуска.

Qualifire AI выпустила в открытый доступ Rogue — фреймворк на Python, который оценивает агентов искусственного интеллекта по протоколу Agent-to-Agent (A2A). Rogue преобразует бизнес-политики в исполняемые сценарии, проводит многошаговые взаимодействия с целевым агентом и выдаёт детерминированные отчёты, подходящие для CI/CD и проверок соответствия.

Быстрый старт

Предварительные требования:
* uvx — если не установлен, следуйте руководству по установке uvx;
* Python 3.10+;
* API-ключ для поставщика LLM (например, OpenAI, Google, Anthropic).

Установка

Вариант 1: быстрая установка (рекомендуется)
Используйте наш автоматизированный скрипт установки, чтобы быстро приступить к работе:

TUI

uvx rogue-ai

Web UI

uvx rogue-ai ui

CLI / CI/CD

uvx rogue-ai cli

Вариант 2: ручная установка

a) Клонируйте репозиторий:

git clone https://github.com/qualifire-dev/rogue.git
cd rogue

b) Установите зависимости:
Если вы используете uvx:

uv sync

Или, если вы используете pip:

pip install -e .

c) ОПЦИОНАЛЬНО: настройте переменные среды: создайте файл .env в корневом каталоге и добавьте свои API-ключи. Rogue использует LiteLLM, поэтому вы можете установить ключи для различных поставщиков.

OPENAIAPIKEY=»sk-…»
ANTHROPICAPIKEY=»sk-…»
GOOGLEAPIKEY=»…»

Запуск Rogue

Rogue работает по архитектуре «клиент-сервер», где основная логика оценки выполняется на сервере, а различные клиенты подключаются к нему для разных интерфейсов.

Поведение по умолчанию
Когда вы запускаете uvx rogue-ai без указания режима, он:
* запускает сервер Rogue в фоновом режиме;
* запускает клиент TUI (Terminal User Interface).

Доступные режимы
* Default (Server + TUI): uvx rogue-ai — запускает сервер в фоновом режиме + клиент TUI;
* Server: uvx rogue-ai server — запускает только сервер;
* TUI: uvx rogue-ai tui — запускает только клиент TUI (требуется работающий сервер);
* Web UI: uvx rogue-ai ui — запускает только веб-интерфейс клиента Gradio (требуется работающий сервер);
* CLI: uvx rogue-ai cli — запускает неинтерактивную оценку в командной строке (требуется работающий сервер, идеально подходит для CI/CD).

Rogue: практическое применение

* Повышение безопасности и соответствия требованиям: проверка обработки личных данных, поведения при отказе, предотвращения утечки секретов и соблюдения политик в регулируемых доменах с доказательствами, привязанными к транскриптам.
* Электронная коммерция и поддержка агентов: обеспечение скидок с одноразовым паролем (OTP), правил возврата, соблюдения SLA, правильности использования инструментов (поиск заказов, тикетинг) в условиях конкуренции и сбоёв.
* Агенты разработчиков/DevOps: оценка помощников по написанию кода и CLI для ограничения рабочего пространства, семантики откатов, поведения при ограничении скорости и предотвращения небезопасных команд.
* Многоагентные системы: проверка контрактов планировщика-исполнителя, переговоров по возможностям и соответствия схеме в A2A; оценка совместимости между разнородными фреймворками.
* Мониторинг регрессии и дрейфа: ночные наборы тестов для новых версий моделей или изменений в подсказках; обнаружение поведенческого дрейфа и соблюдение критически важных для политики критериев прохождения перед выпуском.

Что такое Rogue и почему командам разработчиков агентов это важно?

Rogue — это комплексная система тестирования, разработанная для оценки производительности, соответствия требованиям и надёжности агентов искусственного интеллекта. Rogue синтезирует бизнес-контекст и риски в структурированные тесты с чёткими целями, тактиками и критериями успеха. Агент-оценщик запускает корректные по протоколу диалоги в быстром одношаговом или глубоком многошаговом состязательном режимах. Вы можете использовать собственную модель или позволить Rogue использовать специально разработанные судьи Qualifire для проведения тестов. Потоковая наблюдаемость и детерминированные артефакты: живые транскрипты, вердикты «прошёл/не прошёл», обоснования, привязанные к участкам транскриптов, время и происхождение модели/версии.

Как устроен Rogue

Rogue работает по архитектуре «клиент-сервер»:
* Сервер Rogue: содержит основную логику оценки.
* Клиентские интерфейсы: несколько интерфейсов, которые подключаются к серверу:
* TUI (Terminal UI): современный интерфейс терминала, созданный с помощью Go и Bubble Tea;
* Web UI: веб-интерфейс на основе Gradio;
* CLI: интерфейс командной строки для автоматизированной оценки и CI/CD.

Эта архитектура обеспечивает гибкие шаблоны развёртывания и использования, когда сервер может работать независимо, а несколько клиентов могут подключаться к нему одновременно.

Резюме

Rogue помогает командам разработчиков тестировать поведение агентов так, как оно фактически работает в производственной среде. Он превращает написанные политики в конкретные сценарии, отрабатывает эти сценарии в A2A и записывает, что произошло, с помощью транскриптов, которые можно проверить. В результате получается чёткий, повторяемый сигнал, который можно использовать в CI/CD для выявления нарушений политик и регрессий до их отправки.

1. Какие проблемы решают традиционные методы контроля качества (QA) в контексте тестирования агентов искусственного интеллекта и как Rogue предлагает их преодолеть?

Ответ: традиционные методы контроля качества, такие как модульные тесты, статические запросы или скалярные оценки, не выявляют уязвимости при многошаговом взаимодействии и не обеспечивают надёжных аудиторских следов. Rogue преобразует бизнес-политики в исполняемые сценарии, проводит многошаговые взаимодействия с целевым агентом и выдаёт детерминированные отчёты, подходящие для CI/CD и проверок соответствия.

2. Какие предварительные требования необходимы для установки Rogue и какие варианты установки предлагает Qualifire AI?

Ответ: для установки Rogue необходимы следующие предварительные требования: uvx (если не установлен, следуйте руководству по установке uvx), Python 3.10+ и API-ключ для поставщика LLM (например, OpenAI, Google, Anthropic). Qualifire AI предлагает два варианта установки: автоматизированный скрипт установки и ручную установку.

3. Какие практические применения предлагает Rogue для команд разработчиков агентов искусственного интеллекта?

Ответ: Rogue предлагает следующие практические применения:
* повышение безопасности и соответствия требованиям;
* электронная коммерция и поддержка агентов;
* агенты разработчиков/DevOps;
* многоагентные системы;
* мониторинг регрессии и дрейфа.

4. Как устроена архитектура Rogue и какие клиентские интерфейсы она поддерживает?

Ответ: Rogue работает по архитектуре «клиент-сервер». Сервер содержит основную логику оценки, а клиентские интерфейсы подключаются к серверу. Поддерживаемые клиентские интерфейсы: TUI (Terminal UI), Web UI и CLI (интерфейс командной строки).

5. Какие преимущества предоставляет Rogue командам разработчиков при тестировании поведения агентов искусственного интеллекта?

Ответ: Rogue помогает командам разработчиков тестировать поведение агентов так, как оно фактически работает в производственной среде. Он превращает написанные политики в конкретные сценарии, отрабатывает эти сценарии в A2A и записывает, что произошло, с помощью транскриптов, которые можно проверить. В результате получается чёткий, повторяемый сигнал, который можно использовать в CI/CD для выявления нарушений политик и регрессий до их отправки.

Источник