Sentient AI выпустила ROMA (Recursive Open Meta-Agent) — платформу с открытым исходным кодом для создания высокопроизводительных мультиагентных систем.
Что такое ROMA?
ROMA структурирует рабочие процессы агентов в виде иерархического рекурсивного дерева задач:
* Родительские узлы разбивают сложную цель на подзадачи.
* Передают их дочерним узлам в качестве контекста.
* Позже агрегируют их решения в виде результатов, которые поступают обратно.
Архитектура:
* Atomize → Plan → Execute → Aggregate.
* Узел сначала атомизирует запрос (атомарный или нет). Если запрос не атомарный, планировщик разлагает его на подзадачи; в противном случае исполнитель выполняет задачу через LLM, инструмент/API или даже вложенного агента. Агрегатор затем объединяет выходные данные дочерних узлов в ответ родительского узла.
* Этот цикл принятия решений повторяется для каждой подзадачи, создавая дерево зависимостей, которое выполняет независимые ветви параллельно и обеспечивает порядок слева направо, когда подзадача зависит от предыдущей родственной.
Как работает ROMA?
Информация перемещается сверху вниз по мере разбиения задач и снизу вверх по мере агрегирования результатов. ROMA также позволяет устанавливать контрольные точки для человека на любом узле (например, для подтверждения плана или проверки фактов) и отображает трассировку этапов — входные и выходные данные для каждого узла — чтобы разработчики могли отлаживать и совершенствовать подсказки, инструменты и политики маршрутизации.
Стек технологий
* Backend: Python 3.12+ с FastAPI/Flask.
* Frontend: React + TypeScript с веб-сокетом в реальном времени.
* Поддержка LLM: любой провайдер через LiteLLM.
* Выполнение кода: песочницы E2B.
* Пути данных: поддержка корпоративного монтирования S3 с помощью goofys FUSE, проверки внедрения путей и безопасного обращения с учётными данными AWS.
В процессе разработки вы можете подключить ROMA к закрытым или открытым LLM, локальным моделям, детерминированным инструментам или другим агентам, не затрагивая метауровень; входные и выходные данные определяются с помощью Pydantic для структурированного, поддающегося проверке ввода-вывода во время выполнения и трассировки.
Почему важна рекурсия?
Рекурсивное разбиение ограничивает контекст тем, что требуется каждому узлу, сдерживая разрастание подсказок, а трассировка на уровне этапов (со структурированным вводом-выводом Pydantic) делает поток прозрачным и полностью отслеживаемым, так что сбои поддаются диагностике, а не являются «чёрным ящиком».
Бенчмарки: ROMA Search
Для проверки архитектуры Sentient создала ROMA Search — агент для поиска в интернете, реализованный на основе платформы ROMA. На SEALQA (Seal-0) — подмножестве, предназначенном для проверки многоисточникового рассуждения — ROMA Search показал точность 45,6%, превысив Kimi Researcher (36%) и Gemini 2.5 Pro (19,8%).
ROMA также демонстрирует современный уровень на FRAMES (многоступенчатое рассуждение) и близкий к SOTA на SimpleQA (фактический поиск). Как и все результаты, опубликованные поставщиками, эти данные следует рассматривать как ориентировочные, пока они не будут воспроизведены независимо, но они показывают, что архитектура конкурентоспособна в задачах, требующих рассуждений и фактических данных.
Где используется ROMA?
ROMA позиционируется как основа для мета-агентов с открытым исходным кодом: она предоставляет иерархическое рекурсивное дерево задач, в котором родительские узлы разлагают цели на подзадачи, передают контекст дочерним узлам (агентам/инструментам) и позже агрегируют результаты по мере их обратного потока.
Дизайн подчёркивает прозрачность за счёт трассировки этапов и поддерживает контрольные точки с участием человека, а модульные узлы позволяют разработчикам подключать любую модель, инструмент или агента и использовать параллелизацию для независимых ветвей. Это упрощает разработку многошаговых рабочих нагрузок — от финансового анализа до творческой генерации — с явным потоком контекста и наблюдаемым выполнением.
Комментарии редакции
ROMA — это не просто «обёртка для агентов», а дисциплинированная рекурсивная структура: Atomizer → Planner → Executor → Aggregator, отслеживаемая на каждом этапе, параллельная там, где это безопасно, последовательная там, где требуется.
Ранние результаты ROMA Search многообещающие и соответствуют целям платформы, но более важным результатом является контроль над разработчиками — чёткие графы задач, типизированные интерфейсы и прозрачный поток контекста, чтобы команды могли быстро выполнять итерации и проверять каждый этап.
С лицензией Apache-2.0 и реализацией, которая уже включает инструменты FastAPI/React, интеграцию с LiteLLM и пути выполнения в песочнице, ROMA является практической основой для создания агентских систем с долгосрочным горизонтом планирования и измеримым, проверяемым поведением.
1. Какие ключевые особенности платформы ROMA делают её привлекательной для разработчиков мультиагентных систем?
Ответ: платформа ROMA структурирует рабочие процессы агентов в виде иерархического рекурсивного дерева задач. Она позволяет разбивать сложные цели на подзадачи, передавать их дочерним узлам в качестве контекста и агрегировать их решения в виде результатов. Кроме того, ROMA поддерживает контрольные точки для человека на любом узле и отображает трассировку этапов, что упрощает отладку и совершенствование подсказок, инструментов и политик маршрутизации.
2. Какие технологии используются в архитектуре ROMA?
Ответ: в архитектуре ROMA используются следующие технологии:
* Backend: Python 3.12+ с FastAPI/Flask.
* Frontend: React + TypeScript с веб-сокетом в реальном времени.
* Поддержка LLM: любой провайдер через LiteLLM.
* Выполнение кода: песочницы E2B.
* Пути данных: поддержка корпоративного монтирования S3 с помощью goofys FUSE, проверки внедрения путей и безопасного обращения с учётными данными AWS.
3. Какие преимущества даёт использование рекурсивного подхода в архитектуре ROMA?
Ответ: рекурсивное разбиение ограничивает контекст тем, что требуется каждому узлу, сдерживая разрастание подсказок. Трассировка на уровне этапов делает поток прозрачным и полностью отслеживаемым, так что сбои поддаются диагностике, а не являются «чёрным ящиком». Это упрощает разработку многошаговых рабочих нагрузок и обеспечивает более эффективное выполнение задач.
4. Какие бенчмарки использовались для проверки архитектуры ROMA?
Ответ: для проверки архитектуры Sentient создала ROMA Search — агент для поиска в интернете, реализованный на основе платформы ROMA. На SEALQA (Seal-0) — подмножестве, предназначенном для проверки многоисточникового рассуждения — ROMA Search показал точность 45,6%, превысив Kimi Researcher (36%) и Gemini 2.5 Pro (19,8%). Также ROMA демонстрирует современный уровень на FRAMES (многоступенчатое рассуждение) и близкий к SOTA на SimpleQA (фактический поиск).
5. В каких областях может быть использована платформа ROMA?
Ответ: ROMA позиционируется как основа для мета-агентов с открытым исходным кодом. Она может быть использована для разработки многошаговых рабочих нагрузок в различных областях, таких как финансовый анализ, творческая генерация и другие.