Sentient AI выпускает ROMA: платформа для создания мета-агентов с иерархическим выполнением задач

Sentient AI выпустила ROMA (Recursive Open Meta-Agent) — платформу с открытым исходным кодом для создания высокопроизводительных мультиагентных систем.

Что такое ROMA?

ROMA структурирует рабочие процессы агентов в виде иерархического рекурсивного дерева задач:
* Родительские узлы разбивают сложную цель на подзадачи.
* Передают их дочерним узлам в качестве контекста.
* Позже агрегируют их решения в виде результатов, которые поступают обратно.

Архитектура:
* Atomize → Plan → Execute → Aggregate.
* Узел сначала атомизирует запрос (атомарный или нет). Если запрос не атомарный, планировщик разлагает его на подзадачи; в противном случае исполнитель выполняет задачу через LLM, инструмент/API или даже вложенного агента. Агрегатор затем объединяет выходные данные дочерних узлов в ответ родительского узла.
* Этот цикл принятия решений повторяется для каждой подзадачи, создавая дерево зависимостей, которое выполняет независимые ветви параллельно и обеспечивает порядок слева направо, когда подзадача зависит от предыдущей родственной.

Как работает ROMA?

Информация перемещается сверху вниз по мере разбиения задач и снизу вверх по мере агрегирования результатов. ROMA также позволяет устанавливать контрольные точки для человека на любом узле (например, для подтверждения плана или проверки фактов) и отображает трассировку этапов — входные и выходные данные для каждого узла — чтобы разработчики могли отлаживать и совершенствовать подсказки, инструменты и политики маршрутизации.

Стек технологий

* Backend: Python 3.12+ с FastAPI/Flask.
* Frontend: React + TypeScript с веб-сокетом в реальном времени.
* Поддержка LLM: любой провайдер через LiteLLM.
* Выполнение кода: песочницы E2B.
* Пути данных: поддержка корпоративного монтирования S3 с помощью goofys FUSE, проверки внедрения путей и безопасного обращения с учётными данными AWS.

В процессе разработки вы можете подключить ROMA к закрытым или открытым LLM, локальным моделям, детерминированным инструментам или другим агентам, не затрагивая метауровень; входные и выходные данные определяются с помощью Pydantic для структурированного, поддающегося проверке ввода-вывода во время выполнения и трассировки.

Почему важна рекурсия?

Рекурсивное разбиение ограничивает контекст тем, что требуется каждому узлу, сдерживая разрастание подсказок, а трассировка на уровне этапов (со структурированным вводом-выводом Pydantic) делает поток прозрачным и полностью отслеживаемым, так что сбои поддаются диагностике, а не являются «чёрным ящиком».

Бенчмарки: ROMA Search

Для проверки архитектуры Sentient создала ROMA Search — агент для поиска в интернете, реализованный на основе платформы ROMA. На SEALQA (Seal-0) — подмножестве, предназначенном для проверки многоисточникового рассуждения — ROMA Search показал точность 45,6%, превысив Kimi Researcher (36%) и Gemini 2.5 Pro (19,8%).

ROMA также демонстрирует современный уровень на FRAMES (многоступенчатое рассуждение) и близкий к SOTA на SimpleQA (фактический поиск). Как и все результаты, опубликованные поставщиками, эти данные следует рассматривать как ориентировочные, пока они не будут воспроизведены независимо, но они показывают, что архитектура конкурентоспособна в задачах, требующих рассуждений и фактических данных.

Где используется ROMA?

ROMA позиционируется как основа для мета-агентов с открытым исходным кодом: она предоставляет иерархическое рекурсивное дерево задач, в котором родительские узлы разлагают цели на подзадачи, передают контекст дочерним узлам (агентам/инструментам) и позже агрегируют результаты по мере их обратного потока.

Дизайн подчёркивает прозрачность за счёт трассировки этапов и поддерживает контрольные точки с участием человека, а модульные узлы позволяют разработчикам подключать любую модель, инструмент или агента и использовать параллелизацию для независимых ветвей. Это упрощает разработку многошаговых рабочих нагрузок — от финансового анализа до творческой генерации — с явным потоком контекста и наблюдаемым выполнением.

Комментарии редакции

ROMA — это не просто «обёртка для агентов», а дисциплинированная рекурсивная структура: Atomizer → Planner → Executor → Aggregator, отслеживаемая на каждом этапе, параллельная там, где это безопасно, последовательная там, где требуется.

Ранние результаты ROMA Search многообещающие и соответствуют целям платформы, но более важным результатом является контроль над разработчиками — чёткие графы задач, типизированные интерфейсы и прозрачный поток контекста, чтобы команды могли быстро выполнять итерации и проверять каждый этап.

С лицензией Apache-2.0 и реализацией, которая уже включает инструменты FastAPI/React, интеграцию с LiteLLM и пути выполнения в песочнице, ROMA является практической основой для создания агентских систем с долгосрочным горизонтом планирования и измеримым, проверяемым поведением.

1. Какие ключевые особенности платформы ROMA делают её привлекательной для разработчиков мультиагентных систем?

Ответ: платформа ROMA структурирует рабочие процессы агентов в виде иерархического рекурсивного дерева задач. Она позволяет разбивать сложные цели на подзадачи, передавать их дочерним узлам в качестве контекста и агрегировать их решения в виде результатов. Кроме того, ROMA поддерживает контрольные точки для человека на любом узле и отображает трассировку этапов, что упрощает отладку и совершенствование подсказок, инструментов и политик маршрутизации.

2. Какие технологии используются в архитектуре ROMA?

Ответ: в архитектуре ROMA используются следующие технологии:
* Backend: Python 3.12+ с FastAPI/Flask.
* Frontend: React + TypeScript с веб-сокетом в реальном времени.
* Поддержка LLM: любой провайдер через LiteLLM.
* Выполнение кода: песочницы E2B.
* Пути данных: поддержка корпоративного монтирования S3 с помощью goofys FUSE, проверки внедрения путей и безопасного обращения с учётными данными AWS.

3. Какие преимущества даёт использование рекурсивного подхода в архитектуре ROMA?

Ответ: рекурсивное разбиение ограничивает контекст тем, что требуется каждому узлу, сдерживая разрастание подсказок. Трассировка на уровне этапов делает поток прозрачным и полностью отслеживаемым, так что сбои поддаются диагностике, а не являются «чёрным ящиком». Это упрощает разработку многошаговых рабочих нагрузок и обеспечивает более эффективное выполнение задач.

4. Какие бенчмарки использовались для проверки архитектуры ROMA?

Ответ: для проверки архитектуры Sentient создала ROMA Search — агент для поиска в интернете, реализованный на основе платформы ROMA. На SEALQA (Seal-0) — подмножестве, предназначенном для проверки многоисточникового рассуждения — ROMA Search показал точность 45,6%, превысив Kimi Researcher (36%) и Gemini 2.5 Pro (19,8%). Также ROMA демонстрирует современный уровень на FRAMES (многоступенчатое рассуждение) и близкий к SOTA на SimpleQA (фактический поиск).

5. В каких областях может быть использована платформа ROMA?

Ответ: ROMA позиционируется как основа для мета-агентов с открытым исходным кодом. Она может быть использована для разработки многошаговых рабочих нагрузок в различных областях, таких как финансовый анализ, творческая генерация и другие.

Источник