Системный план развития Deep Research Agents: автономные исследовательские системы на основе больших языковых моделей

Команда исследователей из Ливерпульского университета, лаборатории Huawei Noah’s Ark, Оксфордского университета и Университетского колледжа Лондона представляет отчёт, объясняющий Deep Research Agents (DR agents) — новую парадигму в автономных исследованиях. Эти системы работают на основе больших языковых моделей (LLMs) и предназначены для решения сложных задач, требующих динамического анализа, адаптивного планирования, итеративного использования инструментов и структурированных аналитических результатов.

Ограничения существующих исследовательских фреймворков

До появления Deep Research Agents (DR agents) большинство систем, управляемых LLM, были сосредоточены на фактическом поиске или одношаговом рассуждении. Системы RAG улучшили фактологическую основу, а такие инструменты, как FLARE и Toolformer, обеспечили базовое использование инструментов. Однако этим моделям не хватало адаптивности в реальном времени, глубокого анализа и модульной расширяемости. Они испытывали трудности с согласованностью в длинном контексте, эффективным многоэтапным поиском и динамической настройкой рабочего процесса — ключевыми требованиями для реальных исследований.

Архитектурные инновации в Deep Research Agents (DR agents)

Основополагающая конструкция Deep Research Agents (DR agents) устраняет ограничения статических систем рассуждений. Ключевые технические новшества включают:

* Классификация рабочих процессов: разграничение статических (ручных, с фиксированной последовательностью) и динамических (адаптивных, в реальном времени) исследовательских рабочих процессов.
* Протокол контекста модели (MCP): стандартизированный интерфейс, обеспечивающий безопасное и согласованное взаимодействие с внешними инструментами и API.
* Протокол «агент-агент» (A2A): облегчает децентрализованное, структурированное общение между агентами для выполнения совместных задач.
* Гибридные методы поиска: поддержка как API-ориентированного (структурированного), так и браузерного (неструктурированного) сбора данных.
* Многомодальное использование инструментов: интеграция выполнения кода, анализа данных, мультимодальной генерации и оптимизации памяти в цикле логического вывода.

Системный конвейер: от запроса до генерации отчёта

Типичный Deep Research Agents (DR agents) обрабатывает исследовательский запрос через:

* Понимание намерений с помощью стратегий планирования только на основе намерений, от намерения к планированию или единых стратегий планирования намерений.
* Поиск с использованием как API (например, arXiv, Wikipedia, Google Search) и браузерной среды для динамического контента.
* Вызов инструментов через MCP для выполнения задач, таких как создание сценариев, аналитика или обработка мультимедиа.
* Структурированное составление отчётов, включая обоснованные доказательствами сводки, таблицы или визуализации.

Механизмы памяти, такие как векторные базы данных, графы знаний или структурированные репозитории, позволяют агентам управлять рассуждениями в длинном контексте и сокращать избыточность.

Сравнение с RAG и традиционными агентами по использованию инструментов

В отличие от методов RAG, которые работают со статическими конвейерами поиска, Deep Research Agents (DR agents):

* Выполняют многошаговое планирование с эволюционирующими целями задач.
* Адаптируют стратегии поиска на основе прогресса в задачах.
* Координируют работу нескольких специализированных агентов (в мультиагентных настройках).
* Используют асинхронные и параллельные рабочие процессы.

Эта архитектура обеспечивает более согласованное, масштабируемое и гибкое выполнение исследовательских задач.

Промышленное внедрение DR агентов

* OpenAI DR: использует модель рассуждений o3 с динамическими рабочими процессами на основе RL, мультимодальным поиском и созданием отчётов с использованием кода.
* Gemini DR: построен на Gemini-2.0 Flash; поддерживает большие контекстные окна, асинхронные рабочие процессы и мультимодальное управление задачами.
* Grok DeepSearch: сочетает разрежённое внимание, поиск в браузере и среду выполнения в песочнице.
* Perplexity DR: применяет итеративный веб-поиск с гибридной оркестрацией LLM.
* Microsoft Researcher & Analyst: интегрируют модели OpenAI в Microsoft 365 для создания доменных, безопасных исследовательских конвейеров.

Бенчмаркинг и производительность

Deep Research Agents (DR agents) тестируются с использованием как QA, так и бенчмарков выполнения задач:

* QA: HotpotQA, GPQA, 2WikiMultihopQA, TriviaQA.
* Комплексные исследования: MLE-Bench, BrowseComp, GAIA, HLE.

Бенчмарки измеряют глубину поиска, точность использования инструментов, согласованность рассуждений и структурированное составление отчётов. Такие агенты, как DeepResearcher и SimpleDeepSearcher, последовательно превосходят традиционные системы.

Часто задаваемые вопросы

Q1: Что такое Deep Research Agents?
A: DR agents — это системы на основе LLM, которые автономно проводят многошаговые исследовательские рабочие процессы, используя динамическое планирование и интеграцию инструментов.

Q2: Чем DR agents лучше моделей RAG?
A: DR agents поддерживают адаптивное планирование, многоходовый поиск, итеративное использование инструментов и синтез отчётов в реальном времени.

Q3: Какие протоколы используют DR agents?
A: MCP (для взаимодействия с инструментами) и A2A (для совместной работы агентов).

Q4: Готовы ли эти системы к промышленному применению?
A: Да. OpenAI, Google, Microsoft и другие внедрили DR agents в общественных и корпоративных приложениях.

Q5: Как оцениваются DR agents?
A: С помощью бенчмарков QA, таких как HotpotQA и HLE, и бенчмарков выполнения, таких как MLE-Bench и BrowseComp.

1. Какие ключевые технические новшества используются в Deep Research Agents (DR agents) для решения исследовательских задач?

В статье упоминаются несколько ключевых технических новшеств:
* классификация рабочих процессов (разграничение статических и динамических исследовательских рабочих процессов);
* протокол контекста модели (MCP) — стандартизированный интерфейс для взаимодействия с внешними инструментами и API;
* протокол «агент-агент» (A2A) — облегчает децентрализованное, структурированное общение между агентами для выполнения совместных задач;
* гибридные методы поиска — поддержка как API-ориентированного (структурированного), так и браузерного (неструктурированного) сбора данных;
* многомодальное использование инструментов — интеграция выполнения кода, анализа данных, мультимодальной генерации и оптимизации памяти в цикле логического вывода.

2. Какие этапы включает в себя обработка исследовательского запроса в типичном Deep Research Agents (DR agents)?

Типичный Deep Research Agents (DR agents) обрабатывает исследовательский запрос через:
* понимание намерений с помощью стратегий планирования только на основе намерений, от намерения к планированию или единых стратегий планирования намерений;
* поиск с использованием как API (например, arXiv, Wikipedia, Google Search) и браузерной среды для динамического контента;
* вызов инструментов через MCP для выполнения задач, таких как создание сценариев, аналитика или обработка мультимедиа;
* структурированное составление отчётов, включая обоснованные доказательствами сводки, таблицы или визуализации.

3. В чём заключается преимущество Deep Research Agents (DR agents) перед традиционными методами RAG?

В отличие от методов RAG, которые работают со статическими конвейерами поиска, Deep Research Agents (DR agents):
* выполняют многошаговое планирование с эволюционирующими целями задач;
* адаптируют стратегии поиска на основе прогресса в задачах;
* координируют работу нескольких специализированных агентов (в мультиагентных настройках);
* используют асинхронные и параллельные рабочие процессы.

Источник