StepFun AI представляет Step-DeepResearch: модель агента для глубоких исследований, построенная на основе атомарных возможностей

StepFun представила Step-DeepResearch — модель агента для глубоких исследований с 32 миллиардами параметров, которая превращает веб-поиск в настоящие исследовательские рабочие процессы с долгосрочным анализом, использованием инструментов и структурированным отчётом. Модель построена на Qwen2.5 32B-Base и обучена действовать как единый агент, который планирует, исследует источники, проверяет доказательства и пишет отчёты со ссылками, сохраняя при этом низкую стоимость вывода.

От поиска к глубоким исследованиям

Большинство существующих веб-агентов настроены на решение задач с несколькими переходами для ответов на вопросы. Они пытаются сопоставить ответы, основанные на фактах, для коротких вопросов. Это ближе к целенаправленному поиску, чем к реальным исследованиям. Задачи глубоких исследований отличаются. Они включают в себя распознавание скрытых намерений, принятие решений в долгосрочной перспективе, многократное использование инструментов, структурированное рассуждение и перекрёстную проверку источников в условиях неопределённости.

Step-DeepResearch переосмысливает это как последовательный процесс принятия решений на основе компактного набора атомарных возможностей. Исследовательская группа определяет 4 атомарные возможности: планирование и декомпозиция задач, поиск глубокой информации, рефлексия и проверка, а также составление профессиональных отчётов. Вместо координации множества внешних агентов система включает этот цикл в единую модель, которая на каждом шаге решает, какое действие предпринять.

Синтез данных на основе атомарных возможностей

Чтобы обучить эти атомарные возможности, исследовательская группа создаёт отдельные конвейеры данных для каждого навыка. Для планирования они начинают с высококачественных технических отчётов, обзорных статей и документов финансового анализа. Они реконструируют реалистичные планы исследований и деревья задач из заголовков, аннотаций и структуры, а затем генерируют траектории, соответствующие этим планам. Это знакомит модель с долгосрочными структурами проектов, а не только с шаблонами коротких вопросов.

Для поиска глубокой информации они строят запросы на основе графов в таких графах знаний, как Wikidata5m и CN-DBpedia. Они выбирают подграфы, расширяют их с помощью поиска и синтезируют вопросы, требующие многоэтапного рассуждения о сущностях и документах. Отдельный конвейер использует индекс гиперссылок в стиле Wiki, чтобы принудительно выполнять поиск по нескольким документам и комбинировать доказательства. Простые вопросы, которые сильная модель уже может решить с помощью простой стратегии ReAct, отфильтровываются, поэтому обучение сосредоточено на сложных задачах поиска.

Данные для рефлексии и проверки генерируются с помощью циклов самокоррекции и многоагентных следов учителя. Агенты-учителя извлекают утверждения, планируют проверки, верифицируют факты, перепланируют при появлении несоответствий и только затем пишут отчёты. Полученные траектории очищаются и используются в качестве надзора для одного агента-ученика. Генерация отчётов обучается в 2 этапа: на первом этапе обучения — для стиля и глубины домена с использованием пар запрос-отчёт, затем — с помощью контролируемого обучения под строгим форматированием и ограничениями согласованности плана.

Прогрессивное обучение на Qwen2.5-32B-Base

Конвейер обучения состоит из 3 этапов: агентское промежуточное обучение, контролируемая тонкая настройка и обучение с подкреплением. На этапе промежуточного обучения-1 команда внедряет атомарные возможности без инструментов, используя длину контекста до 32 тыс. токенов. Данные охватывают активное чтение, синтетические следы рассуждений, обобщение и рефлексию. Исследовательская группа демонстрирует устойчивый рост показателей на SimpleQA, TriviaQA и FRAMES по мере увеличения объёма обучения примерно до 150 млрд токенов, причём наибольшие успехи наблюдаются на FRAMES, который подчёркивает структурированное рассуждение.

На этапе-2 контекст расширяется до 128 тыс. токенов и вводятся явные вызовы инструментов. Модель изучает такие задачи, как ответы на вопросы на основе URL, глубокий веб-поиск, обобщение длинных документов и рассуждения в рамках длинных диалогов. Этот этап согласовывает модель с реальными сценариями исследований, где поиск, просмотр и анализ должны быть объединены в одну траекторию.

Во время контролируемой тонкой настройки 4 атомарные возможности объединяются в полные следы глубокого поиска и глубоких исследований. Очистка данных сохраняет траектории, которые являются правильными и короткими с точки зрения количества шагов и вызовов инструментов. Конвейер внедряет контролируемые инструментальные ошибки с последующей коррекцией для повышения надёжности и обеспечивает соблюдение форматов цитирования, чтобы отчёты основывались на извлечённых источниках.

Обучение с подкреплением затем оптимизирует агента в реальной инструментальной среде. Исследовательская группа создаёт задачи и контрольные списки путём обратного синтеза и обучает судью Rubrics в стиле контрольных списков для оценки отчётов по мелкозернистым параметрам. Дизайн вознаграждения преобразует троичные метки рубрик в асимметричные двоичные вознаграждения, которые фиксируют как положительные цели, так и нарушения. Политика обучается с помощью PPO и изученного критика, используя обобщённую оценку преимуществ с почти нулевым дисконтированием, чтобы длинные траектории не усекались.

Архитектура и поисковый стек Single Agent ReAct

Во время вывода Step-DeepResearch работает как единый агент в стиле ReAct, который чередует размышления, вызовы инструментов и наблюдения, пока не решит вывести отчёт. Набор инструментов включает пакетный веб-поиск, менеджер задач, командные команды оболочки и файловые операции. Выполнение осуществляется в песочнице с сохранением состояния терминала через tmux. Браузер, ориентированный на восприятие, сокращает количество повторных захватов страниц, используя расстояние перцептивного хэша. Инструменты для анализа документов, транскрипции аудио и анализа изображений поддерживают мультимодальные входные данные.

Приобретение информации использует 2 связанных ресурса. Команда StepFun утверждает, что её Search API основана более чем на 20 миллионах высококачественных документов и 600 премиальных индексах. Исследовательская группа описывает стратегию индексирования доверенных источников, которая выделяет более 600 доверенных доменов, включая правительственные, академические и институциональные сайты. Поиск осуществляется на уровне абзацев и использует ранжирование с учётом авторитетности, так что доменам с высоким доверием отдаётся предпочтение, когда релевантность схожа.

Оценка, стоимость и доступ

Для измерения поведения в области глубоких исследований команда вводит ADR-Bench — китайский бенчмарк с 110 открытыми задачами по 9 направлениям. 70 задач охватывают общие области, такие как образование, наука и техника, а также общественная жизнь, оцениваемые экспертами путём сравнения вбок. 40 задач в сфере финансов и права оцениваются с помощью явных рубрик, которые соответствуют ограничениям атомарности и проверяемости.

В Scale AI Research Rubrics Step-DeepResearch достигает 61,42% соответствия рубрикам, что сопоставимо с OpenAI-DeepResearch и Gemini-DeepResearch и явно превосходит многочисленные открытые и проприетарные базовые модели. В ADR-Bench экспертные рейтинги Elo показывают, что модель 32B превосходит более крупные открытые модели, такие как MiniMax-M2, GLM-4.6 и DeepSeek-V3.2, и конкурирует с такими системами, как Kimi-Researcher и MiniMax-Agent-Pro.

Ключевые выводы

* Одноагентная архитектура с атомарными возможностями: Step-DeepResearch — это модель с 32 миллиардами параметров, построенная на Qwen2.-32B-Base, которая включает в себя 4 атомарные возможности: планирование, поиск глубокой информации, рефлексию и проверку, а также составление профессиональных отчётов.
* Целенаправленный синтез данных для каждого навыка: исследовательская группа создаёт отдельные конвейеры данных для планирования, поиска глубокой информации, рефлексии и написания отчётов, используя реконструированные планы из реальных отчётов, запросы на основе графов в Wikidata5m и CN-DBpedia, многоагентные следы учителей и строгие данные для форматирования отчётов.
* Трёхэтапное обучение с длинным контекстом и RL: обучение использует промежуточное обучение, контролируемую тонкую настройку и обучение с подкреплением, с промежуточным обучением до 150 млрд токенов при 32 тыс., а затем 128 тыс. контекста, SFT составляет полные траектории глубоких исследований, а PPO на основе RL с судьёй Rubrics оптимизирует отчёты в соответствии с подробными контрольными списками.
* Архитектура ReAct с курируемым поиском и внешней памятью: во время вывода модель запускает цикл ReAct, который вызывает инструменты для пакетного веб-поиска, задач, команд оболочки и файловых операций, использует Search API, основанную на более чем 20 миллионах документов и 600 премиальных индексах, наряду с более чем 600 доверенными доменами, и полагается на редактирование патчей и хранилище с кратким изложением для работы в качестве внешней памяти.
* Конкурентоспособное качество при более низких затратах: в Scale AI Research Rubrics модель достигает 61,42% соответствия рубрикам и конкурирует с OpenAI-DeepResearch и Gemini-DeepResearch, на ADR Bench она достигает 67,1% побед или ничьих против сильных базовых моделей.

1. Какие ключевые особенности отличают модель Step-DeepResearch от других веб-агентов?

Ответ: Step-DeepResearch отличается от других веб-агентов тем, что она предназначена для глубоких исследований, а не для целенаправленного поиска. Модель включает в себя 4 атомарные возможности: планирование и декомпозиция задач, поиск глубокой информации, рефлексия и проверка, а также составление профессиональных отчётов. Кроме того, Step-DeepResearch использует трёхэтапное обучение с длинным контекстом и RL, что позволяет модели достигать высокого качества при более низких затратах.

2. Какие этапы включает в себя конвейер обучения Step-DeepResearch?

Ответ: Конвейер обучения Step-DeepResearch включает в себя три этапа: агентское промежуточное обучение, контролируемую тонкую настройку и обучение с подкреплением. На этапе промежуточного обучения команда внедряет атомарные возможности без инструментов, используя длину контекста до 32 тыс. токенов. На этапе-2 контекст расширяется до 128 тыс. токенов и вводятся явные вызовы инструментов. Во время контролируемой тонкой настройки 4 атомарные возможности объединяются в полные следы глубокого поиска и глубоких исследований. Обучение с подкреплением затем оптимизирует агента в реальной инструментальной среде.

3. Какие источники данных используются для обучения модели Step-DeepResearch?

Ответ: Для обучения модели Step-DeepResearch используются высококачественные технические отчёты, обзорные статьи и документы финансового анализа. Также используются графы знаний, такие как Wikidata5m и CN-DBpedia, для построения запросов на основе графов. Данные для рефлексии и проверки генерируются с помощью циклов самокоррекции и многоагентных следов учителя.

4. Какие преимущества предоставляет модель Step-DeepResearch по сравнению с другими моделями?

Ответ: Модель Step-DeepResearch предоставляет несколько преимуществ по сравнению с другими моделями. Во-первых, она включает в себя атомарные возможности, которые позволяют модели планировать, искать глубокую информацию, рефлексировать и проверять, а также составлять профессиональные отчёты. Во-вторых, модель использует трёхэтапное обучение с длинным контекстом и RL, что позволяет достичь высокого качества при более низких затратах. В-третьих, Step-DeepResearch использует архитектуру ReAct с курируемым поиском и внешней памятью, что обеспечивает эффективное выполнение задач.

5. Какие задачи включает в себя глубокое исследование, и как модель Step-DeepResearch решает эти задачи?

Ответ: Задачи глубоких исследований включают в себя распознавание скрытых намерений, принятие решений в долгосрочной перспективе, многократное использование инструментов, структурированное рассуждение и перекрёстную проверку источников в условиях неопределённости. Модель Step-DeepResearch решает эти задачи путём включения атомарных возможностей в единую модель, которая на каждом шаге решает, какое действие предпринять. Это позволяет модели планировать, искать информацию, рефлексировать, проверять и составлять отчёты, обеспечивая эффективное выполнение задач глубоких исследований.

Источник