Исследователи из Стэнфорда выпустили AgentFlow: обучение с подкреплением в потоке для модульных ИИ-агентов, использующих инструменты

AgentFlow — это обучаемая агентная система с четырьмя модулями: планировщик, исполнитель, верификатор, генератор. Они координируются с помощью явной памяти и набора инструментов.

🔍 Что такое AgentFlow?

AgentFlow формализует многошаговое рассуждение с использованием инструментов как процесс принятия решений в условиях неопределённости (MDP — Markov Decision Process). На каждом шаге планировщик предлагает подзадачу и выбирает инструмент плюс контекст; исполнитель вызывает инструмент; верификатор сигнализирует, продолжать ли; генератор выдаёт окончательный ответ при завершении.

Структурированная, развивающаяся память записывает состояния, вызовы инструментов и сигналы верификации, ограничивая рост контекста и делая траектории проверяемыми. Обучается только планировщик; другие модули могут быть фиксированными механизмами.

📃 Метод обучения: Flow-GRPO

Flow-GRPO (Flow-based Group Refined Policy Optimization) преобразует долгосрочную оптимизацию с разреженной наградой в выполнимые одношаговые обновления:

* Финальная награда за результат распределяется: каждому шагу присваивается единый, поддающийся проверке сигнал на уровне траектории (LLM-as-judge correctness).
* Цель на уровне токенов: вычисляются взвешенные по важности соотношения для каждого токена с обрезкой в стиле PPO и KL-штрафом по отношению к эталонной политике, чтобы предотвратить отклонение.
* Групповая нормализация преимуществ: снижение дисперсии в группах реализаций с использованием политик стабилизирует обновления.

📊 Понимание результатов и тестов

Команда исследователей оценивает четыре типа задач:
* поиск с интенсивным использованием знаний (Bamboogle, 2Wiki, HotpotQA, Musique);
* агентские рассуждения (GAIA textual split);
* математика (AIME-24, AMC-23, Game of 24);
* естественные науки (GPQA, MedQA).

GAIA — это ориентированный на инструменты тест для общих помощников; текстовый сплит исключает мультимодальные требования.

Основные показатели (7B backbone after Flow-GRPO):
* Среднее улучшение по сравнению с сильными базовыми показателями: +14,9% (поиск), +14,0% (агентские), +14,5% (математика), +4,1% (естественные науки).
* Система 7B превосходит GPT-4o в представленном наборе.
* На странице проекта также сообщается о таких эффектах обучения, как улучшение качества планирования, снижение ошибок при вызове инструментов (до 28,4% на GAIA) и положительные тенденции при увеличении бюджетов ходов и масштаба модели.

🔍 Ключевые выводы

* Модульный агент, обучение только планировщика. AgentFlow структурирует агента в Planner–Executor–Verifier–Generator с явной памятью; в цикле обучается только планировщик.
* Flow-GRPO преобразует долгосрочное обучение с подкреплением в одношаговые обновления.
* Команда исследователей сообщила о средних улучшениях на 10 тестах.
* Система 7B превосходит GPT-4o в этом наборе.
* Надёжность использования инструментов повышается.

📜 Комментарии редакции

AgentFlow формализует агентов, использующих инструменты, в четыре модуля (планировщик, исполнитель, верификатор, генератор) и обучает только планировщик в цикле с помощью Flow-GRPO, который распределяет единую награду на уровне траектории каждому шагу с обновлениями на уровне токенов в стиле PPO и KL-контролем.

Ознакомьтесь с технической статьёй, страницей на GitHub и страницей проекта. Не стесняйтесь заглядывать на нашу страницу GitHub, чтобы найти учебные пособия, коды и блокноты. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit с более чем 100 тысячами участников и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.

1. Какие основные компоненты включает в себя система AgentFlow?

Ответ: AgentFlow состоит из четырёх модулей: планировщика, исполнителя, верификатора и генератора. Они координируются с помощью явной памяти и набора инструментов.

2. Какой метод обучения используется в AgentFlow и как он работает?

Ответ: в AgentFlow используется метод обучения Flow-GRPO (Flow-based Group Refined Policy Optimization). Он преобразует долгосрочную оптимизацию с разреженной наградой в выполнимые одношаговые обновления. На каждом шаге планировщик предлагает подзадачу и выбирает инструмент плюс контекст; исполнитель вызывает инструмент; верификатор сигнализирует, продолжать ли; генератор выдаёт окончательный ответ при завершении.

3. Какие типы задач использовались для тестирования системы AgentFlow?

Ответ: команда исследователей оценивает четыре типа задач:
* поиск с интенсивным использованием знаний (Bamboogle, 2Wiki, HotpotQA, Musique);
* агентские рассуждения (GAIA textual split);
* математика (AIME-24, AMC-23, Game of 24);
* естественные науки (GPQA, MedQA).

4. Какие основные показатели использовались для оценки эффективности системы AgentFlow?

Ответ: основные показатели включают среднее улучшение по сравнению с сильными базовыми показателями для каждого типа задач, сравнение с GPT-4o и эффекты обучения, такие как улучшение качества планирования и снижение ошибок при вызове инструментов.

5. Какие ключевые выводы были сделаны исследователями после тестирования системы AgentFlow?

Ответ: ключевые выводы включают:
* модульность агента с обучением только планировщика;
* преобразование долгосрочного обучения с подкреплением в одношаговые обновления с помощью Flow-GRPO;
* средние улучшения на 10 тестах;
* превосходство системы 7B над GPT-4o в представленном наборе;
* повышение надёжности использования инструментов.

Источник