Исследователи из Стэнфорда выпустили AgentFlow: обучение с подкреплением в потоке для модульных ИИ-агентов, использующих инструменты
AgentFlow — это обучаемая агентная система с четырьмя модулями: планировщик, исполнитель, верификатор, генератор. Они координируются с помощью явной памяти и набора инструментов. 🔍 Что такое AgentFlow? AgentFlow формализует многошаговое рассуждение с использованием инструментов как процесс принятия решений в условиях неопределённости (MDP — Markov Decision Process). На каждом шаге планировщик предлагает подзадачу и выбирает инструмент плюс … Читать далее