Большинство фреймворков для агентов всё ещё используют предопределённый цикл Reason, Act, Observe, поэтому агент может использовать только те инструменты, которые внедрены в запрос. Это работает для небольших задач, но не справляется, когда набор инструментов большой, задача длинная, и агенту необходимо изменить стратегию в середине рассуждения.
Команда из Renmin University of China и Xiaohongshu предлагает DeepAgent как агента глубокого анализа, который объединяет всё это в одном согласованном процессе рассуждения.
Как работает DeepAgent
DeepAgent позволяет модели выводить четыре типа действий непосредственно в тексте: внутренние мысли, поиск инструментов, вызов инструментов и свёртка памяти. Когда агент решает выполнить поиск, он запрашивает плотный индекс, содержащий описания инструментов из больших реестров, например, более 16 000 инструментов RapidAPI и 3 912 инструментов ToolHop, а затем получает обратно только инструменты с наивысшим рейтингом в контексте. Это делает доступ к инструментам динамическим: модель не зависит от предварительно загруженного списка инструментов и остаётся согласованной с реальными средами, где инструменты меняются.
Для длинных последовательностей вызовов инструментов, веб-результатов и ответов кода контекст переполняется. DeepAgent решает эту проблему с помощью шага автономной свёртки памяти. Когда модель выдаёт токен свёртки, вспомогательная LLM сжимает полную историю в три памяти: эпизодическую память, которая записывает события задачи, рабочую память, которая записывает текущую подзадачу и недавние проблемы, и память инструментов, которая записывает имена инструментов, аргументы и результаты. Эти воспоминания возвращаются в виде структурированного текста, так что агент продолжает работу с компактного, но информативного состояния.
ToolPO: оптимизация политики использования инструментов
Контрольные следы не учат устойчивому использованию инструментов, потому что правильные вызовы инструментов занимают всего несколько токенов внутри длинной генерации. Исследовательская группа вводит оптимизацию политики использования инструментов (ToolPO), чтобы решить эту проблему. ToolPO выполняет развёртывание на смоделированных LLM API, поэтому обучение стабильно и дёшево, затем оно присваивает вознаграждение точным токенам вызова инструмента, это атрибуция преимущества вызова инструмента, и оно обучается с помощью цели в стиле обрезанного PPO. Таким образом агент учится не только вызывать инструменты, но и решать, когда искать и когда сворачивать память.
Бенчмарки, помеченные инструменты против открытого набора инструментов
Исследовательская группа проводит оценку по 5 общим бенчмаркам использования инструментов: ToolBench, API Bank, TMDB, Spotify, ToolHop, и по 4 последующим задачам: ALFWorld, WebShop, GAIA, HLE. В условиях помеченных инструментов, когда каждому методу предоставляются точные инструменты, которые ему нужны, DeepAgent 32B RL с бэкбоном QwQ 32B сообщает о следующих результатах: 69,0 на ToolBench, 75,3 на API Bank, 89,0 на TMDB, 75,4 на Spotify и 51,3 на ToolHop. Это самый сильный результат уровня 32B по всем 5 наборам данных.
В условиях открытого набора инструментов DeepAgent должен сначала найти инструменты, а затем вызвать их. Здесь DeepAgent 32B RL достигает 64,0 на ToolBench и 40,6 на ToolHop, в то время как самые сильные базовые показатели рабочего процесса достигают 55,0 на ToolBench и 36,2 на ToolHop. Таким образом, агент end-to-end по-прежнему лидирует.
Дальнейшие среды
В ALFWorld, WebShop, GAIA и HLE, все под моделью рассуждений 32B, DeepAgent сообщает о 91,8% успеха в ALFWorld, 34,4% успеха и 56,3 балла в WebShop, 53,3 в GAIA и более высоком балле, чем у агентов рабочего процесса в HLE. Эти задачи длиннее и шумнее, поэтому сочетание свёртки памяти и ToolPO является вероятным источником разрыва.
Ключевые выводы
DeepAgent объединяет весь цикл работы агента в один поток рассуждений, модель может думать, искать инструменты, вызывать их и продолжать, поэтому она не ограничена фиксированным рабочим процессом в стиле ReAct.
Он использует плотный поиск по большим реестрам инструментов, более 16 000 инструментов RapidAPI и около 3 900 инструментов ToolHop, поэтому инструменты не обязательно предварительно перечислять в запросе, они обнаруживаются по требованию.
Модуль автономной свёртки памяти сжимает длинные истории взаимодействия в эпизодическую, рабочую и инструментальную память, что предотвращает переполнение контекста и сохраняет стабильность рассуждений на длинных горизонтах.
Оптимизация политики использования инструментов (ToolPO) обучает использованию инструментов от начала до конца с помощью смоделированных API LLM и атрибуции преимуществ на уровне токенов, поэтому агент учится выдавать правильные вызовы инструментов, а не только достигать конечного ответа.
На 5 бенчмарках по инструментам и 4 последующих задачах DeepAgent в масштабе 32B более последователен, чем базовые показатели рабочего процесса, как в условиях помеченных инструментов, так и в условиях открытого набора, особенно на ToolBench и ToolHop, где поиск инструментов имеет наибольшее значение.
Комментарии редакции
DeepAgent — это практический шаг к созданию архитектур агентов, которые не зависят от фиксированных подсказок с инструментами, потому что он объединяет автономное мышление, плотный поиск инструментов в более чем 16 000 инструментах RapidAPI и более чем 3 900 инструментах ToolHop, структурированный вызов инструментов и свёртку памяти в одном цикле. Использование смоделированных API LLM в ToolPO — это инженерный выбор, но он решает проблему задержки и нестабильности, которая мешает работе предыдущих агентов с инструментами. Оценка показывает последовательный выигрыш уровня 32B как в условиях помеченных инструментов, так и в условиях открытого набора, а не отдельные пики. Этот выпуск делает большие пространства инструментов фактически пригодными для использования агентами LLM.
В целом, DeepAgent подтверждает, что агенты end-to-end с памятью и RL становятся основным шаблоном.
1. Какие проблемы решает DeepAgent в контексте использования инструментов для искусственного интеллекта?
DeepAgent решает проблему использования большого количества инструментов в рамках длинных задач, где агенту необходимо менять стратегию в середине рассуждения. Он позволяет агенту выводить четыре типа действий непосредственно в тексте: внутренние мысли, поиск инструментов, вызов инструментов и свёртка памяти.
2. Как DeepAgent обеспечивает динамический доступ к инструментам?
Когда агент решает выполнить поиск, он запрашивает плотный индекс, содержащий описания инструментов из больших реестров, например, более 16 000 инструментов RapidAPI и 3 912 инструментов ToolHop. Затем он получает обратно только инструменты с наивысшим рейтингом в контексте. Это делает доступ к инструментам динамическим: модель не зависит от предварительно загруженного списка инструментов и остаётся согласованной с реальными средами, где инструменты меняются.
3. Какие типы памяти используются в DeepAgent для предотвращения переполнения контекста?
В DeepAgent используется модуль автономной свёртки памяти, который сжимает длинные истории взаимодействия в эпизодическую, рабочую и инструментальную память. Это предотвращает переполнение контекста и сохраняет стабильность рассуждений на длинных горизонтах.
4. Как оптимизация политики использования инструментов (ToolPO) влияет на обучение агента?
ToolPO выполняет развёртывание на смоделированных LLM API, поэтому обучение стабильно и дёшево. Затем он присваивает вознаграждение точным токенам вызова инструмента, что позволяет агенту научиться не только вызывать инструменты, но и решать, когда искать и когда сворачивать память.
5. Какие результаты показал DeepAgent на различных бенчмарках и задачах?
В условиях помеченных инструментов DeepAgent 32B RL с бэкбоном QwQ 32B сообщает о следующих результатах: 69,0 на ToolBench, 75,3 на API Bank, 89,0 на TMDB, 75,4 на Spotify и 51,3 на ToolHop. В условиях открытого набора инструментов DeepAgent 32B RL достигает 64,0 на ToolBench и 40,6 на ToolHop. В ALFWorld, WebShop, GAIA и HLE DeepAgent сообщает о 91,8% успеха в ALFWorld, 34,4% успеха и 56,3 балла в WebShop, 53,3 в GAIA и более высоком балле, чем у агентов рабочего процесса в HLE.