Проблема
Агенты LLM справляются с многошаговыми задачами (просмотр веб-страниц, использование компьютера, исправление ошибок в репозиториях), но обычно не могут накапливать и повторно использовать опыт. Традиционная «память» хранит необработанные журналы или жёсткие рабочие процессы. Они хрупкие в разных средах и часто игнорируют полезные сигналы от неудач — а ведь именно в них кроется ценный опыт.
ReasoningBank переосмысливает память как компактные, удобочитаемые элементы стратегии, которые легче передавать между задачами и областями.
Как это работает?
Каждый опыт преобразуется в элемент памяти с заголовком, однострочным описанием и содержанием, содержащим действенные принципы (эвристики, проверки, ограничения).
Извлечение основано на встраивании: для новой задачи в качестве руководства внедряются наиболее релевантные элементы; после выполнения новые элементы извлекаются и объединяются обратно. Цикл намеренно прост — извлечение → внедрение → оценка → дистилляция → добавление — чтобы улучшения можно было отнести к абстракции стратегий, а не к тяжёлому управлению памятью.
Элементы кодируют шаблоны рассуждений («предпочитайте страницы учётных записей для пользовательских данных; проверяйте режим постраничного отображения; избегайте ловушек бесконечной прокрутки; перепроверяйте состояние с помощью спецификации задачи»), а не шаги DOM, специфичные для веб-сайта.
Неудачи становятся отрицательными ограничениями («не полагайтесь на поиск, когда сайт отключает индексацию; подтвердите состояние сохранения перед навигацией»), что предотвращает повторение ошибок.
Масштабирование тестирования с учётом памяти (MaTTS)
Масштабирование во время тестирования (выполнение дополнительных развёртываний или уточнений для каждой задачи) эффективно, только если система может учиться на дополнительных траекториях. Исследовательская группа также предложила Memory-aware test-time scaling (MaTTS), которое интегрирует масштабирование с ReasoningBank:
* Параллельное MaTTS: генерируйте (k) развёртываний параллельно, затем сопоставляйте их, чтобы уточнить память стратегии.
* Последовательное MaTTS: итеративно совершенствуйте одну траекторию, добывая промежуточные заметки в качестве сигналов памяти.
Синергия двусторонняя: более обширное исследование приводит к улучшению памяти; лучшая память направляет исследование к перспективным ветвям. Эмпирически MaTTS даёт более сильные и монотонные результаты, чем vanilla best-of-N без памяти.
Насколько хороши эти предложенные исследовательские фреймворки?
* Эффективность: ReasoningBank + MaTTS повышает успешность выполнения задач до 34,2% (относительно) по сравнению с отсутствием памяти и превосходит предыдущие конструкции памяти, которые повторно используют необработанные следы или только успешные процедуры.
* Эффективность: общее количество шагов взаимодействия снижается на 16%; дальнейший анализ показывает, что наибольшее сокращение приходится на успешные испытания, что указывает на меньшее количество повторяющихся действий, а не на преждевременное прерывание.
Где это вписывается в стек агентов?
ReasoningBank — это подключаемый уровень памяти для интерактивных агентов, которые уже используют циклы принятия решений в стиле ReAct или масштабирование best-of-N во время тестирования. Он не заменяет верификаторы/планировщики; он усиливает их, внедряя извлечённые уроки на уровне подсказок/систем. В веб-задачах он дополняет BrowserGym/WebArena/Mind2Web; в программных задачах он накладывается на настройки, проверенные SWE-Bench.
Ознакомьтесь с [статьёй](https://arxiv.org/pdf/2509.25140).
Не стесняйтесь посетить нашу [страницу GitHub](https://github.com), чтобы посмотреть учебные пособия, коды и блокноты. Также подписывайтесь на нас в [Twitter](https://twitter.com) и присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning). Не забудьте подписаться на [наш информационный бюллетень](https://www.marktechpost.com/category/newsletter/). Подождите! Вы в Telegram? Теперь вы можете присоединиться к нам и там.
1. Какие проблемы решает ReasoningBank в контексте работы агентов LLM?
Ответ: ReasoningBank решает проблему накопления и повторного использования опыта агентами LLM. Традиционные методы хранения памяти хрупкие и не всегда учитывают полезные сигналы от неудач. ReasoningBank преобразует опыт в компактные, удобочитаемые элементы стратегии, которые легче передавать между задачами и областями.
2. Как работает ReasoningBank?
Ответ: каждый опыт преобразуется в элемент памяти с заголовком, однострочным описанием и содержанием, содержащим действенные принципы (эвристики, проверки, ограничения). Извлечение основано на встраивании: для новой задачи в качестве руководства внедряются наиболее релевантные элементы; после выполнения новые элементы извлекаются и объединяются обратно. Цикл включает в себя извлечение, внедрение, оценку, дистилляцию и добавление.
3. Что такое Memory-aware test-time scaling (MaTTS) и как оно интегрируется с ReasoningBank?
Ответ: Memory-aware test-time scaling (MaTTS) — это метод масштабирования во время тестирования, который интегрируется с ReasoningBank. Он включает в себя параллельное и последовательное масштабирование, которые генерируют развёртывания параллельно или итеративно совершенствуют одну траекторию, добывая промежуточные заметки в качестве сигналов памяти. Синергия двусторонняя: более обширное исследование приводит к улучшению памяти; лучшая память направляет исследование к перспективным ветвям.
4. Какие преимущества даёт использование ReasoningBank + MaTTS по сравнению с отсутствием памяти?
Ответ: использование ReasoningBank + MaTTS повышает успешность выполнения задач до 34,2% (относительно) по сравнению с отсутствием памяти и превосходит предыдущие конструкции памяти, которые повторно используют необработанные следы или только успешные процедуры. Общее количество шагов взаимодействия снижается на 16%, что указывает на меньшее количество повторяющихся действий.
5. В каких задачах может быть использован ReasoningBank?
Ответ: ReasoningBank — это подключаемый уровень памяти для интерактивных агентов, которые уже используют циклы принятия решений в стиле ReAct или масштабирование best-of-N во время тестирования. Он не заменяет верификаторы/планировщики; он усиливает их, внедряя извлечённые уроки на уровне подсказок/систем. В веб-задачах он дополняет BrowserGym/WebArena/Mind2Web; в программных задачах он накладывается на настройки, проверенные SWE-Bench.