Google предлагает ReasoningBank: система памяти для агентов ИИ на уровне стратегии, которая способствует их самоэволюции во время тестирования

Проблема

Агенты LLM справляются с многошаговыми задачами (просмотр веб-страниц, использование компьютера, исправление ошибок в репозиториях), но обычно не могут накапливать и повторно использовать опыт. Традиционная «память» хранит необработанные журналы или жёсткие рабочие процессы. Они хрупкие в разных средах и часто игнорируют полезные сигналы от неудач — а ведь именно в них кроется ценный опыт.

ReasoningBank переосмысливает память как компактные, удобочитаемые элементы стратегии, которые легче передавать между задачами и областями.

Как это работает?

Каждый опыт преобразуется в элемент памяти с заголовком, однострочным описанием и содержанием, содержащим действенные принципы (эвристики, проверки, ограничения).

Извлечение основано на встраивании: для новой задачи в качестве руководства внедряются наиболее релевантные элементы; после выполнения новые элементы извлекаются и объединяются обратно. Цикл намеренно прост — извлечение → внедрение → оценка → дистилляция → добавление — чтобы улучшения можно было отнести к абстракции стратегий, а не к тяжёлому управлению памятью.

Элементы кодируют шаблоны рассуждений («предпочитайте страницы учётных записей для пользовательских данных; проверяйте режим постраничного отображения; избегайте ловушек бесконечной прокрутки; перепроверяйте состояние с помощью спецификации задачи»), а не шаги DOM, специфичные для веб-сайта.

Неудачи становятся отрицательными ограничениями («не полагайтесь на поиск, когда сайт отключает индексацию; подтвердите состояние сохранения перед навигацией»), что предотвращает повторение ошибок.

Масштабирование тестирования с учётом памяти (MaTTS)

Масштабирование во время тестирования (выполнение дополнительных развёртываний или уточнений для каждой задачи) эффективно, только если система может учиться на дополнительных траекториях. Исследовательская группа также предложила Memory-aware test-time scaling (MaTTS), которое интегрирует масштабирование с ReasoningBank:

* Параллельное MaTTS: генерируйте (k) развёртываний параллельно, затем сопоставляйте их, чтобы уточнить память стратегии.
* Последовательное MaTTS: итеративно совершенствуйте одну траекторию, добывая промежуточные заметки в качестве сигналов памяти.

Синергия двусторонняя: более обширное исследование приводит к улучшению памяти; лучшая память направляет исследование к перспективным ветвям. Эмпирически MaTTS даёт более сильные и монотонные результаты, чем vanilla best-of-N без памяти.

Насколько хороши эти предложенные исследовательские фреймворки?

* Эффективность: ReasoningBank + MaTTS повышает успешность выполнения задач до 34,2% (относительно) по сравнению с отсутствием памяти и превосходит предыдущие конструкции памяти, которые повторно используют необработанные следы или только успешные процедуры.
* Эффективность: общее количество шагов взаимодействия снижается на 16%; дальнейший анализ показывает, что наибольшее сокращение приходится на успешные испытания, что указывает на меньшее количество повторяющихся действий, а не на преждевременное прерывание.

Где это вписывается в стек агентов?

ReasoningBank — это подключаемый уровень памяти для интерактивных агентов, которые уже используют циклы принятия решений в стиле ReAct или масштабирование best-of-N во время тестирования. Он не заменяет верификаторы/планировщики; он усиливает их, внедряя извлечённые уроки на уровне подсказок/систем. В веб-задачах он дополняет BrowserGym/WebArena/Mind2Web; в программных задачах он накладывается на настройки, проверенные SWE-Bench.

Ознакомьтесь с [статьёй](https://arxiv.org/pdf/2509.25140).

Не стесняйтесь посетить нашу [страницу GitHub](https://github.com), чтобы посмотреть учебные пособия, коды и блокноты. Также подписывайтесь на нас в [Twitter](https://twitter.com) и присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning). Не забудьте подписаться на [наш информационный бюллетень](https://www.marktechpost.com/category/newsletter/). Подождите! Вы в Telegram? Теперь вы можете присоединиться к нам и там.

1. Какие проблемы решает ReasoningBank в контексте работы агентов LLM?

Ответ: ReasoningBank решает проблему накопления и повторного использования опыта агентами LLM. Традиционные методы хранения памяти хрупкие и не всегда учитывают полезные сигналы от неудач. ReasoningBank преобразует опыт в компактные, удобочитаемые элементы стратегии, которые легче передавать между задачами и областями.

2. Как работает ReasoningBank?

Ответ: каждый опыт преобразуется в элемент памяти с заголовком, однострочным описанием и содержанием, содержащим действенные принципы (эвристики, проверки, ограничения). Извлечение основано на встраивании: для новой задачи в качестве руководства внедряются наиболее релевантные элементы; после выполнения новые элементы извлекаются и объединяются обратно. Цикл включает в себя извлечение, внедрение, оценку, дистилляцию и добавление.

3. Что такое Memory-aware test-time scaling (MaTTS) и как оно интегрируется с ReasoningBank?

Ответ: Memory-aware test-time scaling (MaTTS) — это метод масштабирования во время тестирования, который интегрируется с ReasoningBank. Он включает в себя параллельное и последовательное масштабирование, которые генерируют развёртывания параллельно или итеративно совершенствуют одну траекторию, добывая промежуточные заметки в качестве сигналов памяти. Синергия двусторонняя: более обширное исследование приводит к улучшению памяти; лучшая память направляет исследование к перспективным ветвям.

4. Какие преимущества даёт использование ReasoningBank + MaTTS по сравнению с отсутствием памяти?

Ответ: использование ReasoningBank + MaTTS повышает успешность выполнения задач до 34,2% (относительно) по сравнению с отсутствием памяти и превосходит предыдущие конструкции памяти, которые повторно используют необработанные следы или только успешные процедуры. Общее количество шагов взаимодействия снижается на 16%, что указывает на меньшее количество повторяющихся действий.

5. В каких задачах может быть использован ReasoningBank?

Ответ: ReasoningBank — это подключаемый уровень памяти для интерактивных агентов, которые уже используют циклы принятия решений в стиле ReAct или масштабирование best-of-N во время тестирования. Он не заменяет верификаторы/планировщики; он усиливает их, внедряя извлечённые уроки на уровне подсказок/систем. В веб-задачах он дополняет BrowserGym/WebArena/Mind2Web; в программных задачах он накладывается на настройки, проверенные SWE-Bench.

Источник