Как спроектировать агента LLM, который сам решает, что хранить в долгосрочной памяти, что держать в краткосрочном контексте, а что удалять, без ручной настройки эвристик или дополнительных контроллеров? Может ли единая политика научиться управлять обоими типами памяти через то же пространство действий, что и для генерации текста?
Исследователи из Alibaba Group и Уханьского университета представляют Agentic Memory, или AgeMem, — фреймворк, который позволяет агентам больших языковых моделей (LLM) учиться управлять как долгосрочной, так и краткосрочной памятью в рамках единой политики. Вместо того чтобы полагаться на написанные вручную правила или внешних контроллеров, агент сам решает, когда сохранять, извлекать, суммировать и забывать, используя инструменты памяти, интегрированные в пространство действий модели.
Почему современные агенты LLM испытывают трудности с памятью
Большинство фреймворков для агентов рассматривают память как две слабо связанные системы.
* Долгосрочная память хранит профили пользователей, информацию о задачах и предыдущие взаимодействия между сессиями.
* Краткосрочная память — это текущее контекстное окно, в котором хранится активный диалог и извлечённые документы.
Существующие системы разрабатывают эти две части изолированно. Долгосрочная память обрабатывается через внешние хранилища, такие как векторные базы данных, с простыми триггерами добавления и извлечения. Краткосрочная память управляется с помощью генерации с извлечением, скользящих окон или графиков суммирования.
Такое разделение создаёт несколько проблем:
* Долгосрочная и краткосрочная память оптимизируются независимо. Их взаимодействие не обучается последовательно.
* Эвристики решают, когда записывать в память и когда суммировать. Эти правила хрупкие и пропускают редкие, но важные события.
* Дополнительные контроллеры или экспертные модели увеличивают стоимость и усложняют систему.
AgeMem устраняет внешнего контроллера и включает операции с памятью в саму политику агента.
Память как инструменты в пространстве действий агента
В AgeMem операции с памятью представлены как инструменты. На каждом шаге модель может выдавать либо обычные текстовые токены, либо вызов инструмента. Фреймворк определяет 6 инструментов:
* Для долгосрочной памяти:
* ADD сохраняет новый элемент памяти с контентом и метаданными.
* UPDATE изменяет существующую запись в памяти.
* DELETE удаляет устаревшие или малоценные элементы.
* Для краткосрочной памяти:
* RETRIEVE выполняет семантический поиск в долгосрочной памяти и вводит извлечённые элементы в текущий контекст.
* SUMMARY сжимает фрагменты диалога в более краткие резюме.
* FILTER удаляет сегменты контекста, которые не полезны для будущих рассуждений.
Протокол взаимодействия имеет структурированный формат. Каждый шаг начинается с блока
Трёхэтапное обучение с подкреплением для единой памяти
AgeMem обучается с помощью обучения с подкреплением таким образом, что связывает поведение долгосрочной и краткосрочной памяти.
Состояние в момент времени t включает текущий контекст разговора, хранилище долгосрочной памяти и спецификацию задачи. Политика выбирает либо токен, либо вызов инструмента в качестве действия.
Этап 1. Построение долгосрочной памяти. Агент взаимодействует в непринуждённой обстановке и наблюдает за информацией, которая позже станет актуальной. Он использует ADD, UPDATE и DELETE для построения и поддержания долгосрочной памяти. Контекст в краткосрочной памяти растёт естественным образом на этом этапе.
Этап 2. Управление краткосрочной памятью при отвлекающих факторах. Контекст в краткосрочной памяти сбрасывается. Долгосрочная память сохраняется. Агент получает отвлекающий контент, который связан, но не является необходимым. Он должен управлять краткосрочной памятью с помощью SUMMARY и FILTER, чтобы сохранить полезный контент и удалить шум.
Этап 3. Интегрированное рассуждение. Поступает окончательный запрос. Агент извлекает из долгосрочной памяти с помощью RETRIEVE, управляет контекстом в краткосрочной памяти и выдаёт ответ.
Ключевым моментом является то, что долгосрочная память сохраняется на всех этапах, в то время как краткосрочная память очищается между этапами 1 и 2. Такая конструкция заставляет модель полагаться на извлечение, а не на остаточный контекст, и выявляет реалистичные зависимости на большом горизонте.
Дизайн вознаграждения и пошаговая оптимизация групповой относительной политики (GRPO)
AgeMem использует пошаговый вариант групповой относительной оптимизации политики (GRPO). Для каждой задачи система выбирает несколько траекторий, которые образуют группу. Для каждой траектории вычисляется терминальное вознаграждение, затем оно нормализуется в группе для получения сигнала преимущества. Этот сигнал распространяется на все шаги в траектории, чтобы промежуточные варианты выбора инструментов обучались с использованием конечного результата.
Общее вознаграждение состоит из трёх основных компонентов:
* Вознаграждение за задачу, которое оценивает качество ответа между 0 и 1 с помощью судьи LLM.
* Контекстное вознаграждение, которое измеряет качество операций с краткосрочной памятью, включая сжатие, раннее суммирование и сохранение релевантного для запроса контента.
* Вознаграждение за память, которое измеряет качество долгосрочной памяти, включая долю высококачественных сохранённых элементов, полезность операций обслуживания и релевантность извлечённых элементов для запроса.
Для этих трёх компонентов используются равномерные веса, так что каждый вносит равный вклад в обучающий сигнал. Добавляется штрафной термин, когда агент превышает максимально допустимую длину диалога или когда контекст выходит за пределы лимита.
Экспериментальная установка и основные результаты
Исследовательская группа проводит тонкую настройку AgeMem на тренировочном сплите HotpotQA и оценивает его на 5 бенчмарках:
* ALFWorld для текстовых задач с воплощением.
* SciWorld для научно-тематических сред.
* BabyAI для выполнения инструкций.
* Задачи PDDL для планирования.
* HotpotQA для ответа на вопросы, требующие нескольких переходов.
Метрики включают показатель успешности для ALFWorld, SciWorld и BabyAI, показатель прогресса для задач PDDL и оценку судьи LLM для HotpotQA. Они также определяют показатель качества памяти с помощью оценщика LLM, который сравнивает сохранённые воспоминания с подтверждающими фактами HotpotQA.
Базовые показатели включают LangMem, A Mem, Mem0, Mem0g и агента без памяти. Бэкенды — Qwen2.5-7B-Instruct и Qwen3-4B-Instruct.
На Qwen2.5-7B-Instruct AgeMem достигает среднего балла 41,96 по 5 бенчмаркам, в то время как лучший базовый показатель Mem0 достигает 37,14. На Qwen3-4B-Instruct AgeMem достигает 54,31 по сравнению с 45,74 для лучшего базового показателя A Mem.
Качество памяти также улучшается. На HotpotQA AgeMem достигает 0,533 с Qwen2.5-7B и 0,605 с Qwen3-4B, что выше, чем у всех базовых показателей.
Инструменты краткосрочной памяти уменьшают длину подсказки, сохраняя при этом производительность. В HotpotQA конфигурации с инструментами STM используют примерно на 3–5 процентов меньше токенов на подсказку, чем варианты, которые заменяют инструменты STM конвейером извлечения.
Выводы для проектирования агентов LLM
AgeMem предлагает шаблон проектирования для будущих агентских систем. Память должна обрабатываться как часть изученной политики, а не как две внешние подсистемы. Превращая хранение, извлечение, суммирование и фильтрацию в явные инструменты и обучая их совместно с генерацией языка, агент учится, когда запоминать, когда забывать и как эффективно управлять контекстом на больших горизонтах.
Ключевые выводы
* AgeMem превращает операции с памятью в явные инструменты, так что та же политика, которая генерирует текст, также решает, когда добавлять, обновлять, удалять, извлекать, суммировать и фильтровать память.
* Долгосрочная и краткосрочная память обучаются совместно с помощью трёхэтапного механизма RL, где долгосрочная память сохраняется между этапами, а краткосрочный контекст сбрасывается для обеспечения рассуждений на основе извлечения.
* Функция вознаграждения сочетает в себе точность выполнения задачи, качество управления контекстом и качество долгосрочной памяти с равномерными весами, а также штрафы за переполнение контекста и чрезмерную длину диалога.
* На ALFWorld, SciWorld, BabyAI, задачах PDDL и HotpotQA AgeMem на Qwen2.5-7B и Qwen3-4B последовательно превосходит базовые показатели памяти, такие как LangMem, A Mem и Mem0, по средним баллам и показателям качества памяти.
* Инструменты краткосрочной памяти уменьшают длину подсказки примерно на 3–5 процентов по сравнению с базовыми показателями в стиле RAG, сохраняя или улучшая производительность, показывая, что изученное суммирование и фильтрация могут заменить созданные вручную правила обработки контекста.
1. Какие проблемы в управлении памятью у агентов LLM решает фреймворк AgeMem?
В статье указано, что AgeMem решает несколько проблем в управлении памятью у агентов LLM. Среди них — оптимизация долгосрочной и краткосрочной памяти независимо друг от друга, хрупкость эвристик, которые решают, когда записывать в память и когда суммировать, а также увеличение стоимости и усложнение системы из-за дополнительных контроллеров или экспертных моделей.
2. Какие инструменты для работы с памятью предлагает AgeMem?
AgeMem предлагает 6 инструментов для работы с памятью:
* Для долгосрочной памяти: ADD (сохраняет новый элемент памяти с контентом и метаданными), UPDATE (изменяет существующую запись в памяти), DELETE (удаляет устаревшие или малоценные элементы).
* Для краткосрочной памяти: RETRIEVE (выполняет семантический поиск в долгосрочной памяти и вводит извлечённые элементы в текущий контекст), SUMMARY (сжимает фрагменты диалога в более краткие резюме), FILTER (удаляет сегменты контекста, которые не полезны для будущих рассуждений).
3. Как обучается AgeMem?
AgeMem обучается с помощью обучения с подкреплением таким образом, что связывает поведение долгосрочной и краткосрочной памяти. На этапе 1 агент взаимодействует в непринуждённой обстановке и наблюдает за информацией, которая позже станет актуальной. На этапе 2 агент получает отвлекающий контент, который связан, но не является необходимым, и управляет краткосрочной памятью с помощью SUMMARY и FILTER. На этапе 3 поступает окончательный запрос, и агент извлекает из долгосрочной памяти с помощью RETRIEVE, управляет контекстом в краткосрочной памяти и выдаёт ответ.
4. Какие компоненты включает общее вознаграждение в AgeMem?
Общее вознаграждение в AgeMem состоит из трёх основных компонентов:
* Вознаграждение за задачу, которое оценивает качество ответа между 0 и 1 с помощью судьи LLM.
* Контекстное вознаграждение, которое измеряет качество операций с краткосрочной памятью, включая сжатие, раннее суммирование и сохранение релевантного для запроса контента.
* Вознаграждение за память, которое измеряет качество долгосрочной памяти, включая долю высококачественных сохранённых элементов, полезность операций обслуживания и релевантность извлечённых элементов для запроса.
5. Какие результаты были получены при тестировании AgeMem на различных бенчмарках?
При тестировании AgeMem на различных бенчмарках были получены следующие результаты:
* На Qwen2.5-7B-Instruct AgeMem достигает среднего балла 41,96 по 5 бенчмаркам, в то время как лучший базовый показатель Mem0 достигает 37,14.
* На Qwen3-4B-Instruct AgeMem достигает 54,31 по сравнению с 45,74 для лучшего базового показателя A Mem.
* Качество памяти также улучшается. На HotpotQA AgeMem достигает 0,533 с Qwen2.5-7B и 0,605 с Qwen3-4B, что выше, чем у всех базовых показателей.