Как мы обучаем получению вознаграждений на уровне шагов из предпочтений для решения задач в средах со скудным вознаграждением с помощью онлайн-обучения процессному вознаграждению

Исследователи из Google DeepMind представляют Evo-Memory — потоковый бенчмарк и фреймворк для агентов с большими языковыми моделями (LLM), нацеленный на решение проблемы повторного использования опыта. Evo-Memory оценивает обучение в условиях тестирования с помощью самоэволюционирующей памяти, выясняя, могут ли агенты накапливать и повторно использовать стратегии из непрерывных потоков задач вместо того, чтобы полагаться только на статические журналы разговоров.

Принципы обучения процессному вознаграждению (OPRL)

В этом руководстве мы рассмотрим OPRL и покажем, как можно научиться получать плотные сигналы вознаграждения на уровне шагов из траекторий предпочтений для решения задач обучения с подкреплением со скудным вознаграждением.

Мы рассмотрим каждый компонент, от лабиринтной среды и сети моделей вознаграждения до генерации предпочтений, тренировочных циклов и оценки, наблюдая, как агент постепенно улучшает своё поведение посредством онлайн-формирования на основе предпочтений.

Компоненты системы OPRL:
* MazeEnv — класс для создания лабиринтной среды.
* ProcessRewardModel — модель для обучения процессному вознаграждению.
* PolicyNetwork — сеть для определения политики агента.
* OPRLAgent — агент, использующий OPRL для обучения.

Генерация предпочтений и обучение модели вознаграждения

Мы генерируем пары предпочтений из собранных траекторий и обучаем модель процессного вознаграждения, используя формулировку Брэдли — Терри. Мы сравниваем оценки на уровне траекторий, вычисляем вероятности и обновляем модель вознаграждения, чтобы отразить, какое поведение оказывается более эффективным. Это позволяет нам научиться получать плотные, дифференцируемые вознаграждения на уровне шагов, которые направляют агента, даже когда среда сама по себе скудна на вознаграждения.

Обучение политике

Мы обучаем политику, используя сформированные вознаграждения, полученные от обученной модели процессного вознаграждения. Мы вычисляем доходы, преимущества, оценки значений и бонусы энтропии, что позволяет агенту улучшать свою стратегию с течением времени.

Затем мы строим полный цикл обучения, в котором уменьшается количество исследований, накапливаются предпочтения, а модель вознаграждения и политика обновляются непрерывно.

Результаты

Результаты показывают, что методы с эволюционирующей памятью обеспечивают последовательные, но умеренные улучшения на одношаговых тестах. В многошаговых средах ReMem достигает высокого уровня успеха и прогресса. Эффективность шагов также улучшается.

Ключевые выводы:
* Evo-Memory — это комплексный потоковый бенчмарк, который преобразует стандартные наборы данных в упорядоченные задачи, позволяя агентам извлекать, интегрировать и обновлять память с течением времени, а не полагаться на статический разговорный вызов.
* ReMem расширяет стандартный цикл управления ReAct с помощью явного цикла «подумай — действуй — уточни память», что позволяет агенту активно извлекать, обрезать и реорганизовывать свою память во время логического вывода.

Evo-Memory: бенчмарк и фреймворк для повторного использования опыта в LLM-агентах

Введение

Исследователи из Университета Иллинойса в Урбане-Шампейне и Google DeepMind предлагают Evo-Memory — потоковый бенчмарк и агентскую систему, ориентированную на решение проблемы повторного использования опыта. Evo-Memory оценивает обучение в условиях тестирования с помощью самоэволюционирующей памяти, выясняя, могут ли агенты накапливать и повторно использовать стратегии из непрерывных потоков задач вместо того, чтобы полагаться только на статические журналы разговоров.

Конверсационный вызов против повторного использования опыта

Большинство современных агентов реализуют конверсационный вызов. Они сохраняют историю диалога, следы инструментов и извлечённые документы, которые затем повторно интегрируются в контекстное окно для будущих запросов. Этот тип памяти служит пассивным буфером, способным восстанавливать факты или вспоминать предыдущие шаги, но он не активно модифицирует подход агента для решения связанных задач.

Evo-Memory вместо этого фокусируется на повторном использовании опыта. Здесь каждое взаимодействие рассматривается как опыт, который кодирует не только входные и выходные данные, но и то, была ли задача выполнена успешно и какие стратегии были эффективными.

Дизайн бенчмарка и потоки задач

Команда исследователей формализует агента с дополненной памятью как кортеж ((F, U, R, C)). Базовая модель (F) генерирует выходные данные. Модуль извлечения (R) ищет в хранилище памяти. Конструктор контекста (C) синтезирует рабочий запрос из текущего ввода и извлечённых элементов. Функция обновления (U) записывает новые записи опыта и развивает память после каждого шага.

Evo-Memory реструктурирует традиционные бенчмарки в последовательные потоки задач. Каждый набор данных становится упорядоченной последовательностью задач, где ранние элементы несут стратегии, полезные для более поздних.

Результаты по рассуждениям, инструментам и воплощённым средам

Команда исследователей применяет все методы на Gemini 2.5 Flash и Claude 3.7 Sonnet в рамках унифицированного протокола поиска — прогнозирования — эволюции. Это позволяет изолировать эффект архитектуры памяти, поскольку подсказки, поиск и обратная связь остаются постоянными для всех базовых показателей.

На одношаговых тестах методы с эволюционирующей памятью обеспечивают последовательные, но умеренные улучшения. В многошаговых средах ReMem достигает высокого уровня успеха и прогресса. Эффективность шагов также улучшается.

Ключевые выводы

Evo-Memory — это комплексный потоковый бенчмарк, который преобразует стандартные наборы данных в упорядоченные задачи, позволяя агентам извлекать, интегрировать и обновлять память с течением времени, а не полагаться на статический разговорный вызов.

1. Какие проблемы решает Evo-Memory в контексте обучения агентов с большими языковыми моделями (LLM)?

Evo-Memory решает проблему повторного использования опыта в LLM-агентах. Он позволяет агентам накапливать и повторно использовать стратегии из непрерывных потоков задач вместо того, чтобы полагаться только на статические журналы разговоров.

2. Какие компоненты включает в себя система OPRL?

Система OPRL включает в себя следующие компоненты:
* MazeEnv — класс для создания лабиринтной среды.
* ProcessRewardModel — модель для обучения процессному вознаграждению.
* PolicyNetwork — сеть для определения политики агента.
* OPRLAgent — агент, использующий OPRL для обучения.

3. Как в Evo-Memory происходит обучение модели процессного вознаграждения?

В Evo-Memory обучение модели процессного вознаграждения происходит путём генерации пар предпочтений из собранных траекторий и обучения модели с использованием формулировки Брэдли — Терри. Затем вычисляются вероятности и обновляется модель вознаграждения, чтобы отразить, какое поведение оказывается более эффективным. Это позволяет получать плотные, дифференцируемые вознаграждения на уровне шагов, которые направляют агента, даже когда среда сама по себе скудна на вознаграждения.

4. Какие улучшения показывает Evo-Memory по сравнению с традиционными методами обучения агентов?

5. Какие ключевые выводы можно сделать из представленного исследования?

Ключевые выводы:
* Evo-Memory — это комплексный потоковый бенчмарк, который преобразует стандартные наборы данных в упорядоченные задачи, позволяя агентам извлекать, интегрировать и обновлять память с течением времени, а не полагаться на статический разговорный вызов.
* ReMem расширяет стандартный цикл управления ReAct с помощью явного цикла «подумай — действуй — уточни память», что позволяет агенту активно извлекать, обрезать и реорганизовывать свою память во время логического вывода.

Источник