Meta AI представляет DreamGym: синтезатор текстового опыта для агентов обучения с подкреплением

DreamGym — это новый фреймворк от Meta, который переосмысливает узкие места в обучении с подкреплением (RL) как задачу моделирования. Вместо прямого запуска RL в таких средах, как WebShop, ALFWorld и WebArena Lite, он изучает модель опыта, основанную на рассуждениях, которая имитирует их полностью в тексте.

Почему RL для агентов в реальных средах не масштабируется?

Текущие конвейеры RL для агентов сталкиваются с четырьмя связанными проблемами:
* Реальные развёртывания затратны.
* Разнообразие задач ограничено.
* Сигналы вознаграждения нестабильны.
* Инфраструктурный стек сложен.

DreamGym как симулятор, основанный на рассуждениях

DreamGym состоит из трёх компонентов:
* Модель опыта, основанная на рассуждениях.
* Буфер воспроизведения опыта.
* Генератор учебных задач с адаптивным учебным планом.

Вместе они определяют синтетический процесс принятия решений в условиях Маркова, где среда представлена в виде текста.

Буфер воспроизведения как опорная память

Буфер воспроизведения опыта инициализируется данными из реальных сред WebShop, ALFWorld и WebArena Lite. По мере того как DreamGym обучает политики в синтетической среде, он записывает новые траектории обратно в этот буфер.

Учебный план на основе энтропии вознаграждения

Генератор учебных задач использует тот же базовый алгоритм, что и модель опыта. Он выбирает начальные задачи, результаты которых при текущей политике имеют высокую дисперсию вознаграждения, что соответствует задачам средней сложности, которые агент иногда решает, а иногда терпит неудачу.

Экспериментальные результаты на WebShop, ALFWorld и WebArena Lite

DreamGym тестировался с агентами на основе Llama и Qwen в WebShop, ALFWorld и WebArena Lite. Результаты можно разделить на три режима:
* В средах, готовых к RL, но дорогостоящих (WebShop и ALFWorld), агенты, обученные с помощью PPO или GRPO внутри DreamGym, используя только синтетические переходы, соответствуют производительности базовых показателей PPO и GRPO, которые используют около 80 тысяч взаимодействий в реальной среде.
* В средах, не готовых к RL, таких как WebArena Lite, DreamGym позволяет проводить обучение RL, которое в противном случае было бы непрактичным. Фреймворк достигает более чем 30-процентного улучшения показателя успешности по сравнению со всеми базовыми показателями.
* В конфигурации Sim to Real (S2R) политика сначала обучается полностью в синтетической среде, а затем настраивается с помощью небольшого количества реальных развёртываний. Этот параметр даёт более чем 40-процентный дополнительный выигрыш по сравнению с обучением с нуля в реальной среде, при этом используется менее 10 процентов реальных данных и сокращается общая стоимость обучения примерно до одной трети до одной пятой от базовых показателей.

Ключевые выводы

Код

«`python
import optuna
from optuna.pruners import MedianPruner
from optuna.samplers import TPESampler
import numpy as np
from sklearn.datasets import loadbreastcancer, load_diabetes
from sklearn.modelselection import crossval_score, KFold
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
import matplotlib.pyplot as plt

def objectivewithpruning(trial):
X, y = loadbreastcancer(returnXy=True)
params = {
‘nestimators’: trial.suggestint(‘n_estimators’, 50, 200),
‘minsamplessplit’: trial.suggestint(‘minsamples_split’, 2, 20),
‘minsamplesleaf’: trial.suggestint(‘minsamples_leaf’, 1, 10),
‘subsample’: trial.suggest_float(‘subsample’, 0.6, 1.0),
‘maxfeatures’: trial.suggestcategorical(‘max_features’, [‘sqrt’, ‘log2’, None]),
}
model = GradientBoostingClassifier(params, random_state=42)
kf = KFold(nsplits=3, shuffle=True, randomstate=42)
scores = []
for fold, (trainidx, validx) in enumerate(kf.split(X)):
Xtrain, Xval = X[trainidx], X[validx]
ytrain, yval = y[trainidx], y[validx]
model.fit(Xtrain, ytrain)
score = model.score(Xval, yval)
scores.append(score)
trial.report(np.mean(scores), fold)
if trial.should_prune():
raise optuna.TrialPruned()
return np.mean(scores)

study1 = optuna.create_study(
direction=’maximize’,
sampler=TPESampler(seed=42),
pruner=MedianPruner(nstartuptrials=5, nwarmupsteps=1)
)
study1.optimize(objectivewithpruning, ntrials=30, showprogress_bar=True)

print(study1.bestvalue, study1.bestparams)
«`

Заключение

DreamGym — это важный шаг на пути к практическому обучению с подкреплением для агентов LLM, поскольку он переосмысливает среду как модель опыта, основанную на рассуждениях, поддерживаемую буфером воспроизведения опыта и учебным планом, основанным на энтропии вознаграждения, а не как хрупкий стек браузеров.

Отчёт о приросте производительности на WebArena Lite, WebShop и ALFWorld с PPO и GRPO позволяет предположить, что синтетический опыт в сочетании с адаптацией Sim to Real может стать стандартным шаблоном для обучения агентов в масштабе. В целом, DreamGym делает модель опыта, а не политику, основным рычагом для масштабирования агентов RL.

Проверьте полную статью. Не стесняйтесь посетить нашу страницу GitHub для учебных пособий, кодов и ноутбуков. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему ML SubReddit с более чем 100 тысячами участников и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.

1. Какие проблемы существуют при обучении агентов в реальных средах и как DreamGym решает эти проблемы?

В реальных средах развёртывания RL сталкиваются с четырьмя проблемами: затраты на развёртывание, ограниченное разнообразие задач, нестабильность сигналов вознаграждения и сложность инфраструктурного стека. DreamGym решает эти проблемы, моделируя опыт в текстовом пространстве состояний, что позволяет обучать агентов в синтетической среде, имитирующей реальные условия.

2. Какие компоненты составляют DreamGym и как они взаимодействуют между собой?

DreamGym состоит из трёх компонентов: модели опыта, основанной на рассуждениях, буфера воспроизведения опыта и генератора учебных задач с адаптивным учебным планом. Эти компоненты взаимодействуют между собой, определяя синтетический процесс принятия решений в условиях Маркова, где среда представлена в виде текста.

3. Какие экспериментальные результаты были получены при тестировании DreamGym на WebShop, ALFWorld и WebArena Lite?

При тестировании DreamGym на WebShop, ALFWorld и WebArena Lite были получены следующие результаты:
* В средах, готовых к RL, но дорогостоящих (WebShop и ALFWorld), агенты, обученные с помощью PPO или GRPO внутри DreamGym, используя только синтетические переходы, соответствуют производительности базовых показателей PPO и GRPO, которые используют около 80 тысяч взаимодействий в реальной среде.
* В средах, не готовых к RL, таких как WebArena Lite, DreamGym позволяет проводить обучение RL, которое в противном случае было бы непрактичным. Фреймворк достигает более чем 30-процентного улучшения показателя успешности по сравнению со всеми базовыми показателями.
* В конфигурации Sim to Real (S2R) политика сначала обучается полностью в синтетической среде, а затем настраивается с помощью небольшого количества реальных развёртываний. Этот параметр даёт более чем 40-процентный дополнительный выигрыш по сравнению с обучением с нуля в реальной среде, при этом используется менее 10 процентов реальных данных и сокращается общая стоимость обучения примерно до одной трети до одной пятой от базовых показателей.

4. Какие ключевые выводы можно сделать из статьи о DreamGym?

DreamGym заменяет хрупкие развёртывания в реальных средах моделью опыта, основанной на рассуждениях, которая работает в абстрактном текстовом пространстве состояний, прогнозируя следующее состояние и вознаграждение на основе истории, задачи и извлечённых похожих переходов. Это позволяет обучать агентов RL в синтетической среде, что может стать стандартным шаблоном для обучения агентов в масштабе.

5. Как DreamGym может повлиять на практическое обучение с подкреплением для агентов LLM?

DreamGym может стать важным шагом на пути к практическому обучению с подкреплением для агентов LLM, поскольку он переосмысливает среду как модель опыта, основанную на рассуждениях, поддерживаемую буфером воспроизведения опыта и учебным планом, основанным на энтропии вознаграждения, а не как хрупкий стек браузеров. Это может сделать модель опыта, а не политику, основным рычагом для масштабирования агентов RL.

Источник