Обучение языковых агентов с помощью «Early Experience» от Meta AI без вознаграждений — превосходит имитационное обучение

Компания Meta Superintelligence Labs предлагает новый подход к обучению языковых агентов под названием «Early Experience». Этот метод позволяет обучать агентов без использования вознаграждений и демонстраций, но при этом превосходит имитационное обучение по восьми показателям.

Суть подхода

Традиционные методы обучения опираются на имитационное обучение (IL) по экспертным траекториям, которое дёшево оптимизировать, но сложно масштабировать и применять в новых условиях. Обучение с подкреплением (RL) обещает обучение на основе опыта, но требует проверяемых вознаграждений и стабильной инфраструктуры, которых часто нет в веб- и мультитул-средах.

«Early Experience» находится между ними: он бесплатен в плане вознаграждений, как имитационное обучение, но контроль основан на последствиях собственных действий агента, а не только действий эксперта. Агент предлагает, действует и учится на основе того, что происходит дальше — функция вознаграждения не требуется.

Две стратегии, используемые в «Early Experience»:
* Implicit World Modeling (IWM): обучение модели для прогнозирования следующего наблюдения по текущему состоянию и выбранному действию, что улучшает внутреннюю модель агента о динамике среды и уменьшает отклонение от политики.
* Self-Reflection (SR): представление экспертных и альтернативных действий в одном состоянии; модель объясняет, почему экспертное действие лучше, используя наблюдаемые результаты, затем политика уточняется на основе этого контрастного сигнала.

Обе стратегии используют те же бюджеты и настройки декодирования, что и IL; отличается только источник данных (ветви, генерируемые агентом, а не дополнительные экспертные траектории).

Понимание бенчмарков

Исследовательская группа провела оценку в восьми средах для языковых агентов, охватывающих веб-навигацию, долгосрочное планирование, научные/воплощённые задачи и многодоменные API-потоки. «Early Experience» демонстрирует средние абсолютные улучшения на +9,6% по успеху и +9,4% по работе в новых условиях по сравнению с IL.

Эффективность

Ключевым практическим преимуществом является эффективность демонстраций. При фиксированном бюджете оптимизации «Early Experience» соответствует или превосходит IL, используя лишь часть экспертных данных. В WebShop 1/8 демонстраций с «Early Experience» уже превышает IL, обученный на полном наборе демонстраций; в ALFWorld паритет достигается при 1/2 демонстраций. Преимущество растёт с увеличением количества демонстраций, что указывает на то, что генерируемые агентом будущие состояния обеспечивают сигналы контроля, которые не улавливаются только демонстрациями.

Как создаются данные

Конвейер начинается с ограниченного набора экспертных проходов для получения репрезентативных состояний. В выбранных состояниях агент предлагает альтернативные действия, выполняет их и записывает следующие наблюдения.

Для IWM данные для обучения — это тройки ⟨state, action, next-state⟩, и цель — предсказание следующего состояния. Для SR запросы включают экспертное действие и несколько альтернатив плюс их наблюдаемые результаты; модель выдаёт обоснованное объяснение, почему экспертное действие предпочтительнее, и этот контроль затем используется для улучшения политики.

Где применяется обучение с подкреплением (RL)?

«Early Experience» — это не «RL без вознаграждений». Это контролируемый рецепт, который использует результаты, полученные агентом, в качестве меток. В средах с проверяемыми вознаграждениями исследовательская группа просто добавляет RL после «Early Experience». Поскольку инициализация лучше, чем у IL, тот же график RL поднимается выше и быстрее, с окончательным успехом до +6,4 по сравнению с RL, начатым с IL, в протестированных доменах.

Ключевые выводы

* Обучение без вознаграждений с помощью сгенерированных агентом будущих состояний (а не вознаграждений) с использованием Implicit World Modeling и Self-Reflection превосходит имитационное обучение в восьми средах.
* Сообщаемые абсолютные улучшения по сравнению с IL: +18,4 (WebShop), +15,0 (TravelPlanner), +13,3 (ScienceWorld) при сопоставленных бюджетах и настройках.
* Эффективность демонстраций: превосходит IL в WebShop с 1/8 демонстраций; достигает паритета в ALFWorld с 1/2 — при фиксированных затратах на оптимизацию.
* В качестве инициализатора «Early Experience» повышает конечные точки RL (GRPO) до +6,4 по сравнению с RL, начатым с IL.
* Валидация на нескольких семействах базовых моделей (3B–8B) с последовательным улучшением в домене и вне домена; позиционируется как мост между имитационным обучением (IL) и обучением с подкреплением (RL).

Редакционные комментарии

«Early Experience» — это прагматичный вклад: он заменяет хрупкое дополнение только на основе рациональных обоснований контролем на основе результатов, который агент может генерировать в масштабе, без функций вознаграждения.

Две разновидности — Implicit World Modeling (прогнозирование следующего наблюдения для привязки динамики среды) и Self-Reflection (контрастные обоснования, проверенные по результатам, в сравнении с экспертными действиями) — напрямую борются с отклонением от политики и накоплением ошибок в длинных горизонтах, объясняя последовательные улучшения по сравнению с имитационным обучением в восьми средах и более высокими потолками RL при использовании в качестве инициализатора для GRPO.

В веб- и инструментальных средах, где проверяемые вознаграждения редки, этот контроль без вознаграждений является недостающим звеном между IL и RL и может быть немедленно применён для производственных стеков агентов.

1. В чём заключается инновационность подхода «Early Experience» от Meta AI по сравнению с традиционным имитационным обучением и обучением с подкреплением?

Ответ: подход «Early Experience» от Meta AI предлагает новый метод обучения языковых агентов, который не требует вознаграждений или демонстраций экспертов. Он основан на том, что агент сам предлагает действия, выполняет их и учится на основе последствий. Это позволяет ему улучшить внутреннюю модель о динамике среды и уменьшить отклонение от политики.

2. Какие стратегии используются в подходе «Early Experience» и как они помогают улучшить обучение агентов?

Ответ: в подходе «Early Experience» используются две стратегии: Implicit World Modeling (IWM) и Self-Reflection (SR). IWM помогает агенту прогнозировать следующее наблюдение по текущему состоянию и выбранному действию, что улучшает его внутреннюю модель о динамике среды. SR позволяет модели объяснить, почему экспертное действие лучше, используя наблюдаемые результаты, и уточнить политику на основе этого контрастного сигнала.

3. Какие преимущества предлагает подход «Early Experience» по сравнению с имитационным обучением?

Ответ: подход «Early Experience» предлагает несколько преимуществ по сравнению с имитационным обучением. Во-первых, он бесплатен в плане вознаграждений, как имитационное обучение. Во-вторых, он использует результаты, полученные агентом, в качестве меток, что позволяет ему учиться на основе собственного опыта. В-третьих, он демонстрирует средние абсолютные улучшения на +9,6% по успеху и +9,4% по работе в новых условиях по сравнению с IL.

4. В каких средах был протестирован подход «Early Experience» и какие результаты были получены?

Ответ: подход «Early Experience» был протестирован в восьми средах для языковых агентов, охватывающих веб-навигацию, долгосрочное планирование, научные/воплощённые задачи и многодоменные API-потоки. Результаты показали, что «Early Experience» демонстрирует средние абсолютные улучшения на +9,6% по успеху и +9,4% по работе в новых условиях по сравнению с IL.

5. Как «Early Experience» может быть использован в веб- и инструментальных средах, где проверяемые вознаграждения редки?

Ответ: «Early Experience» может быть использован в веб- и инструментальных средах, где проверяемые вознаграждения редки, как недостающее звено между имитационным обучением (IL) и обучением с подкреплением (RL). Он позволяет агентам учиться на основе собственного опыта и результатов, полученных в процессе выполнения задач, что делает его полезным инструментом для производственных стеков агентов в этих средах.

Источник