Обучение с подкреплением без обучения с временной разницей (RL without TD learning)

В этом посте я представлю алгоритм обучения с подкреплением (RL), основанный на «альтернативной» парадигме: «разделяй и властвуй». В отличие от традиционных методов, этот алгоритм не основан на обучении с временной разницей (TD learning), которое имеет проблемы с масштабируемостью, и хорошо масштабируется для задач с длинным горизонтом.

Мы можем использовать RL на основе «разделяй и властвуй» вместо обучения с временной разницей.

Постановка задачи: off-policy RL

В RL существуют два класса алгоритмов: on-policy RL и off-policy RL. On-policy RL означает, что мы можем использовать только свежие данные, собранные текущей политикой. Другими словами, нам приходится отбрасывать старые данные каждый раз, когда мы обновляем политику. Алгоритмы вроде PPO и GRPO (и методы градиента политики в целом) относятся к этой категории.

Off-policy RL означает, что у нас нет такого ограничения: мы можем использовать любые данные, включая старый опыт, демонстрации человека, данные из интернета и так далее. Так off-policy RL более общий и гибкий, чем on-policy RL (и, конечно, сложнее!). Q-learning — наиболее известный off-policy RL алгоритм.

В областях, где сбор данных дорог (например, робототехника, диалоговые системы, здравоохранение и т. д.), у нас часто нет выбора, кроме как использовать off-policy RL. Поэтому это такая важная задача.

На сегодняшний день у нас есть достаточно хорошие рецепты для масштабирования on-policy RL (например, PPO, GRPO и их варианты). Однако мы всё ещё не нашли «масштабируемый» off-policy RL алгоритм, который хорошо масштабируется для сложных задач с длинным горизонтом.

Две парадигмы в обучении значений: Temporal Difference (TD) и Monte Carlo (MC)

В off-policy RL мы обычно обучаем функцию ценности с помощью обучения с временной разницей (TD learning), например, Q-learning, с использованием следующего правила обновления Беллмана:

Проблема в том, что ошибка в следующем значении $Q(s’, a’)$ распространяется на текущее значение $Q(s, a)$ через бустраппинг, и эти ошибки накапливаются в течение всего горизонта. Это в основном и мешает TD learning масштабироваться для задач с длинным горизонтом.

Чтобы смягчить эту проблему, люди смешивают TD learning с Монте-Карло (MC) возвратами. Например, мы можем сделать $n$-шаговое TD learning (TD-$n$):

Здесь мы используем фактический возврат Монте-Карло (из набора данных) для первых $n$ шагов, а затем используем бустрапнутое значение для остальной части горизонта. Таким образом, мы можем уменьшить количество рекурсий Беллмана в $n$ раз, так что ошибки накапливаются меньше. В крайнем случае, когда $n = \infty$, мы получаем чистое Монте-Карло обучение ценности.

Хотя это разумное решение (и часто работает хорошо), оно крайне неудовлетворительно. Во-первых, оно не решает фундаментально проблему накопления ошибок; оно только уменьшает количество рекурсий Беллмана на постоянный множитель ($n$). Во-вторых, по мере роста $n$ мы страдаем от высокой дисперсии и неоптимальности. Так что мы не можем просто установить $n$ на большое значение, и нужно тщательно настраивать его для каждой задачи.

Существует ли принципиально другой способ решения этой проблемы?

«Третья» парадигма: «разделяй и властвуй»

Я утверждаю, что третья парадигма в обучении значений, «разделяй и властвуй», может обеспечить идеальное решение для off-policy RL, которое масштабируется до задач с произвольно длинным горизонтом.

«Разделяй и властвуй» уменьшает количество рекурсий Беллмана логарифмически.

Ключевая идея «разделяй и властвуй» заключается в том, чтобы разделить траекторию на два равных по длине сегмента и объединить их значения для обновления значения полной траектории. Таким образом, мы можем (в теории) уменьшить количество рекурсий Беллмана логарифмически (не линейно!). Более того, это не требует выбора гиперпараметра, как $n$, и не обязательно страдает от высокой дисперсии или неоптимальности, в отличие от $n$-шагового TD learning.

Концептуально «разделяй и властвуй» действительно обладает всеми хорошими свойствами, которые мы хотим в обучении значений. Так что я давно был в восторге от этой высокоуровневой идеи. Проблема заключалась в том, что не было ясно, как это сделать на практике… до недавнего времени.

Практический алгоритм

В недавней работе под руководством Адитьи мы добились значительного прогресса в реализации и масштабировании этой идеи. В частности, мы смогли масштабировать обучение со значением «разделяй и властвуй» до очень сложных задач (насколько мне известно, это первая такая работа!) по крайней мере в одном важном классе задач RL, RL с заданной целью. RL с заданной целью направлен на то, чтобы научиться политике, которая может достичь любого состояния из любого другого состояния. Это обеспечивает естественную структуру «разделяй и властвуй».

Что именно изучает Word2vec и как?

Ответ на этот вопрос заключается в понимании обучения представлений в минимальной, но интересной задаче языкового моделирования. Несмотря на то, что Word2vec — это хорошо известный предшественник современных языковых моделей, в течение многих лет у исследователей не было количественной и предсказательной теории, описывающей процесс его обучения. В нашей новой статье мы наконец-то предоставляем такую теорию. Мы доказываем, что существуют реалистичные, практические режимы, в которых задача обучения сводится к невзвешенной факторизации матрицы наименьших квадратов.

Мы решаем динамику градиентного потока в замкнутой форме; полученные в результате изученные представления просто задаются PCA.

Word2vec — это известный алгоритм для обучения плотных векторных представлений слов. Эти векторы встраивания обучаются с использованием контрастного алгоритма; в конце обучения семантическая связь между любыми двумя словами улавливается углом между соответствующими вложениями.

В Word2vec алгоритм просто перебирает текстовый корпус и обучает двухслойную линейную сеть для моделирования статистических закономерностей в естественном языке с помощью самоконтролируемого градиентного спуска. В этой формулировке становится ясно, что Word2vec — это минимальная нейронная языковая модель. Понимание Word2vec, таким образом, является предпосылкой для понимания обучения признакам в более сложных задачах языкового моделирования.

Предсказание эгоцентричного видео по действиям человека (PEVA)

Учитывая прошлые кадры видео и действие, задающее желаемое изменение в 3D позе, PEVA предсказывает следующий кадр видео. Наши результаты показывают, что, учитывая первый кадр и последовательность действий, наша модель может генерировать видео атомарных действий, имитировать контрфактуалы и поддерживать генерацию длинных видео.

В последние годы были достигнуты значительные успехи в создании мировых моделей, которые учатся моделировать будущие результаты для планирования и управления. От интуитивной физики до многошагового видеопрогнозирования эти модели стали всё более мощными и выразительными. Но лишь немногие из них предназначены для действительно воплощённых агентов.

Чтобы создать мировую модель для воплощённых агентов, нам нужен реальный воплощённый агент, который действует в реальном мире. Реальный воплощённый агент имеет физически обоснованное сложное пространство действий в отличие от абстрактных управляющих сигналов. Они также должны действовать в разнообразных реальных сценариях и иметь эгоцентричный взгляд в отличие от эстетических сцен и стационарных камер.

Action and vision are heavily context-dependent. The same view can lead to different movements and vice versa. This is because humans act in complex, embodied, goal-directed environments.

Human control is high-dimensional and structured. Full-body motion spans 48+ degrees of freedom with hierarchical, time-dependent dynamics.

Egocentric view reveals intention but hides the body. First-person vision reflects goals, but not motion execution, models must infer consequences from invisible physical actions.

Perception lags behind action. Visual feedback often comes seconds later, requiring long-horizon prediction and temporal reasoning.

Чтобы разработать мировую модель для воплощённых агентов, мы должны основывать наш подход на агентах, которые соответствуют этим критериям. Люди регулярно сначала смотрят, а потом действуют — наши глаза фиксируются на цели, мозг запускает краткую визуальную «симуляцию» результата, и только потом тело движется. В каждый момент наше эгоцентричное представление служит как вход из окружающей среды и отражает намерение/цель следующего движения.

Мы обучили модель для предсказания эгоцентричного видео по действиям человека (PEVA) для Whole-Body-Conditioned Egocentric Video Prediction. PEVA учитывает кинематические траектории позы, структурированные иерархией суставов тела, обучаясь имитировать, как физические действия человека формируют окружающую среду с точки зрения первого лица.

Мы тренируем авторегрессионный условный диффузионный трансформер на Nymeria, крупномасштабном наборе данных, объединяющем реальные эгоцентричные видео с захватом позы тела. Наш иерархический протокол оценки проверяет всё более сложные задачи, обеспечивая всесторонний анализ способностей модели к воплощённому прогнозированию и контролю.

1. Какие проблемы существуют у традиционных методов обучения с временной разницей (TD learning) в контексте масштабируемости?

В тексте указано, что традиционные методы TD learning имеют проблемы с масштабируемостью, особенно для задач с длинным горизонтом. Это связано с тем, что ошибка в следующем значении $Q(s’, a’)$ распространяется на текущее значение $Q(s, a)$ через бустраппинг, и эти ошибки накапливаются в течение всего горизонта.

2. В чём заключается основная идея подхода «разделяй и властвуй» в контексте off-policy RL?

Основная идея подхода «разделяй и властвуй» заключается в том, чтобы разделить траекторию на два равных по длине сегмента и объединить их значения для обновления значения полной траектории. Это позволяет уменьшить количество рекурсий Беллмана логарифмически, что обеспечивает масштабируемость для задач с произвольно длинным горизонтом.

3. Какие преимущества предлагает подход «разделяй и властвуй» по сравнению с TD learning?

Подход «разделяй и властвуй» предлагает несколько преимуществ по сравнению с TD learning. Во-первых, он уменьшает количество рекурсий Беллмана логарифмически, что позволяет избежать накопления ошибок. Во-вторых, он не требует выбора гиперпараметра, как $n$ в $n$-шаговом TD learning, и не обязательно страдает от высокой дисперсии или неоптимальности.

4. Какие задачи RL особенно важны в областях, где сбор данных дорог?

В областях, где сбор данных дорог (например, робототехника, диалоговые системы, здравоохранение и т. д.), особенно важны задачи off-policy RL. Это связано с тем, что off-policy RL позволяет использовать любые данные, включая старый опыт, демонстрации человека, данные из интернета и так далее, что делает его более общим и гибким.

5. Какие методы используются для обучения функции ценности в off-policy RL?

В off-policy RL для обучения функции ценности обычно используется обучение с временной разницей (TD learning), например, Q-learning, с использованием правила обновления Беллмана. Однако в тексте предлагается использовать подход «разделяй и властвуй» как альтернативу TD learning для решения проблем масштабируемости.

Источник