PoE-World превосходит методы обучения с подкреплением RL в игре Montezuma’s Revenge при минимальном объёме демонстрационных данных

Важность символического мышления в моделировании мира

Понимание того, как устроен мир, является ключом к созданию агентов искусственного интеллекта (ИИ), способных адаптироваться к сложным ситуациям. Модели, основанные на нейронных сетях, такие как Dreamer, предлагают гибкость, но требуют огромных объёмов данных для эффективного обучения, что значительно превышает объёмы, необходимые человеку.

С другой стороны, новые методы используют программный синтез с большими языковыми моделями для генерации кодовых моделей мира. Они более эффективно используют данные и могут хорошо обобщать на основе ограниченного объёма входных данных. Однако их применение в основном ограничено простыми областями, такими как текст или грид-миры, поскольку масштабирование до сложных, динамических сред остаётся сложной задачей из-за трудности создания больших, всеобъемлющих программ.

Ограничения существующих программных моделей мира

Недавние исследования изучали использование программ для представления моделей мира, часто опираясь на большие языковые модели для синтеза функций перехода на языке Python. Подходы, такие как WorldCoder и CodeWorldModels, генерируют одну большую программу, что ограничивает их масштабируемость в сложных средах и их способность справляться с неопределённостью и частичной наблюдаемостью.

Некоторые исследования фокусируются на высокоуровневых символических моделях для планирования в робототехнике путём интеграции визуального ввода с абстрактным мышлением. Ранее предпринимались попытки использовать ограниченные предметно-ориентированные языки, адаптированные к конкретным задачам, или концептуально связанные структуры, такие как фактор-графы в сетях схем. Теоретические модели, такие как AIXI, также исследуют моделирование мира с использованием машин Тьюринга и представлений, основанных на истории.

Представление PoE-World: модульные и вероятностные модели мира

Исследователи из Корнелла, Кембриджа, Института Алана Тьюринга и Университета Далхаузи представляют PoE-World — подход к обучению символическим моделям мира путём объединения множества небольших программ, синтезированных с помощью больших языковых моделей, каждая из которых отражает конкретное правило среды.

Вместо создания одной большой программы, PoE-World строит модульную, вероятностную структуру, которая может учиться на основе кратких демонстраций. Такая настройка поддерживает обобщение на новые ситуации, позволяя агентам эффективно планировать, даже в сложных играх, таких как Pong и Montezuma’s Revenge.

Хотя PoE-World не моделирует необработанные пиксельные данные, он обучается на основе наблюдений за символическими объектами и делает акцент на точном моделировании, а не на исследовании, для эффективного принятия решений.

Архитектура и механизм обучения PoE-World

PoE-World моделирует среду как комбинацию небольших интерпретируемых программ на Python, называемых программными экспертами, каждая из которых отвечает за определённое правило или поведение. Эти эксперты взвешиваются и объединяются для прогнозирования будущих состояний на основе прошлых наблюдений и действий.

Модель остаётся модульной и масштабируемой, обрабатывая признаки как условно независимые и обучаясь на основе полной истории. Жёсткие ограничения уточняют прогнозы, а эксперты обновляются или удаляются по мере сбора новых данных. Модель поддерживает планирование и обучение с подкреплением, моделируя вероятные будущие результаты, что позволяет эффективно принимать решения.

Программы синтезируются с помощью больших языковых моделей и интерпретируются вероятностно, а веса экспертов оптимизируются с помощью градиентного спуска.

Эмпирическая оценка на играх Atari

Исследование оценивает агента PoE-World + Planner на играх Atari Pong и Montezuma’s Revenge, включая более сложные, модифицированные версии этих игр. Используя минимальный объём демонстрационных данных, метод превосходит базовые показатели, такие как PPO, ReAct и WorldCoder, особенно в условиях ограниченного объёма данных.

PoE-World демонстрирует сильное обобщение, точно моделируя динамику игры даже в изменённых средах без новых демонстраций. Это единственный метод, который стабильно показывает положительные результаты в Montezuma’s Revenge. Предварительное обучение в моделируемой среде PoE-World ускоряет обучение в реальных условиях.

В отличие от ограниченных и иногда неточных моделей WorldCoder, PoE-World создаёт более детальные представления с учётом ограничений, что приводит к лучшему планированию и более реалистичному поведению в игре.

Заключение: символьные модульные программы для масштабируемого планирования в ИИ

В заключение, понимание того, как устроен мир, имеет решающее значение для создания адаптивных агентов ИИ. Однако традиционные модели глубокого обучения требуют больших наборов данных и с трудом адаптируются при ограниченном объёме входных данных.

Вдохновлённый тем, как люди и символьные системы комбинируют знания, в исследовании предлагается метод PoE-World. Этот метод использует большие языковые модели для синтеза модульных программных «экспертов», представляющих различные части мира. Эксперты объединяются для формирования символьной, интерпретируемой модели мира, которая поддерживает сильное обобщение на основе минимального объёма данных.

Испытания на играх Atari, таких как Pong и Montezuma’s Revenge, демонстрируют эффективное планирование и производительность даже в незнакомых сценариях. Код и демонстрации доступны в открытом доступе.

Источник

Оставьте комментарий