Непрерывное обучение имеет решающее значение для интеллектуальных агентов, работающих в постоянно меняющихся условиях, однако текущие агенты на основе LLM (языковых моделей) не справляются — им не хватает памяти, и они рассматривают каждую задачу как начало с чистого листа.
Хотя LLM изменили подход к языковым задачам и вдохновили на создание агентских систем, эти агенты остаются без состояния и не способны учиться на прошлом опыте. Настоящий прогресс в направлении общего интеллекта требует от агентов способности сохранять, адаптировать и повторно использовать знания с течением времени. К сожалению, текущие эталоны в основном сосредоточены на изолированных задачах, упуская из виду возможность повторного использования навыков и сохранения знаний.
Непрерывное обучение, также известное как последовательное обучение, направлено на то, чтобы помочь системам искусственного интеллекта накапливать и сохранять знания при выполнении различных задач, избегая катастрофического забывания.
Большинство предыдущих исследований в этой области были сосредоточены на неинтерактивных задачах, таких как классификация изображений или последовательная тонкая настройка, где модели обрабатывают статические входные и выходные данные, не нуждаясь в реагировании на меняющиеся условия. Однако применение непрерывного обучения к агентам на основе LLM, работающим в динамичных интерактивных условиях, остаётся малоизученным.
Исследователи из Южно-Китайского технологического университета, MBZUAI, Китайской академии наук и Восточно-Китайского педагогического университета представили LifelongAgentBench — первый всеобъемлющий эталон для оценки непрерывного обучения в агентах на основе LLM.
Особенности LifelongAgentBench
* Независимые задачи, основанные на навыках, в трёх средах — базе данных, операционной системе и графе знаний.
* Встроенная проверка меток, воспроизводимость и модульная конструкция.
* Исследование показывает, что традиционный повтор опыта часто неэффективен из-за включения нерелевантной информации и ограничения длины контекста.
* Предлагается механизм групповой самосогласованности, который объединяет прошлый опыт и применяет стратегии голосования, значительно повышая производительность непрерывного обучения в различных архитектурах LLM.
LifelongAgentBench — это эталон, разработанный для проверки того, насколько эффективно агенты на основе языковых моделей учатся и адаптируются к ряду задач с течением времени.
Структура задач
* Задачи структурированы вокруг основных навыков и созданы для отражения сложности реального мира, с учётом таких факторов, как сложность задачи, перекрывающиеся навыки и шум в окружающей среде.
* Генерация задач сочетает автоматическую и ручную проверку для обеспечения качества и разнообразия.
Модульная система
Эталонная система включает в себя такие компоненты, как агент, среда и контроллер, которые могут работать независимо и взаимодействовать через RPC (Remote Procedure Call — удалённый вызов процедур).
LifelongAgentBench — это новая система оценки, разработанная для проверки того, насколько хорошо агенты на основе LLM учатся с течением времени, решая задачи в строгой последовательности, в отличие от предыдущих эталонов, ориентированных на изолированные или параллельные задачи.
Система отдаёт приоритет воспроизводимости и гибкости, поддерживая различные среды и модели. Эксперименты показали, что повтор опыта — подача агентам успешных прошлых траекторий — может значительно повысить производительность, особенно в сложных задачах. Однако увеличение объёма повторов может привести к проблемам с памятью, что подчёркивает необходимость более эффективных стратегий управления памятью и повторного использования.
В заключение, LifelongAgentBench — это новаторский эталон, разработанный для оценки способности агентов на основе LLM к непрерывному обучению с течением времени. В отличие от более ранних эталонов, которые рассматривают агентов как статичные, эта система проверяет их способность накапливать, сохранять и применять знания в динамичных средах, таких как базы данных, операционные системы и графы знаний.
Эталон предлагает модульную конструкцию, воспроизводимость и автоматизированную оценку. Хотя повтор опыта и групповая самосогласованность демонстрируют многообещающие результаты в повышении эффективности обучения, такие проблемы, как перегрузка памяти и нестабильность результатов у разных моделей, сохраняются.
Эта работа закладывает основу для разработки более адаптивных и эффективных агентов с точки зрения использования памяти, а будущие направления будут сосредоточены на более разумном использовании памяти и мультимодальных задачах в реальном мире.