Microsoft Research представляет CORPGEN для управления многоэтапными задачами автономных агентов искусственного интеллекта

Исследователи из Microsoft представили CORPGEN — независимую от архитектуры систему, предназначенную для управления сложностями реалистичной организационной работы с помощью автономных цифровых сотрудников.

Проблема производительности в средах с многоэтапными задачами (MHTEs)

Существующие тесты оценивают агентов искусственного интеллекта по изолированным, однозадачным сценариям, в то время как в реальных корпоративных средах требуется управлять десятками одновременных, чередующихся задач со сложными зависимостями.

Эмпирическое тестирование показало, что базовые агенты, использующие компьютеры (CUAs), значительно снижают производительность при переходе от однозадачных сценариев к MHTEs. При трёх независимых реализациях CUA уровень выполнения снизился с 16,7% при нагрузке 25% до 8,7% при нагрузке 100%.

Исследовательская группа выявила четыре основных режима сбоев, вызывающих это снижение:

* Насыщение контекста: требования к контексту растут O(N) с увеличением количества задач, а не O(1), быстро превышая ёмкость окна токенов.
* Интерференция памяти: информация из одной задачи часто влияет на рассуждения о другой, когда несколько задач используют одно окно контекста.
* Сложность графа зависимостей: корпоративные задачи образуют ориентированные ациклические графы (DAGs), а не линейные цепочки, что требует сложного топологического анализа.
* Накладные расходы на переприоритизацию: сложность принятия решений увеличивается до O(N) за цикл, поскольку агенты должны постоянно переоценивать приоритеты по всем активным задачам.

Архитектура CORPGEN

Для решения этих проблем CORPGEN реализует возможности многоцелевого многоэтапного агента (MOMA) с помощью четырёх основных архитектурных механизмов:

1. Иерархическое планирование: стратегическая согласованность поддерживается за счёт декомпозиции целей по трём временным масштабам: стратегическим целям (ежемесячно), тактическим планам (ежедневно) и операционным действиям (за цикл).
2. Изоляция субагентов: сложные операции, такие как автоматизация графического интерфейса пользователя или исследования, изолированы в модульные субагенты. Эти автономные агенты работают в своих собственных контекстах и возвращают только структурированные результаты хост-агенту, предотвращая загрязнение памяти между задачами.
3. Многоуровневая архитектура памяти: система использует трёхслойную структуру памяти для управления состоянием: рабочая память, структурированная долговременная память (LTM) и семантическая память.
4. Адаптивное суммирование: для ограничения роста контекста CORPGEN использует сжатие на основе правил. Когда длина контекста превышает 4000 токенов, «критическое содержание» (например, вызовы инструментов и изменения состояния) сохраняется дословно, а «рутинное содержание» (промежуточные рассуждения) сжимается в структурированные резюме.

Экспериментальные результаты и обучение

В трёх бэкендах CUA (UFO2, OpenAI CUA и иерархическая) CORPGEN показал улучшение производительности до 3,5 раз по сравнению с базовыми показателями, достигнув уровня выполнения 15,2% по сравнению с 4,3% для автономного UFO2 при нагрузке 100%.

Исследовательская группа отметила значительное расхождение в методах оценки. Суждение на основе артефактов (проверка сгенерированных файлов и выходных данных) достигло 90% согласованности с человеческими метками. В то же время суждение на основе трассировки (LLM) достигло только 40% согласованности. Это говорит о том, что текущие тесты могут систематически занижать производительность агентов, полагаясь на ограниченные визуальные следы, а не на фактические созданные артефакты.

Ключевые выводы

* Идентификация сред с многоэтапными задачами (MHTEs): исследовательская группа определяет новый класс задач, где агенты должны управлять десятками чередующихся долгосрочных задач в едином постоянном контексте.
* Обнаружение катастрофического снижения производительности: стандартные агенты, использующие компьютеры (CUAs), испытывают «катастрофическое» падение производительности при увеличении нагрузки.
* Четыре основных режима сбоев: исследователи определили, почему текущие агенты терпят неудачу под нагрузкой: насыщение контекста (рост O(N)), интерференция памяти (конфликты задач), сложность зависимостей (управление DAG) и накладные расходы на переприоритизацию (сложность принятия решений O(N)).
* Архитектурное смягчение с помощью CORPGEN: фреймворк CORPGEN решает эти проблемы с помощью четырёх основных механизмов: иерархического планирования для согласования целей, изоляции субагентов для предотвращения загрязнения памяти, многоуровневой памяти (рабочей, структурированной и семантической) и адаптивного суммирования для управления ограничениями по токенам.
* Значительное повышение производительности за счёт экспериментального обучения: оценка на нескольких бэкендах показала, что CORPGEN может улучшить производительность до 3,5 раз по сравнению с базовыми показателями.

1. Какие проблемы в управлении многоэтапными задачами автономных агентов искусственного интеллекта решает система CORPGEN?

Система CORPGEN решает проблемы, связанные с управлением многоэтапными задачами в корпоративных средах. Она разработана для преодоления сложностей, возникающих при работе с десятками одновременных, чередующихся задач со сложными зависимостями.

2. Какие основные механизмы использует CORPGEN для решения проблем управления многоэтапными задачами?

CORPGEN использует четыре основных архитектурных механизма:
* иерархическое планирование для стратегической согласованности целей;
* изоляция субагентов для предотвращения загрязнения памяти между задачами;
* многоуровневая архитектура памяти для управления состоянием;
* адаптивное суммирование для ограничения роста контекста.

3. Какие результаты были получены при экспериментальном тестировании системы CORPGEN?

При экспериментальном тестировании системы CORPGEN было показано улучшение производительности до 3,5 раз по сравнению с базовыми показателями. Уровень выполнения задач достиг 15,2% по сравнению с 4,3% для автономного UFO2 при нагрузке 100%.

4. Какие выводы можно сделать из исследования, представленного в статье?

Из исследования можно сделать несколько ключевых выводов:
* идентифицирован новый класс задач, где агенты должны управлять десятками чередующихся долгосрочных задач в едином постоянном контексте;
* обнаружено катастрофическое снижение производительности стандартных агентов при увеличении нагрузки;
* определены четыре основных режима сбоев, вызывающих снижение производительности;
* показано, что система CORPGEN может значительно повысить производительность агентов при управлении многоэтапными задачами.

5. Какие методы оценки использовались для определения эффективности системы CORPGEN?

Для определения эффективности системы CORPGEN использовались два метода оценки: суждение на основе артефактов и суждение на основе трассировки (LLM). Суждение на основе артефактов достигло 90% согласованности с человеческими метками, в то время как суждение на основе трассировки достигло только 40% согласованности. Это указывает на то, что текущие тесты могут занижать производительность агентов.

Источник