В будущем домашний робот сможет самостоятельно управлять повседневными делами и изучать закономерности в ведении хозяйства на основе полученного опыта. Например, он может подавать кофе по утрам без напоминаний, запомнив ваши привычки. Для мультимодального агента такой интеллект зависит от:
* непрерывного наблюдения за миром с помощью мультимодальных датчиков;
* сохранения опыта в долговременной памяти;
* рассуждений на основе этой памяти для управления своими действиями.
Текущие исследования сосредоточены на агентах, основанных на больших языковых моделях (LLM), но мультимодальные агенты обрабатывают разнообразные входные данные и сохраняют более богатый мультимодальный контент. Это ставит новые задачи по поддержанию согласованности в долговременной памяти. Вместо простого хранения описательного опыта мультимодальные агенты должны формировать внутреннее представление мира, подобно тому как это делают люди.
Проблемы и решения
Существующие попытки включают добавление необработанных траекторий агентов, таких как диалоги или истории выполнения, непосредственно в память. Некоторые методы улучшают это, комбинируя сводки, скрытые вложения или структурированные представления знаний.
В мультимодальных агентах формирование памяти тесно связано с онлайн-пониманием видео, где ранние методы, такие как расширение контекстных окон или сжатие визуальных токенов, часто не масштабируются для длинных видеопотоков. Методы, основанные на памяти, которые сохраняют закодированные визуальные особенности, улучшают масштабируемость, но сталкиваются с трудностями в поддержании долгосрочной согласованности.
Исследователи из ByteDance Seed, Zhejiang University и Shanghai Jiao Tong University предложили M3-Agent — мультимодальную агентскую систему с долговременной памятью. M3-Agent обрабатывает визуальные и аудиовходы в реальном времени для построения и обновления своей памяти, подобно людям. В отличие от стандартной эпизодической памяти, он также развивает семантическую память, позволяя накапливать знания о мире с течением времени.
Структура M3-Agent
M3-Agent содержит мультимодальную LLM и модуль долговременной памяти, работающие через два параллельных процесса: запоминание и контроль. Долговременная память — это внешняя база данных, которая хранит структурированные мультимодальные данные в виде графа памяти, где узлы представляют отдельные элементы памяти с уникальными идентификаторами, модальности, необработанное содержимое, вложения и метаданные.
Во время запоминания M3-Agent обрабатывает видеопотоки по частям, генерируя эпизодическую память для необработанного контента и семантическую память для абстрактных знаний, таких как идентичности и отношения. Для контроля агент проводит многоэтапные рассуждения, используя поисковые функции для извлечения релевантной памяти до H раундов. RL оптимизирует фреймворк, с отдельными моделями, обученными для запоминания и контроля, для достижения максимальной производительности.
Оценка M3-Agent
M3-Agent и все базовые модели оцениваются на M3-Bench-robot и M3-Bench-web. На M3-Bench-robot M3-agent достигает улучшения точности на 6,3% по сравнению с сильнейшим базовым вариантом MA-LLM, в то время как на M3-Bench-web и VideoMME-long он превосходит GeminiGPT4o-Hybrid на 7,7% и 5,3% соответственно.
Более того, M3-Agent превосходит MA-LMM на 4,2% в понимании человеком и на 8,5% в кросс-модальном рассуждении на M3-Bench-robot. На M3-Bench-web он превосходит Gemini-GPT4o-Hybrid с приростом в 15,5% и 6,7% в этих категориях.
Эти результаты подчёркивают способность M3-Agent поддерживать согласованность персонажей, улучшать понимание человеком и эффективно интегрировать мультимодальную информацию.
В заключение исследователи представили M3-Agent — мультимодальную систему с долговременной памятью, способную обрабатывать видео- и аудиопотоки в реальном времени для построения эпизодической и семантической памяти. Это позволяет агенту накапливать знания о мире и поддерживать согласованную, насыщенную контекстом память с течением времени. Экспериментальные результаты показывают, что M3-Agent превосходит все базовые модели по нескольким показателям.
Подробнее можно ознакомиться в [статье](https://www.marktechpost.com/2023/09/26/meet-m3-agent-a-multimodal-agent-with-long-term-memory-and-enhanced-reasoning-capabilities/) и на [GitHub](https://github.com/).
1. Какие основные компоненты включает в себя структура M3-Agent?
Структура M3-Agent включает мультимодальную LLM (большую языковую модель) и модуль долговременной памяти.
2. Как M3-Agent обрабатывает визуальные и аудиовходы?
M3-Agent обрабатывает визуальные и аудиовходы в реальном времени для построения и обновления своей памяти. Он генерирует эпизодическую память для необработанного контента и семантическую память для абстрактных знаний.
3. Какие методы используются для улучшения масштабируемости M3-Agent при работе с длинными видеопотоками?
Методы, основанные на памяти, которые сохраняют закодированные визуальные особенности, улучшают масштабируемость M3-Agent при работе с длинными видеопотоками.
4. Какие результаты были получены при оценке M3-Agent на M3-Bench-robot и M3-Bench-web?
На M3-Bench-robot M3-agent достигает улучшения точности на 6,3% по сравнению с сильнейшим базовым вариантом MA-LLM. На M3-Bench-web M3-Agent превосходит GeminiGPT4o-Hybrid на 7,7%.
5. В чём заключается преимущество M3-Agent перед другими моделями в понимании человеком и кросс-модальном рассуждении?
M3-Agent превосходит MA-LMM на 4,2% в понимании человеком и на 8,5% в кросс-модальном рассуждении на M3-Bench-robot. На M3-Bench-web он превосходит Gemini-GPT4o-Hybrid с приростом в 15,5% и 6,7% в этих категориях. Это подчёркивает способность M3-Agent поддерживать согласованность персонажей, улучшать понимание человеком и эффективно интегрировать мультимодальную информацию.