MIRIX: модульная мультиагентная система памяти для улучшения долгосрочного мышления и персонализации в агентах на базе LLM

Недавние разработки в области агентов LLM в основном были сосредоточены на расширении возможностей выполнения сложных задач. Однако одно важное направление остаётся недостаточно изученным: память — способность агентов сохранять, вспоминать и рассуждать на основе специфичной для пользователя информации в течение времени. Без постоянной памяти большинство агентов на базе LLM остаются без состояния, неспособными создавать контекст за пределами одного запроса, что ограничивает их полезность в реальных условиях, где важны согласованность и персонализация.

Чтобы решить эту проблему, MIRIX AI представляет MIRIX — модульную мультиагентную систему памяти, специально разработанную для обеспечения надёжной долговременной памяти для агентов на базе LLM. В отличие от плоских, чисто текстовых систем, MIRIX интегрирует структурированные типы памяти в разных модальностях, включая визуальный ввод, и построена на основе согласованной мультиагентной архитектуры для управления памятью.

Основные компоненты архитектуры и состав памяти

MIRIX включает в себя шесть специализированных компонентов памяти, каждый из которых управляется соответствующим менеджером памяти:

* Core Memory (основная память): хранит постоянную информацию о агенте и пользователе, сегментированную на «персону» (профиль агента, тон и поведение) и «человека» (факты о пользователе, такие как имя, предпочтения и отношения).
* Episodic Memory (эпизодическая память): фиксирует события и взаимодействия с пользователем с временными метками и структурированными атрибутами, такими как event_type, summary, details, actors и timestamp.
* Semantic Memory (семантическая память): кодирует абстрактные понятия, графы знаний и именованные сущности, с записями, организованными по типу, summary, details и source.
* Procedural Memory (процедурная память): содержит структурированные рабочие процессы и последовательности задач с чётко определёнными шагами и описаниями, часто в формате JSON для удобства манипулирования.
* Resource Memory (ресурсная память): поддерживает ссылки на внешние документы, изображения и аудио, записанные по заголовку, summary, типу ресурса и содержимому или ссылке для обеспечения контекстуальной непрерывности.
* Knowledge Vault (хранилище знаний): защищает дословные факты и конфиденциальную информацию, такую как учётные данные, контакты и API-ключи, со строгими элементами управления доступом и метками конфиденциальности.

Meta Memory Manager (мета-менеджер памяти) координирует действия этих шести специализированных менеджеров, обеспечивая интеллектуальную маршрутизацию сообщений, иерархическое хранение и операции поиска в памяти. Дополнительные агенты — с такими ролями, как чат и интерфейс — сотрудничают в рамках этой архитектуры.

Механизм активного поиска и взаимодействия

Ключевым нововведением MIRIX является механизм Active Retrieval (активный поиск). При вводе пользователем система сначала автономно определяет тему, затем извлекает соответствующие записи из памяти всех шести компонентов и, наконец, помечает извлечённые данные для контекстуального внедрения в результирующий системный запрос. Этот процесс снижает зависимость от устаревших знаний параметрической модели и обеспечивает более надёжное обоснование ответов.

Доступны несколько стратегий поиска, включая embeddingmatch, bm25match и string_match, что обеспечивает точный и контекстно-зависимый доступ к памяти. Архитектура позволяет расширять инструменты поиска по мере необходимости.

Реализация системы и применение

MIRIX развёрнут как кроссплатформенное приложение-помощник, разработанное с использованием React-Electron (для пользовательского интерфейса) и Uvicorn (для серверного API). Помощник отслеживает активность экрана, делая скриншоты каждые 1,5 секунды; сохраняются только не повторяющиеся экраны, а обновления памяти запускаются пакетами после сбора 20 уникальных скриншотов (примерно раз в минуту). Загрузка в Gemini API осуществляется потоково, что обеспечивает эффективную обработку визуальных данных и задержку обновления памяти от визуальных входов менее 5 секунд.

Пользователи взаимодействуют через чат-интерфейс, который динамически использует компоненты памяти агента для генерации контекстуализированных, персонализированных ответов. Семантическая и процедурная память отображаются в виде расширяемых деревьев или списков, обеспечивая прозрачность и позволяя пользователям проверять и проверять, что агент «помнит» о них.

Оценка на мультимодальных и разговорных бенчмарках

MIRIX проверен на двух строгих задачах:

* ScreenshotVQA (визуальный вопрос-ответ): бенчмарк, требующий постоянной долговременной памяти по высокоразрешающим скриншотам. MIRIX превосходит базовые показатели генерации с улучшением поиска (RAG), такие как SigLIP и Gemini, на 35% по точности LLM-as-a-Judge, при этом сокращая потребности в хранении данных для поиска на 99,9% по сравнению с текстовыми методами.
* LOCOMO (текстовый бенчмарк): оценка долговременной памяти в длинных разговорах. MIRIX достигает средней точности 85,38%, превосходя сильные системы с открытым исходным кодом, такие как LangMem и Mem0, более чем на 8 пунктов и приближаясь к верхним границам полноконтекстного моделирования последовательностей.

Модульная конструкция обеспечивает высокую производительность как в мультимодальных, так и в текстовых областях логического вывода.

Варианты использования: носимые устройства и рынок памяти

MIRIX разработан с учётом расширяемости, с поддержкой лёгких ИИ-носимых устройств, включая умные очки и булавки, благодаря своей эффективной модульной архитектуре. Гибридное развёртывание позволяет обрабатывать память как на устройстве, так и в облаке, а практические приложения включают в себя обобщение встреч в реальном времени, детальный вызов местоположения и контекста, а также динамическое моделирование привычек пользователей.

Визионерской особенностью MIRIX является Memory Marketplace (рынок памяти): децентрализованная экосистема, обеспечивающая безопасное совместное использование памяти, монетизацию и совместную персонализацию ИИ между пользователями. Рынок разработан с учётом детального контроля конфиденциальности, сквозного шифрования и децентрализованного хранения для обеспечения суверенитета данных и владения пользователями.

Заключение

MIRIX представляет собой значительный шаг на пути к наделению агентов на базе LLM человеческой памятью. Его структурированная мультиагентная композиционная архитектура обеспечивает надёжную абстракцию памяти, поддержку мультимодальности и контекстуально обоснованные рассуждения в реальном времени. Благодаря эмпирическим достижениям в сложных бенчмарках и доступному кроссплатформенному интерфейсу приложений, MIRIX устанавливает новый стандарт для систем искусственного интеллекта с дополненной памятью.

Часто задаваемые вопросы

1. Что отличает MIRIX от существующих систем памяти, таких как Mem0 или Zep?

MIRIX вводит многокомпонентную композиционную память (помимо хранения текстовых фрагментов), мультимодальную поддержку (включая зрение) и мультиагентную архитектуру поиска для более масштабируемого, точного и контекстно-насыщенного управления долговременной памятью.

2. Как MIRIX обеспечивает низкую задержку обновления памяти на основе визуальных входов?

Используя потоковую загрузку в сочетании с Gemini API, MIRIX может обновлять визуальную память на основе скриншотов с задержкой менее 5 секунд даже во время активных пользовательских сеансов.

3. Совместим ли MIRIX с закрытыми исходными кодами LLM, такими как GPT-4?

Да. Поскольку MIRIX работает как внешняя система (а не как плагин модели или инструмент для переобучения), он может расширить возможности любого LLM, независимо от его базовой архитектуры или лицензирования, включая GPT-4, Gemini и другие проприетарные модели.

1. Какие ключевые инновации MIRIX предлагает для улучшения работы агентов на базе LLM?

MIRIX предлагает механизм активного поиска (Active Retrieval), который позволяет системе автономно определять тему запроса, извлекать соответствующие записи из памяти и помечать извлечённые данные для контекстуального внедрения в результирующий системный запрос. Это снижает зависимость от устаревших знаний параметрической модели и обеспечивает более надёжное обоснование ответов.

2. Какие типы памяти включены в архитектуру MIRIX и как они управляются?

В архитектуру MIRIX включены шесть специализированных компонентов памяти:
* Core Memory (основная память) — хранит постоянную информацию о агенте и пользователе.
* Episodic Memory (эпизодическая память) — фиксирует события и взаимодействия с пользователем.
* Semantic Memory (семантическая память) — кодирует абстрактные понятия, графы знаний и именованные сущности.
* Procedural Memory (процедурная память) — содержит структурированные рабочие процессы и последовательности задач.
* Resource Memory (ресурсная память) — поддерживает ссылки на внешние документы, изображения и аудио.
* Knowledge Vault (хранилище знаний) — защищает дословные факты и конфиденциальную информацию.

Каждый из этих компонентов управляется соответствующим менеджером памяти.

3. Какие стратегии поиска доступны в MIRIX и как они обеспечивают точный и контекстно-зависимый доступ к памяти?

В MIRIX доступны несколько стратегий поиска, включая embeddingmatch, bm25match и string_match. Эти стратегии обеспечивают точный и контекстно-зависимый доступ к памяти, позволяя системе извлекать наиболее релевантные записи из памяти на основе запроса пользователя.

4. Как MIRIX обеспечивает персонализацию и контекстуализацию ответов в реальном времени?

MIRIX обеспечивает персонализацию и контекстуализацию ответов в реальном времени за счёт использования мультимодальной поддержки (включая зрение) и мультиагентной архитектуры поиска. Это позволяет системе учитывать контекст взаимодействия с пользователем и генерировать персонализированные ответы, основанные на сохранённой информации.

5. Какие практические приложения предлагает MIRIX и как он может быть развёрнут на различных платформах?

MIRIX предлагает практические приложения, включая обобщение встреч в реальном времени, детальный вызов местоположения и контекста, а также динамическое моделирование привычек пользователей. Благодаря своей эффективной модульной архитектуре, MIRIX может быть развёрнут на различных платформах, включая лёгкие ИИ-носимые устройства, такие как умные очки и булавки, а также в облаке.

Источник

Оставьте комментарий