Современные языковые агенты должны уметь вести многоэтапные диалоги, извлекая и обновляя информацию по мере развития задач. Однако большинство существующих систем просто добавляют все прошлые взаимодействия к запросу, независимо от их релевантности. Это приводит к нерациональному использованию памяти, снижению производительности и ухудшению рассуждений при обработке более длинных входных данных, которые не были видны во время обучения.
Примеры из реальной жизни, такие как исследовательские или торговые помощники, показывают, как последующие вопросы зависят от предыдущего контекста. Тем не менее постоянный рост объёма подсказок создаёт нагрузку на ресурсы системы и внимание. Хотя некоторые решения используют внешние модули памяти, их сложно интегрировать. Возникает важный вопрос: могут ли языковые модели научиться разумно управлять своей памятью в процессе рассуждений?
Ограничения контекстно-расширяющихся подсказок и проблемы интеграции памяти
Агенты LLM (Large Language Model) эволюционировали от обработки простых запросов до выполнения сложных многошаговых задач, таких как просмотр веб-страниц и исследования. Такие фреймворки, как ReAct, которые сочетают рассуждения и действия, помогли реализовать эти возможности. Методы обучения обычно основаны на клонировании поведения или подкрепляющем обучении для формирования поведения агента. Однако управление памятью во время многоэтапных взаимодействий остаётся сложной задачей.
Общий подход, заключающийся в добавлении всего прошлого контекста к каждому запросу, приводит к нерациональному и неэффективному использованию памяти. Хотя внешние инструменты, такие как поисковые системы или средства для создания резюме, помогают, они часто отделены от рассуждений агента, что усложняет интеграцию.
Введение MEM1: фреймворк для обучения с подкреплением для языковых агентов с постоянной памятью
Исследователи из MIT, NUS, SMART и Йонсейского университета разработали MEM1 — фреймворк для обучения с подкреплением, который позволяет языковым агентам выполнять сложные многоэтапные задачи, сохраняя при этом постоянное использование памяти.
Вместо хранения полных историй взаимодействия MEM1 обновляет компактное внутреннее состояние на каждом шаге, объединяя новую информацию с памятью и отбрасывая ненужные детали. Этот унифицированный подход к рассуждениям и памяти повышает эффективность и производительность без необходимости дополнительных модулей.
MEM1 был протестирован в различных задачах, включая веб-QA и онлайн-покупки, продемонстрировав до 3,5 раз более высокую производительность и в 3,7 раза меньшее использование памяти по сравнению с более крупными моделями, а также хорошую адаптацию к более длинным, ранее не встречавшимся последовательностям задач.
Сочетание сокращения памяти и итеративного мышления для решения задач, подобных человеческим
MEM1 предназначен для решения сложных задач рассуждения путём сочетания управления памятью с итеративным мышлением. На каждом шаге агент обрабатывает новую информацию и объединяет её с предыдущими знаниями, чтобы сформировать консолидированное внутреннее состояние, а затем удаляет предыдущий контекст для поддержания эффективности использования памяти.
Этот структурированный подход к обновлению памяти отражает то, как люди решают головоломки, сосредотачиваясь на ключевой информации и отбрасывая всё остальное. Команда использует обучение с подкреплением, чтобы научить агента сохранять только релевантные данные, и применяет стратегию маскирования во время оптимизации для обеспечения точных обновлений политики.
Для лучшего тестирования долгосрочного рассуждения они также создают многоцелевые задачи QA на основе существующих наборов данных.
Бенчмаркинг MEM1 в задачах долгосрочного QA и навигации
Исследование оценивает способность агента MEM1 справляться со сложными многоэтапными задачами, сохраняя при этом почти постоянное использование памяти. Обученный с помощью обучения с подкреплением на базовой модели Qwen2.5-7B, MEM1 тестируется в ответах на вопросы с генерацией, дополненной извлечением, и в средах веб-навигации. Он сравнивается с несколькими базовыми моделями по показателям точности и эффективности.
Результаты показывают, что MEM1 превосходит другие модели в задачах с длинным горизонтом, сохраняя высокую производительность даже при увеличении сложности задач. Он использует меньше токенов, отвечает быстрее и более эффективно масштабируется. Несмотря на меньшие размеры, MEM1 даже превосходит более крупные модели, такие как Qwen2.5-14B-Instruct и GPT-4o, в сложных сценариях.
Заключение и перспективы развития консолидации памяти, обученной с помощью подкрепления, в LLM
В заключение, MEM1 — это фреймворк для обучения с подкреплением, разработанный для того, чтобы помочь языковым агентам более эффективно выполнять длинные многошаговые задачи. В отличие от традиционных методов, которые сохраняют всю прошлую информацию, что приводит к увеличению объёма памяти и снижению производительности, MEM1 поддерживает компактное внутреннее состояние, объединяя новые входные данные с памятью и отбрасывая ненужные данные.
Он хорошо справляется с такими задачами, как ответы на вопросы и веб-навигация, при этом используя меньше памяти и вычислительных мощностей. Однако MEM1 предполагает наличие чётких, надёжных сигналов вознаграждения, которых нет во многих реальных задачах. Будущая работа направлена на адаптацию MEM1 для открытых задач с неопределёнными или отсроченными вознаграждениями, тем самым расширяя его применение в более широких и практических сценариях.
1. Какие проблемы существующих языковых агентов решает MEM1?
MEM1 решает проблему нерационального использования памяти языковыми агентами. Большинство существующих систем добавляют все прошлые взаимодействия к каждому запросу, независимо от их релевантности. Это приводит к снижению производительности и ухудшению рассуждений при обработке длинных входных данных. MEM1 обновляет компактное внутреннее состояние на каждом шаге, объединяя новую информацию с памятью и отбрасывая ненужные детали.
2. Как работает MEM1 и чем он отличается от традиционных методов?
MEM1 — это фреймворк для обучения с подкреплением, который позволяет языковым агентам выполнять сложные многоэтапные задачи, сохраняя при этом постоянное использование памяти. В отличие от традиционных методов, которые сохраняют всю прошлую информацию, MEM1 поддерживает компактное внутреннее состояние, объединяя новые входные данные с памятью и отбрасывая ненужные данные.
3. Какие результаты показал MEM1 в тестировании?
В тестировании MEM1 продемонстрировал до 3,5 раз более высокую производительность и в 3,7 раза меньшее использование памяти по сравнению с более крупными моделями. Он также хорошо адаптировался к более длинным, ранее не встречавшимся последовательностям задач.
4. Какие перспективы развития MEM1 указаны в статье?
В статье указано, что будущая работа направлена на адаптацию MEM1 для открытых задач с неопределёнными или отсроченными вознаграждениями. Это позволит расширить применение MEM1 в более широких и практических сценариях.
5. Какие задачи способен решать MEM1?
MEM1 способен решать сложные многоэтапные задачи, такие как веб-QA (вопросы и ответы) и онлайн-покупки. Он также может использоваться в средах веб-навигации.