Большие языковые модели (LLMs) произвели революцию во многих областях обработки естественного языка, но они всё ещё сталкиваются с критическими ограничениями при работе с актуальными фактами, специфической информацией или сложными многоуровневыми рассуждениями.
Подходы на основе поиска с генерацией (RAG) направлены на устранение этих пробелов, позволяя языковым моделям извлекать и интегрировать информацию из внешних источников. Однако большинство существующих систем RAG на основе графов оптимизированы для статических корпусов и испытывают трудности с эффективностью, точностью и масштабируемостью, когда данные постоянно растут — например, в новостных лентах, исследовательских репозиториях или пользовательском онлайн-контенте.
Представляем EraRAG: эффективные обновления для развивающихся данных
Исследователи из Huawei, Гонконгского университета науки и технологий и WeBank разработали EraRAG — новую систему генерации с расширенным поиском, специально созданную для динамичных, постоянно расширяющихся корпусов. Вместо перестройки всей структуры поиска при появлении новых данных, EraRAG использует локализованные, выборочные обновления, которые затрагивают только те части поискового графа, которые были затронуты изменениями.
Основные особенности:
1. Гиперплоскостное локально-чувствительное хеширование (LSH):
* Каждый корпус разбивается на небольшие текстовые фрагменты, которые встраиваются в виде векторов.
* EraRAG использует случайно выбранные гиперплоскости для проецирования этих векторов в двоичные хеш-коды — процесс, который группирует семантически похожие фрагменты в один «сегмент».
* Этот подход на основе LSH поддерживает как семантическую согласованность, так и эффективную группировку.
2. Иерархическая, многоуровневая конструкция графа:
* Основная структура поиска в EraRAG — это многоуровневый граф.
* На каждом уровне сегменты (или сегменты) аналогичного текста суммируются с использованием языковой модели.
* Слишком большие сегменты разделяются, а слишком маленькие — объединяются, обеспечивая как семантическую согласованность, так и сбалансированную детализацию.
* Суммарные представления на более высоких уровнях обеспечивают эффективный поиск как для детальных, так и для абстрактных запросов.
3. Инкрементальные, локализованные обновления:
* Когда появляются новые данные, их встраивание хешируется с использованием исходных гиперплоскостей, что обеспечивает согласованность с первоначальной конструкцией графа.
* Обновляются, объединяются, разделяются или повторно суммируются только те сегменты/сегменты, которые непосредственно затронуты новыми записями, в то время как остальная часть графа остаётся нетронутой.
* Обновление распространяется вверх по иерархии графа, но всегда остаётся локализованным в затронутом регионе, что позволяет значительно сократить вычисления и затраты на токены.
4. Воспроизводимость и детерминизм:
* В отличие от стандартного LSH-кластеринга, EraRAG сохраняет набор гиперплоскостей, используемых во время первоначального хеширования.
* Это делает назначение сегментов детерминированным и воспроизводимым, что имеет решающее значение для последовательных и эффективных обновлений с течением времени.
Производительность и влияние
Комплексные эксперименты на различных бенчмарках по ответам на вопросы демонстрируют, что EraRAG:
* Снижает затраты на обновление: достигает до 95% сокращения времени реконструкции графа и использования токенов по сравнению с ведущими методами RAG на основе графов (например, GraphRAG, RAPTOR, HippoRAG).
* Поддерживает высокую точность: EraRAG последовательно превосходит другие архитектуры поиска как по точности, так и по полноте — в задачах статического, растущего и абстрактного ответа на вопросы — с минимальными компромиссами в качестве поиска или возможностях многоуровневого рассуждения.
* Поддерживает универсальные потребности в запросах: многоуровневая конструкция графа позволяет EraRAG эффективно извлекать детальные фактические данные или высокоуровневые семантические сводки, адаптируя свой шаблон поиска к характеру каждого запроса.
Практические последствия
EraRAG предлагает масштабируемую и надёжную систему поиска, идеально подходящую для реальных условий, когда данные постоянно добавляются — например, в живых новостях, научных архивах или на платформах, управляемых пользователями. Он обеспечивает баланс между эффективностью поиска и адаптивностью, делая приложения, поддерживаемые LLM, более фактологичными, оперативными и заслуживающими доверия в быстро меняющихся условиях.
1. Какие проблемы больших языковых моделей решает система EraRAG?
Система EraRAG решает проблемы больших языковых моделей (LLMs), связанные с работой с актуальными фактами, специфической информацией и сложными многоуровневыми рассуждениями. Она позволяет устранить пробелы, позволяя LLM извлекать и интегрировать информацию из внешних источников.
2. В чём заключается инновационность подхода EraRAG по сравнению с другими системами RAG на основе графов?
EraRAG использует локализованные, выборочные обновления, которые затрагивают только те части поискового графа, которые были затронуты изменениями. Это позволяет системе эффективно работать с динамическими, постоянно расширяющимися корпусами данных, в отличие от большинства существующих систем RAG на основе графов, которые оптимизированы для статических корпусов и испытывают трудности с масштабируемостью.
3. Какие основные особенности системы EraRAG обеспечивают её эффективность и масштабируемость?
Основные особенности EraRAG включают:
* Гиперплоскостное локально-чувствительное хеширование (LSH), которое поддерживает семантическую согласованность и эффективную группировку текстовых фрагментов.
* Иерархическая, многоуровневая конструкция графа, которая обеспечивает как семантическую согласованность, так и сбалансированную детализацию.
* Инкрементальные, локализованные обновления, которые сокращают вычисления и затраты на токены.
* Воспроизводимость и детерминизм, которые делают назначение сегментов детерминированным и воспроизводимым.
4. Какие преимущества демонстрирует EraRAG по сравнению с другими архитектурами поиска?
EraRAG демонстрирует следующие преимущества по сравнению с другими архитектурами поиска:
* Снижение затрат на обновление до 95% по сравнению с ведущими методами RAG на основе графов.
* Поддержание высокой точности как по точности, так и по полноте в задачах статического, растущего и абстрактного ответа на вопросы.
* Поддержка универсальных потребностей в запросах благодаря многоуровневой конструкции графа.