Graph-R1: агентская система GraphRAG для структурированных многоэтапных рассуждений с использованием обучения с подкреплением

Введение

Большие языковые модели (LLM) установили новые стандарты в обработке естественного языка, но их склонность к галлюцинациям — генерации неточных результатов — остаётся серьёзной проблемой для приложений, требующих глубоких знаний.

Системы генерации с дополнением на основе поиска (RAG) пытаются решить эту проблему, включая внешние знания в генерацию языка. Однако традиционные подходы RAG основаны на фрагментарном поиске, что ограничивает их способность представлять сложные семантические отношения.

Методы RAG на основе графов сущностей и отношений (GraphRAG) устраняют некоторые структурные ограничения, но всё ещё сталкиваются с высокой стоимостью построения, негибкостью однократного поиска и зависимостью от рассуждений в длинном контексте и тщательно разработанных подсказок.

Исследователи из Технологического университета Наньяна, Национального университета Сингапура, Пекинского института компьютерных технологий и применения и больницы Beijing Anzhen представили Graph-R1 — агентскую систему GraphRAG, основанную на сквозном обучении с подкреплением.

Основные инновации Graph-R1

1. Лёгковесное построение гиперграфа знаний.

Graph-R1 строит знания в виде гиперграфа, где каждый сегмент знаний извлекается с помощью LLM-управляемого извлечения n-арных отношений. Этот подход кодирует более богатые и семантически обоснованные отношения, повышая возможности агентских рассуждений, сохраняя при этом управляемую стоимость и вычислительные требования.

Эффективность: всего 5,69 с и 2,81 доллара за 1000 токенов при построении (против 3,35 доллара за GraphRAG и 4,14 доллара за HyperGraphRAG), при этом создаются семантически богатые графы с 120 499 узлами и 98 073 рёбрами.

2. Многоэтапный агентский процесс поиска.

Graph-R1 моделирует поиск как цикл взаимодействия с несколькими этапами («подумай — найди — переосмысли — сгенерируй»), позволяя агенту адаптивно запрашивать и уточнять свой путь поиска знаний, в отличие от предыдущих методов, использующих однократный поиск.

Динамическое рассуждение: агент решает на каждом шаге, продолжать ли исследование или завершить поиск ответа. Извлечение на основе сущностей и прямое извлечение гиперребра объединяются посредством взаимной агрегации рангов, повышая шансы на извлечение наиболее релевантных знаний.

3. Сквозная оптимизация обучения с подкреплением.

Graph-R1 использует групповую относительную оптимизацию политики (GRPO) для сквозного RL, интегрируя вознаграждения за соответствие формату, релевантность и правильность ответов. Этот унифицированный механизм вознаграждения побуждает агентов разрабатывать обобщаемые стратегии рассуждений, тесно согласованные как со структурой знаний, так и с качеством вывода.

Механизм вознаграждения, ориентированный на результат: сочетает вознаграждения за формат (структурную согласованность) и вознаграждения за ответы (семантическую точность) для эффективной оптимизации, вознаграждая только ответы, встроенные в структурно допустимые траектории рассуждений.

Ключевые выводы

Бенчмаркинг по задачам RAG QA

Graph-R1 был оценён на шести стандартных наборах данных QA (2WikiMultiHopQA, HotpotQA, Musique, Natural Questions, PopQA, TriviaQA).

| Метод | Средний F1 (Qwen2.5-7B) |
| — | — |
| NaiveGeneration | 13,87 |
| StandardRAG | 15,89 |
| GraphRAG | 24,87 |
| HyperGraphRAG | 29,40 |
| Search-R1 | 46,19 |
| R1-Searcher | 42,29 |
| Graph-R1 | 57,82 |

Graph-R1 достигает среднего F1 до 57,82 с Qwen2.5-7B, значительно превосходя все предыдущие базовые показатели. Более крупные базовые модели усиливают его прирост производительности.

Анализ удаления компонентов

Компонентный анализ демонстрирует, что удаление построения гиперграфа, многоэтапных рассуждений или оптимизации RL резко снижает производительность, подтверждая необходимость каждого модуля в Graph-R1.

Извлечение и эффективность

Извлечение Graph-R1 более лаконично и эффективно. Он достигает высоких показателей F1 при умеренной средней длине контента (~1200–1500 токенов на обмен) и поддерживает большее количество интерактивных ходов (в среднем 2,3–2,5), что способствует стабильному и точному извлечению знаний.

Стоимость генерации минимальна: несмотря на более богатое представление, время отклика Graph-R1 на запрос (7,0 с) и стоимость запроса ($0) превосходят показатели конкурентов на основе графов, таких как HyperGraphRAG (9,6 с, 8,76 доллара).

Качество генерации

Качество генерации Graph-R1 оценивается по семи параметрам — полнота, осведомлённость, правильность, релевантность, разнообразие, логическая согласованность, фактичность — и последовательно превосходит все RL-базированные и графовые базовые показатели, достигая высших баллов по правильности (86,9), релевантности (95,2) и согласованности (88,5).

Обобщаемость

Перекрёстная проверка в условиях отсутствия распределения (O.O.D.) показывает, что Graph-R1 сохраняет устойчивую производительность в разных наборах данных, при этом соотношения O.O.D./I.I.D. часто превышают 85%, демонстрируя сильные свойства обобщения домена.

Теоретические гарантии

Graph-R1 поддерживается информационно-теоретическим анализом:

* Структурированные знания обеспечивают более высокую информационную плотность на извлечение и более быструю сходимость к правильным ответам по сравнению с фрагментарным поиском.
* Многоэтапное взаимодействие позволяет агенту достичь более высокой эффективности поиска за счёт динамической фокусировки на наиболее важных областях графа.
* Сквозная оптимизация RL объединяет структурированные доказательства и генерацию языка, снижая энтропию выходных данных и уровень ошибок.

Алгоритмический рабочий процесс (на высоком уровне)

* Извлечение гиперграфа знаний: LLM извлекает n-арные отношения для построения наборов сущностей и гиперребер.
* Многоэтапные агентские рассуждения: агент чередует рефлексивное мышление, запросы, поиск по гиперграфу (двойные пути поиска сущностей и гиперребер) и синтез.
* Оптимизация GRPO: политика RL обновляется с использованием выборочных траекторий и нормализации вознаграждений, обеспечивая структуру и правильность ответов.

Заключение

Graph-R1 демонстрирует, что интеграция гиперграфового представления знаний, агентских многоэтапных рассуждений и сквозного RL обеспечивает беспрецедентный прирост производительности в фактических QA, эффективности поиска и качестве генерации, намечая путь для создания LLM-систем следующего поколения, управляемых знаниями.

Часто задаваемые вопросы

FAQ 1: в чём ключевое новшество Graph-R1 по сравнению с более ранними системами GraphRAG и RAG?

Graph-R1 представляет собой агентскую систему, в которой поиск моделируется как многоэтапное взаимодействие, а не как однократный процесс. Его основные инновации:

* Гиперграфовое представление знаний: вместо простых графов сущностей и отношений или текстовых фрагментов Graph-R1 создаёт семантический гиперграф, который позволяет более выразительно представлять n-арные отношения между сущностями.
* Многоэтапный цикл рассуждений: агент работает в повторяющихся циклах «подумай — найди — переосмысли — сгенерируй» по гиперграфу, динамически фокусируя запросы, а не извлекая всё сразу.
* Сквозное обучение с подкреплением (RL): агент обучается с помощью функции вознаграждения, которая одновременно оптимизирует пошаговые логические рассуждения и правильность окончательного ответа, обеспечивая более тесное согласование между структурированными знаниями и ответами на естественном языке.

FAQ 2: насколько эффективность поиска и генерации Graph-R1 сравнимы с предыдущими методами?

Graph-R1 значительно более эффективен и результативен как в поиске, так и в генерации ответов:

* Более низкая стоимость построения и поиска: для построения гиперграфа знаний Graph-R1 требуется всего 5,69 секунды и 2,81 доллара за 1000 токенов (на наборе данных 2Wiki), что превосходит аналогичные методы на основе графов.
* Более быстрые и дешёвые генерация: время отклика на запросы (в среднем 7 секунд на запрос) и стоимость генерации ($0 на запрос) лучше, чем у предыдущих систем Graph-RAG, таких как HyperGraphRAG.
* Краткость и надёжность: ответы Graph-R1 более лаконичны (обычно 1200–1500 токенов) и более точны благодаря многоэтапному взаимодействию, с передовыми показателями F1 по шести наборам данных QA.

FAQ 3: в каких сценариях или областях наиболее применима система Graph-R1?

Graph-R1 идеально подходит для сложных приложений, требующих глубоких знаний, таких как:

* Здравоохранение и медицинский искусственный интеллект: где многоэтапные рассуждения, отслеживаемость и надёжность имеют важное значение.
* Юридические и регуляторные области: где требуются точные обоснованные ответы и интерпретируемые многоэтапные рассуждения.
* Автоматизация корпоративных знаний: для задач, требующих масштабируемого динамического поиска и извлечения данных из больших массивов документов или данных.

Архитектура модели также позволяет легко адаптировать её к другим областям, которые выиграют от агентского многоэтапного поиска знаний, основанного на структурированных представлениях.

1. Какие преимущества Graph-R1 имеет по сравнению с другими системами GraphRAG и RAG?

Ответ: Graph-R1 имеет несколько ключевых преимуществ. Во-первых, он использует гиперграфовое представление знаний, что позволяет более выразительно представлять n-арные отношения между сущностями. Во-вторых, система моделирует поиск как многоэтапное взаимодействие, а не как однократный процесс, что позволяет агенту динамически фокусировать запросы. В-третьих, Graph-R1 обучается с помощью функции вознаграждения, которая одновременно оптимизирует пошаговые логические рассуждения и правильность окончательного ответа.

2. Какие метрики использовались для оценки производительности Graph-R1?

Ответ: для оценки производительности Graph-R1 использовался средний F1-показатель на шести стандартных наборах данных QA (2WikiMultiHopQA, HotpotQA, Musique, Natural Questions, PopQA, TriviaQA). Также проводился компонентный анализ, демонстрирующий влияние каждого модуля на производительность системы.

3. В каких областях наиболее применима система Graph-R1?

Ответ: Graph-R1 идеально подходит для сложных приложений, требующих глубоких знаний, таких как здравоохранение и медицинский искусственный интеллект, юридические и регуляторные области, а также автоматизация корпоративных знаний. Архитектура модели позволяет легко адаптировать её к другим областям, которые выиграют от агентского многоэтапного поиска знаний, основанного на структурированных представлениях.

4. Какие параметры использовались для оценки качества генерации Graph-R1?

Ответ: качество генерации Graph-R1 оценивалось по семи параметрам: полнота, осведомлённость, правильность, релевантность, разнообразие, логическая согласованность, фактичность. Система последовательно превосходит все RL-базированные и графовые базовые показатели, достигая высших баллов по правильности (86,9), релевантности (95,2) и согласованности (88,5).

5. Какие теоретические гарантии предоставляет Graph-R1?

Ответ: Graph-R1 поддерживается информационно-теоретическим анализом. Структурированные знания обеспечивают более высокую информационную плотность на извлечение и более быструю сходимость к правильным ответам по сравнению с фрагментарным поиском. Многоэтапное взаимодействие позволяет агенту достичь более высокой эффективности поиска за счёт динамической фокусировки на наиболее важных областях графа. Сквозная оптимизация RL объединяет структурированные доказательства и генерацию языка, снижая энтропию выходных данных и уровень ошибок.

Источник