AmbiGraph-Eval: эталон для разрешения неоднозначности при генерации запросов к графам

Семантический синтаксический анализ преобразует естественный язык в формальные языки запросов, такие как SQL или Cypher, позволяя пользователям более интуитивно взаимодействовать с базами данных. Однако естественный язык по своей природе неоднозначен, часто допускает множество допустимых интерпретаций, в то время как языки запросов требуют точности.

Хотя неоднозначность в табличных запросах изучена, графовые базы данных представляют собой сложную задачу из-за их взаимосвязанных структур. Запросы на естественном языке к узлам и отношениям графа часто допускают множество интерпретаций из-за структурного богатства и разнообразия графовых данных. Например, запрос «best evaluated restaurant» может варьироваться в зависимости от того, учитываются ли индивидуальные рейтинги или агрегированные оценки.

Неоднозначности в интерактивных системах представляют серьёзные риски, поскольку сбои в семантическом синтаксическом анализе могут привести к тому, что запросы будут отклоняться от намерений пользователя. Такие ошибки могут привести к ненужному извлечению данных и вычислениям, трате времени и ресурсов. В ситуациях, связанных с высокими ставками, например, при принятии решений в реальном времени, эти проблемы могут снизить производительность, увеличить операционные расходы и уменьшить эффективность.

Решение проблемы неоднозначности при генерации запросов к графам

Исследователи из Гонконгского баптистского университета, Национального университета Сингапура, BIFOLD & TU Berlin и Ant Group предлагают метод решения проблемы неоднозначности при генерации запросов к графам.

Концепция неоднозначности в запросах к графовым базам данных разработана с разделением на три типа:
* атрибутная;
* реляционная;
* атрибутно-реляционная неоднозначность.

Исследователи представили AmbiGraph-Eval — эталон, содержащий 560 неоднозначных запросов и соответствующие образцы графовых баз данных для оценки производительности моделей. Он тестирует девять языковых моделей на основе искусственного интеллекта (LLM), анализируя их способность разрешать неоднозначности и выявляя области для улучшения.

Исследование показывает, что возможности рассуждения предоставляют ограниченное преимущество, подчёркивая важность понимания неоднозначности в графах и овладения синтаксисом запросов.

Структура AmbiGraph-Eval

Эталон AmbiGraph-Eval предназначен для оценки способности LLM генерировать синтаксически правильные и семантически адекватные запросы к графам, такие как Cypher, на основе неоднозначных входных данных на естественном языке.

Набор данных создан в два этапа: сбор данных и проверка человеком. Неоднозначные запросы получены тремя методами, включая:
* прямую выборку из графовых баз данных;
* синтез из однозначных данных с использованием LLM;
* полную генерацию путём побуждения LLM создавать новые случаи.

Для оценки производительности исследователи протестировали четыре LLM с закрытым исходным кодом (например, GPT-4, Claude-3.5-Sonnet) и четыре LLM с открытым исходным кодом (например, Qwen-2.5, LLaMA-3.1). Оценки проводились через API-вызовы или с использованием 4x NVIDIA A40 GPU.

Результаты оценки

Оценка производительности в нулевой точке на эталоне AmbiGraph-Eval показывает различия между моделями в разрешении неоднозначности графовых данных. В задачах атрибутной неоднозначности O1-mini превосходит в сценариях с одинаковыми сущностями (SE), а GPT-4o и LLaMA-3.1 показывают хорошие результаты. Однако GPT-4o превосходит другие модели в задачах с разными сущностями (CE), демонстрируя превосходное рассуждение между сущностями.

Для реляционной неоднозначности лидирует LLaMA-3.1, в то время как GPT-4o показывает ограничения в SE-задачах, но превосходит в CE-задачах. Атрибутно-реляционная неоднозначность оказывается наиболее сложной, при этом LLaMA-3.1 показывает лучшие результаты в SE-задачах, а GPT-4o доминирует в CE-задачах.

В целом модели больше всего сталкиваются с трудностями при работе с многомерными неоднозначными ситуациями по сравнению с изолированными атрибутными или реляционными неоднозначностями.

В заключение исследователи представили AmbiGraph-Eval — эталон для оценки способности LLM разрешать неоднозначность в запросах к графовым базам данных. Оценка девяти моделей выявила значительные проблемы в генерации точных инструкций на языке Cypher, при этом сильные навыки рассуждения приносят лишь ограниченную пользу.

Основные проблемы включают:
* распознавание неоднозначного намерения;
* генерацию правильного синтаксиса;
* интерпретацию графовых структур;
* выполнение числовых агрегаций.

Обнаружение неоднозначности и генерация синтаксиса стали основными узкими местами, препятствующими повышению производительности. Для решения этих проблем будущие исследования должны улучшить способность моделей разрешать неоднозначность и обрабатывать синтаксис с помощью таких методов, как синтаксическое побуждение и явное указание на неоднозначность.

1. Какие типы неоднозначности в запросах к графовым базам данных выделяют исследователи?

Исследователи выделяют три типа неоднозначности в запросах к графовым базам данных: атрибутная, реляционная и атрибутно-реляционная неоднозначность.

2. Для чего предназначен эталон AmbiGraph-Eval?

AmbiGraph-Eval предназначен для оценки способности языковых моделей на основе искусственного интеллекта (LLM) генерировать синтаксически правильные и семантически адекватные запросы к графам, такие как Cypher, на основе неоднозначных входных данных на естественном языке.

3. Какие методы использовались для получения неоднозначных запросов при создании набора данных AmbiGraph-Eval?

Неоднозначные запросы были получены тремя методами: прямая выборка из графовых баз данных, синтез из однозначных данных с использованием LLM и полная генерация путём побуждения LLM создавать новые случаи.

4. Какие языковые модели были протестированы на эталоне AmbiGraph-Eval?

На эталоне AmbiGraph-Eval были протестированы четыре LLM с закрытым исходным кодом (например, GPT-4, Claude-3.5-Sonnet) и четыре LLM с открытым исходным кодом (например, Qwen-2.5, LLaMA-3.1).

5. Какие основные проблемы были выявлены при оценке производительности языковых моделей на эталоне AmbiGraph-Eval?

Основные проблемы включают распознавание неоднозначного намерения, генерацию правильного синтаксиса, интерпретацию графовых структур и выполнение числовых агрегаций. Обнаружение неоднозначности и генерация синтаксиса стали основными узкими местами, препятствующими повышению производительности.

Источник