Семантический синтаксический анализ преобразует естественный язык в формальные языки запросов, такие как SQL или Cypher, позволяя пользователям более интуитивно взаимодействовать с базами данных. Однако естественный язык по своей природе неоднозначен, часто допускает множество допустимых интерпретаций, в то время как языки запросов требуют точности.
Хотя неоднозначность в табличных запросах изучена, графовые базы данных представляют собой сложную задачу из-за их взаимосвязанных структур. Запросы на естественном языке к узлам и отношениям графа часто допускают множество интерпретаций из-за структурного богатства и разнообразия графовых данных. Например, запрос «best evaluated restaurant» может варьироваться в зависимости от того, учитываются ли индивидуальные рейтинги или агрегированные оценки.
Неоднозначности в интерактивных системах представляют серьёзные риски, поскольку сбои в семантическом синтаксическом анализе могут привести к тому, что запросы будут отклоняться от намерений пользователя. Такие ошибки могут привести к ненужному извлечению данных и вычислениям, трате времени и ресурсов. В ситуациях, связанных с высокими ставками, например, при принятии решений в реальном времени, эти проблемы могут снизить производительность, увеличить операционные расходы и уменьшить эффективность.
Решение проблемы неоднозначности при генерации запросов к графам
Исследователи из Гонконгского баптистского университета, Национального университета Сингапура, BIFOLD & TU Berlin и Ant Group предлагают метод решения проблемы неоднозначности при генерации запросов к графам.
Концепция неоднозначности в запросах к графовым базам данных разработана с разделением на три типа:
* атрибутная;
* реляционная;
* атрибутно-реляционная неоднозначность.
Исследователи представили AmbiGraph-Eval — эталон, содержащий 560 неоднозначных запросов и соответствующие образцы графовых баз данных для оценки производительности моделей. Он тестирует девять языковых моделей на основе искусственного интеллекта (LLM), анализируя их способность разрешать неоднозначности и выявляя области для улучшения.
Исследование показывает, что возможности рассуждения предоставляют ограниченное преимущество, подчёркивая важность понимания неоднозначности в графах и овладения синтаксисом запросов.
Структура AmbiGraph-Eval
Эталон AmbiGraph-Eval предназначен для оценки способности LLM генерировать синтаксически правильные и семантически адекватные запросы к графам, такие как Cypher, на основе неоднозначных входных данных на естественном языке.
Набор данных создан в два этапа: сбор данных и проверка человеком. Неоднозначные запросы получены тремя методами, включая:
* прямую выборку из графовых баз данных;
* синтез из однозначных данных с использованием LLM;
* полную генерацию путём побуждения LLM создавать новые случаи.
Для оценки производительности исследователи протестировали четыре LLM с закрытым исходным кодом (например, GPT-4, Claude-3.5-Sonnet) и четыре LLM с открытым исходным кодом (например, Qwen-2.5, LLaMA-3.1). Оценки проводились через API-вызовы или с использованием 4x NVIDIA A40 GPU.
Результаты оценки
Оценка производительности в нулевой точке на эталоне AmbiGraph-Eval показывает различия между моделями в разрешении неоднозначности графовых данных. В задачах атрибутной неоднозначности O1-mini превосходит в сценариях с одинаковыми сущностями (SE), а GPT-4o и LLaMA-3.1 показывают хорошие результаты. Однако GPT-4o превосходит другие модели в задачах с разными сущностями (CE), демонстрируя превосходное рассуждение между сущностями.
Для реляционной неоднозначности лидирует LLaMA-3.1, в то время как GPT-4o показывает ограничения в SE-задачах, но превосходит в CE-задачах. Атрибутно-реляционная неоднозначность оказывается наиболее сложной, при этом LLaMA-3.1 показывает лучшие результаты в SE-задачах, а GPT-4o доминирует в CE-задачах.
В целом модели больше всего сталкиваются с трудностями при работе с многомерными неоднозначными ситуациями по сравнению с изолированными атрибутными или реляционными неоднозначностями.
В заключение исследователи представили AmbiGraph-Eval — эталон для оценки способности LLM разрешать неоднозначность в запросах к графовым базам данных. Оценка девяти моделей выявила значительные проблемы в генерации точных инструкций на языке Cypher, при этом сильные навыки рассуждения приносят лишь ограниченную пользу.
Основные проблемы включают:
* распознавание неоднозначного намерения;
* генерацию правильного синтаксиса;
* интерпретацию графовых структур;
* выполнение числовых агрегаций.
Обнаружение неоднозначности и генерация синтаксиса стали основными узкими местами, препятствующими повышению производительности. Для решения этих проблем будущие исследования должны улучшить способность моделей разрешать неоднозначность и обрабатывать синтаксис с помощью таких методов, как синтаксическое побуждение и явное указание на неоднозначность.
1. Какие типы неоднозначности в запросах к графовым базам данных выделяют исследователи?
Исследователи выделяют три типа неоднозначности в запросах к графовым базам данных: атрибутная, реляционная и атрибутно-реляционная неоднозначность.
2. Для чего предназначен эталон AmbiGraph-Eval?
AmbiGraph-Eval предназначен для оценки способности языковых моделей на основе искусственного интеллекта (LLM) генерировать синтаксически правильные и семантически адекватные запросы к графам, такие как Cypher, на основе неоднозначных входных данных на естественном языке.
3. Какие методы использовались для получения неоднозначных запросов при создании набора данных AmbiGraph-Eval?
Неоднозначные запросы были получены тремя методами: прямая выборка из графовых баз данных, синтез из однозначных данных с использованием LLM и полная генерация путём побуждения LLM создавать новые случаи.
4. Какие языковые модели были протестированы на эталоне AmbiGraph-Eval?
На эталоне AmbiGraph-Eval были протестированы четыре LLM с закрытым исходным кодом (например, GPT-4, Claude-3.5-Sonnet) и четыре LLM с открытым исходным кодом (например, Qwen-2.5, LLaMA-3.1).
5. Какие основные проблемы были выявлены при оценке производительности языковых моделей на эталоне AmbiGraph-Eval?
Основные проблемы включают распознавание неоднозначного намерения, генерацию правильного синтаксиса, интерпретацию графовых структур и выполнение числовых агрегаций. Обнаружение неоднозначности и генерация синтаксиса стали основными узкими местами, препятствующими повышению производительности.