В статье представлен TableRAG: гибридная система для извлечения SQL и текста для ответов на вопросы с несколькими переходами по разнородным документам

Обработка вопросов, которые включают как естественный язык, так и структурированные таблицы, стала важной задачей при создании более интеллектуальных и полезных систем искусственного интеллекта (ИИ). Такие системы часто должны обрабатывать контент, включающий различные типы данных, например, текст с числовыми таблицами, которые часто встречаются в деловых документах, научных статьях и публичных отчётах.

Понимание таких документов требует от ИИ выполнения рассуждений, охватывающих как текстовые объяснения, так и детали, основанные на таблицах — процесс, который по своей сути сложнее, чем традиционные ответы на вопросы на основе текста.

Основные проблемы

Одной из основных проблем в этой области является то, что текущие языковые модели часто не могут точно интерпретировать документы, когда задействованы таблицы. Модели склонны терять связи между строками и столбцами, когда таблицы преобразуются в простой текст. Это искажает основную структуру данных и снижает точность ответов, особенно когда задача включает вычисления, агрегацию или рассуждения, связывающие несколько фактов в документе.

Такие ограничения затрудняют использование стандартных систем для практических задач по ответам на вопросы с несколькими переходами, требующих понимания как текста, так и таблиц.

Предыдущие методы

Для решения этих проблем были предприняты попытки применить методы Retrieval-Augmented Generation (RAG). Они включают извлечение сегментов текста и передачу их в языковую модель для генерации ответов. Однако эти методы недостаточны для задач, требующих композиционного или глобального рассуждения на больших наборах табличных данных.

Инструменты, такие как NaiveRAG и TableGPT2, пытаются имитировать этот процесс, преобразуя таблицы в формат Markdown или генерируя код на Python. Однако эти методы всё ещё сталкиваются с трудностями при выполнении задач, где сохранение исходной структуры таблицы необходимо для правильной интерпретации.

TableRAG

Исследователи из Huawei Cloud BU предложили метод под названием TableRAG, который напрямую решает эти ограничения. TableRAG представлен как гибридная система, которая чередуется между извлечением текстовых данных и структурированным выполнением на основе SQL. Этот подход сохраняет табличную компоновку и рассматривает запросы на основе таблиц как единую единицу рассуждения.

Система функционирует в два основных этапа:

1. Оффлайновый этап включает в себя анализ разнородных документов в структурированные базы данных путём раздельного извлечения таблиц и текстового содержимого. Они хранятся в параллельных корпусах — реляционной базе данных для таблиц и фрагментированной базе знаний для текста.

2. Онлайн-этап обрабатывает вопросы пользователя через итеративный четырёхэтапный процесс: декомпозиция запроса, извлечение текста, программирование и выполнение SQL, а также генерация промежуточных ответов.

Когда поступает вопрос, система определяет, требует ли он табличного или текстового рассуждения, динамически выбирает соответствующую стратегию и объединяет выходные данные. SQL используется для точного символьного выполнения, что обеспечивает лучшую производительность в численных и логических вычислениях.

Эксперименты

TableRAG был протестирован на нескольких бенчмарках, включая HybridQA, WikiTableQuestions и недавно созданный HeteQA. HeteQA состоит из 304 сложных вопросов по девяти различным областям и включает 136 уникальных таблиц, а также более 5 300 сущностей, полученных из Википедии. Набор данных ставит перед моделями такие задачи, как фильтрация, агрегация, группировка, вычисление и сортировка.

TableRAG превзошёл все базовые методы, включая NaiveRAG, React и TableGPT2. Он достиг стабильно более высокой точности благодаря рассуждению на уровне документа, поддерживаемому до 5 итеративными шагами, и использовал такие модели, как Claude-3.5-Sonnet и Qwen-2.5-72B, для проверки результатов.

Работа представила надёжное и хорошо структурированное решение для задачи рассуждения над документами в смешанном формате. Сохраняя структурную целостность и применяя SQL для операций со структурированными данными, исследователи продемонстрировали эффективную альтернативу существующим системам, основанным на извлечении.

TableRAG представляет собой значительный шаг вперёд в системах ответов на вопросы, которые обрабатывают документы, содержащие как таблицы, так и текст, предлагая жизнеспособный метод для более точного, масштабируемого и интерпретируемого понимания документов.

1. Какие проблемы существуют при обработке вопросов, включающих естественный язык и структурированные таблицы?

В статье отмечается, что текущие языковые модели часто не могут точно интерпретировать документы, когда задействованы таблицы. Они склонны терять связи между строками и столбцами, что искажает основную структуру данных и снижает точность ответов, особенно при вычислениях, агрегации или рассуждениях, связывающих несколько фактов в документе.

2. Какие методы были предприняты для решения проблем при обработке вопросов с таблицами?

В статье упоминаются методы Retrieval-Augmented Generation (RAG), которые включают извлечение сегментов текста и передачу их в языковую модель для генерации ответов. Однако эти методы недостаточны для задач, требующих композиционного или глобального рассуждения на больших наборах табличных данных. Также упоминаются инструменты, такие как NaiveRAG и TableGPT2, которые пытаются имитировать этот процесс, преобразуя таблицы в формат Markdown или генерируя код на Python.

3. Какие преимущества предлагает метод TableRAG по сравнению с предыдущими методами?

TableRAG представляет собой гибридную систему, которая чередуется между извлечением текстовых данных и структурированным выполнением на основе SQL. Этот подход сохраняет табличную компоновку и рассматривает запросы на основе таблиц как единую единицу рассуждения. TableRAG достиг стабильно более высокой точности благодаря рассуждению на уровне документа, поддерживаемому до 5 итеративными шагами, и использовал такие модели, как Claude-3.5-Sonnet и Qwen-2.5-72B, для проверки результатов.

4. Какие этапы включает в себя работа системы TableRAG?

Система TableRAG функционирует в два основных этапа:
* Оффлайновый этап включает в себя анализ разнородных документов в структурированные базы данных путём раздельного извлечения таблиц и текстового содержимого. Они хранятся в параллельных корпусах — реляционной базе данных для таблиц и фрагментированной базе знаний для текста.
* Онлайн-этап обрабатывает вопросы пользователя через итеративный четырёхэтапный процесс: декомпозиция запроса, извлечение текста, программирование и выполнение SQL, а также генерация промежуточных ответов.

5. Какие эксперименты были проведены для тестирования TableRAG?

TableRAG был протестирован на нескольких бенчмарках, включая HybridQA, WikiTableQuestions и недавно созданный HeteQA. HeteQA состоит из 304 сложных вопросов по девяти различным областям и включает 136 уникальных таблиц, а также более 5 300 сущностей, полученных из Википедии. Набор данных ставит перед моделями такие задачи, как фильтрация, агрегация, группировка, вычисление и сортировка. TableRAG превзошёл все базовые методы, включая NaiveRAG, React и TableGPT2.

Источник

Оставьте комментарий