Vision-RAG vs Text-RAG: техническое сравнение для корпоративного поиска

Основные причины сбоев RAG

Большинство сбоев RAG происходят на этапе извлечения, а не генерации. В текстовых конвейерах (Text-first pipelines) теряется семантика макета, структура таблиц и связь текста с изображениями при преобразовании PDF→text, что снижает точность и полноту до запуска LLM. Vision-RAG — извлечение визуализированных страниц с помощью встраиваний языка и изображений — напрямую нацелено на это узкое место и демонстрирует существенные улучшения в визуально насыщенных корпусах.

Конвейеры (и их слабые места)

Text-RAG

  • PDF → (парсер/OCR) → текстовые фрагменты → текстовые вложения → индекс ANN → извлечение → LLM.

  • Типичные сбои: шум OCR, нарушение многоколоночного потока, потеря структуры таблиц, отсутствие семантики рисунков/диаграмм.

Vision-RAG

  • PDF → растр страницы → вложения VLM (часто мультивекторные с поздним взаимодействием) → индекс ANN → извлечение → VLM/LLM потребляет высококачественные фрагменты или полные страницы.

  • Это сохраняет макет и связь текста с изображениями; недавние системы (ColPali, VisRAG, VDocRAG) подтверждают этот подход.

Что подтверждают текущие данные

  • Извлечение документов с изображениями работает и проще. ColPali встраивает изображения страниц и использует сопоставление с поздним взаимодействием; на бенчмарке ViDoRe он превосходит современные текстовые конвейеры, оставаясь при этом обучаемым.

  • Улучшение на уровне «от конца до конца» измеримо. VisRAG сообщает о повышении эффективности на 25–39% по сравнению с Text-RAG при работе с мультимодальными документами, когда и извлечение, и генерация основаны на VLM.

  • Унифицированный формат изображений для документов в реальном мире. VDocRAG показывает, что сохранение документов в унифицированном формате изображений (таблицы, диаграммы, PPT/PDF) позволяет избежать потерь при парсинге и улучшает обобщение.

  • Разрешение влияет на качество рассуждений. Поддержка высокого разрешения в VLM (например, Qwen2-VL/Qwen2.5-VL) напрямую связана с результатами SoTA на DocVQA/MathVista/MTVQA; точность важна для галочки, надстрочных знаков, штампов и мелкого шрифта.

Стоимость

  • Визуальный контекст (часто) на порядок тяжелее из-за токенов. Входные данные для Vision увеличивают количество токенов за счёт разбиения на плитки, а не обязательно из-за цены за токен. Для моделей класса GPT-4o общее количество токенов ≈ base + (tile_tokens × tiles), поэтому страницы размером 1–2 МП могут стоить примерно в 10 раз дороже, чем небольшой текстовый фрагмент. Anthropic рекомендует ограничить размер изображения примерно 1,15 МП (~1,6 тыс. токенов) для обеспечения быстрой реакции.

Правила проектирования для производственного Vision-RAG

  • Согласование модальностей во вложениях. Используйте энкодеры, обученные для выравнивания текста и изображений (семейство CLIP или поисковые системы VLM), и на практике используйте двойной индекс: дешёвый текстовый поиск для охвата + визуальный повтор для точности.

  • Подача высококачественных входных данных выборочно. От грубо-к-точному: запустите BM25/DPR, возьмите верхние страницы k для визуального повторной сортировки, затем отправьте только фрагменты ROI (таблицы, диаграммы, штампы) в генератор.

Инженерное дело для реальных документов

  • Таблицы: если вы должны анализировать, используйте модели структуры таблиц (например, PubTables-1M/TATR); в противном случае предпочтите извлечение на основе изображений.

  • Диаграммы: ожидайте наличие подсказок на уровне галочки и легенды; разрешение должно сохранять их.

  • Белые доски/вращения/многоязычность: рендеринг страницы позволяет избежать многих режимов сбоев OCR; многоязычные скрипты и повёрнутые сканы проходят через конвейер.

Выводы

  • Text-RAG остаётся эффективным для чистых, текстовых данных.

  • Vision-RAG является практическим стандартом для корпоративных документов с макетом, таблицами, диаграммами, штампами, сканами и многоязычной типографикой.

  • Команды, которые (1) согласовывают модальности, (2) предоставляют выборочные высококачественные визуальные доказательства и (3) оценивают с помощью мультимодальных тестов, последовательно получают более высокую точность извлечения и более качественные ответы ниже по потоку.

1. В чём заключается основная проблема текстовых конвейеров (Text-RAG) при обработке документов с изображениями?

Основная проблема текстовых конвейеров (Text-RAG) заключается в потере семантики макета, структуры таблиц и связи текста с изображениями при преобразовании PDF→text. Это снижает точность и полноту до запуска LLM.

2. Какие преимущества предлагает Vision-RAG по сравнению с Text-RAG при работе с визуально насыщенными документами?

Vision-RAG предлагает существенные улучшения в обработке визуально насыщенных документов за счёт прямого извлечения визуализированных страниц с помощью встраиваний языка и изображений. Это позволяет сохранить макет и связь текста с изображениями, что повышает точность и полноту извлечения информации.

3. Какие данные подтверждают эффективность подхода Vision-RAG?

Текущие данные подтверждают эффективность подхода Vision-RAG через несколько ключевых наблюдений:
* Извлечение документов с изображениями работает и проще.
* Улучшение на уровне «от конца до конца» измеримо. VisRAG сообщает о повышении эффективности на 25–39% по сравнению с Text-RAG при работе с мультимодальными документами.
* Унифицированный формат изображений для документов в реальном мире улучшает обобщение и позволяет избежать потерь при парсинге.

4. Почему поддержка высокого разрешения в VLM важна для качества рассуждений?

Поддержка высокого разрешения в VLM важна для качества рассуждений, поскольку это напрямую связано с результатами на задачах DocVQA/MathVista/MTVQA. Высокое разрешение позволяет сохранить мелкие детали, такие как галочки, надстрочные знаки, штампы и мелкий шрифт, что важно для точности и полноты извлечения информации.

5. Какие рекомендации даются для проектирования производственного Vision-RAG?

Для проектирования производственного Vision-RAG рекомендуется:
* Согласовывать модальности во вложениях, используя энкодеры, обученные для выравнивания текста и изображений.
* Подавать высококачественные входные данные выборочно, запуская BM25/DPR, беря верхние страницы k для визуального повторной сортировки, затем отправляя только фрагменты ROI (таблицы, диаграммы, штампы) в генератор.
* Использовать модели структуры таблиц для анализа таблиц и предпочтение извлечения на основе изображений для анализа таблиц, а для диаграмм ожидать наличие подсказок на уровне галочки и легенды и сохранять разрешение, чтобы сохранить их.

Источник