Основные причины сбоев RAG
Большинство сбоев RAG происходят на этапе извлечения, а не генерации. В текстовых конвейерах (Text-first pipelines) теряется семантика макета, структура таблиц и связь текста с изображениями при преобразовании PDF→text, что снижает точность и полноту до запуска LLM. Vision-RAG — извлечение визуализированных страниц с помощью встраиваний языка и изображений — напрямую нацелено на это узкое место и демонстрирует существенные улучшения в визуально насыщенных корпусах.
Конвейеры (и их слабые места)
Text-RAG
- PDF → (парсер/OCR) → текстовые фрагменты → текстовые вложения → индекс ANN → извлечение → LLM.
- Типичные сбои: шум OCR, нарушение многоколоночного потока, потеря структуры таблиц, отсутствие семантики рисунков/диаграмм.
Vision-RAG
- PDF → растр страницы → вложения VLM (часто мультивекторные с поздним взаимодействием) → индекс ANN → извлечение → VLM/LLM потребляет высококачественные фрагменты или полные страницы.
- Это сохраняет макет и связь текста с изображениями; недавние системы (ColPali, VisRAG, VDocRAG) подтверждают этот подход.
Что подтверждают текущие данные
- Извлечение документов с изображениями работает и проще. ColPali встраивает изображения страниц и использует сопоставление с поздним взаимодействием; на бенчмарке ViDoRe он превосходит современные текстовые конвейеры, оставаясь при этом обучаемым.
- Улучшение на уровне «от конца до конца» измеримо. VisRAG сообщает о повышении эффективности на 25–39% по сравнению с Text-RAG при работе с мультимодальными документами, когда и извлечение, и генерация основаны на VLM.
- Унифицированный формат изображений для документов в реальном мире. VDocRAG показывает, что сохранение документов в унифицированном формате изображений (таблицы, диаграммы, PPT/PDF) позволяет избежать потерь при парсинге и улучшает обобщение.
- Разрешение влияет на качество рассуждений. Поддержка высокого разрешения в VLM (например, Qwen2-VL/Qwen2.5-VL) напрямую связана с результатами SoTA на DocVQA/MathVista/MTVQA; точность важна для галочки, надстрочных знаков, штампов и мелкого шрифта.
Стоимость
- Визуальный контекст (часто) на порядок тяжелее из-за токенов. Входные данные для Vision увеличивают количество токенов за счёт разбиения на плитки, а не обязательно из-за цены за токен. Для моделей класса GPT-4o общее количество токенов ≈ base + (tile_tokens × tiles), поэтому страницы размером 1–2 МП могут стоить примерно в 10 раз дороже, чем небольшой текстовый фрагмент. Anthropic рекомендует ограничить размер изображения примерно 1,15 МП (~1,6 тыс. токенов) для обеспечения быстрой реакции.
Правила проектирования для производственного Vision-RAG
- Согласование модальностей во вложениях. Используйте энкодеры, обученные для выравнивания текста и изображений (семейство CLIP или поисковые системы VLM), и на практике используйте двойной индекс: дешёвый текстовый поиск для охвата + визуальный повтор для точности.
- Подача высококачественных входных данных выборочно. От грубо-к-точному: запустите BM25/DPR, возьмите верхние страницы k для визуального повторной сортировки, затем отправьте только фрагменты ROI (таблицы, диаграммы, штампы) в генератор.
Инженерное дело для реальных документов
- Таблицы: если вы должны анализировать, используйте модели структуры таблиц (например, PubTables-1M/TATR); в противном случае предпочтите извлечение на основе изображений.
- Диаграммы: ожидайте наличие подсказок на уровне галочки и легенды; разрешение должно сохранять их.
- Белые доски/вращения/многоязычность: рендеринг страницы позволяет избежать многих режимов сбоев OCR; многоязычные скрипты и повёрнутые сканы проходят через конвейер.
Выводы
- Text-RAG остаётся эффективным для чистых, текстовых данных.
- Vision-RAG является практическим стандартом для корпоративных документов с макетом, таблицами, диаграммами, штампами, сканами и многоязычной типографикой.
- Команды, которые (1) согласовывают модальности, (2) предоставляют выборочные высококачественные визуальные доказательства и (3) оценивают с помощью мультимодальных тестов, последовательно получают более высокую точность извлечения и более качественные ответы ниже по потоку.
1. В чём заключается основная проблема текстовых конвейеров (Text-RAG) при обработке документов с изображениями?
Основная проблема текстовых конвейеров (Text-RAG) заключается в потере семантики макета, структуры таблиц и связи текста с изображениями при преобразовании PDF→text. Это снижает точность и полноту до запуска LLM.
2. Какие преимущества предлагает Vision-RAG по сравнению с Text-RAG при работе с визуально насыщенными документами?
Vision-RAG предлагает существенные улучшения в обработке визуально насыщенных документов за счёт прямого извлечения визуализированных страниц с помощью встраиваний языка и изображений. Это позволяет сохранить макет и связь текста с изображениями, что повышает точность и полноту извлечения информации.
3. Какие данные подтверждают эффективность подхода Vision-RAG?
Текущие данные подтверждают эффективность подхода Vision-RAG через несколько ключевых наблюдений:
* Извлечение документов с изображениями работает и проще.
* Улучшение на уровне «от конца до конца» измеримо. VisRAG сообщает о повышении эффективности на 25–39% по сравнению с Text-RAG при работе с мультимодальными документами.
* Унифицированный формат изображений для документов в реальном мире улучшает обобщение и позволяет избежать потерь при парсинге.
4. Почему поддержка высокого разрешения в VLM важна для качества рассуждений?
Поддержка высокого разрешения в VLM важна для качества рассуждений, поскольку это напрямую связано с результатами на задачах DocVQA/MathVista/MTVQA. Высокое разрешение позволяет сохранить мелкие детали, такие как галочки, надстрочные знаки, штампы и мелкий шрифт, что важно для точности и полноты извлечения информации.
5. Какие рекомендации даются для проектирования производственного Vision-RAG?
Для проектирования производственного Vision-RAG рекомендуется:
* Согласовывать модальности во вложениях, используя энкодеры, обученные для выравнивания текста и изображений.
* Подавать высококачественные входные данные выборочно, запуская BM25/DPR, беря верхние страницы k для визуального повторной сортировки, затем отправляя только фрагменты ROI (таблицы, диаграммы, штампы) в генератор.
* Использовать модели структуры таблиц для анализа таблиц и предпочтение извлечения на основе изображений для анализа таблиц, а для диаграмм ожидать наличие подсказок на уровне галочки и легенды и сохранять разрешение, чтобы сохранить их.