Команда Baidu Qianfan выпускает Qianfan-OCR: унифицированная модель искусственного интеллекта для работы с документами на 4 миллиарда параметров

Команда Baidu Qianfan представила модель Qianfan-OCR — это модель с 4 миллиардами параметров, предназначенная для унификации анализа документов, анализа структуры и понимания документов в рамках единой архитектуры, объединяющей визуальные и языковые компоненты.

Архитектура и технические характеристики

Qianfan-OCR использует мультимодальную архитектуру моста из фреймворка Qianfan-VL. Система состоит из трёх основных компонентов:

1. Vision Encoder (Qianfan-ViT): использует дизайн с любым разрешением, который разбивает изображения на патчи размером 448 x 448. Поддерживает входные данные с переменным разрешением вплоть до 4K, создавая до 4096 визуальных токенов на изображение для сохранения пространственного разрешения для небольших шрифтов и плотного текста.
2. Cross-Modal Adapter: лёгкий двухуровневый MLP с активацией GELU, который проецирует визуальные особенности в пространство встраивания языковой модели.
3. Language Model Backbone (Qwen3-4B): модель с 4 миллиардами параметров, 36 слоями и встроенным окном контекста в 32 тысячи. Использует Grouped-Query Attention (GQA) для сокращения использования памяти KV-кэша в 4 раза.

Механизм «Layout-as-Thought»

Основная особенность модели — механизм «Layout-as-Thought», дополнительная фаза мышления, запускаемая токенами. Во время этой фазы модель генерирует структурированные представления структуры, включая ограничивающие рамки, типы элементов и порядок чтения, прежде чем выдать окончательный результат.

Функциональные возможности

Этот процесс восстанавливает явные возможности анализа структуры (локализация элементов и классификация типов), которые часто теряются в сквозных парадигмах.

Производительность

Оценка на OmniDocBench v1.5 показывает, что включение фазы мышления обеспечивает стабильное преимущество на документах с высокой «энтропией меток структуры» — содержащих разнородные элементы, такие как смешанный текст, формулы и диаграммы.

Эффективность

Координаты ограничивающих рамок представлены в виде специальных токенов (от COORD0 до COORD999), что сокращает длину вывода на этапе мышления примерно на 50% по сравнению с обычными цифровыми последовательностями.

Эмпирическая производительность и бенчмарки

Qianfan-OCR был оценён как по специализированным системам OCR, так и по общим моделям визуального языка (VLM).

Анализ документов и общий OCR

Модель занимает первое место среди сквозных моделей по нескольким ключевым бенчмаркам:

* OmniDocBench v1.5: достигла показателя 93,12, превзойдя DeepSeek-OCR-v2 (91,09) и Gemini-3 Pro (90,33).
* OlmOCR Bench: набрала 79,8 балла, лидируя в категории сквозных моделей.
* OCRBench: достигла показателя 880, заняв первое место среди всех протестированных моделей.

Извлечение ключевой информации (KIE)

На общедоступных бенчмарках KIE модель Qianfan-OCR достигла наивысшего среднего показателя (87,9), значительно опередив более крупные модели.

| Модель | Общий средний показатель (KIE) | OCRBench KIE | Nanonets KIE (F1) |
| — | — | — | — |
| Qianfan-OCR (4B) | 87,9 | 95,0 | 86,5 |
| Qwen3-4B-VL | 83,5 | 89,0 | 83,3 |
| Qwen3-VL-235B-A22B | 84,2 | 94,0 | 83,8 |
| Gemini-3.1-Pro | 79,2 | 96,0 | 76,1 |

Понимание документов

Сравнительное тестирование показало, что двухэтапные конвейеры OCR+LLM часто терпят неудачу при выполнении задач, требующих пространственного мышления. Например, все протестированные двухэтапные системы получили 0,0 балла на бенчмарках CharXiv, поскольку этап извлечения текста отбрасывает визуальный контекст (отношения осей, позиции точек данных), необходимый для интерпретации диаграмм.

Развёртывание и вывод

Эффективность вывода измерялась в страницах в секунду (PPS) с использованием одной видеокарты NVIDIA A100.

Квантование: с квантованием W8A8 (AWQ) Qianfan-OCR достиг 1,024 PPS, что в 2 раза быстрее по сравнению с базовым уровнем W16A16 при незначительной потере точности.

Преимущество архитектуры: в отличие от конвейерных систем, которые полагаются на анализ структуры на основе CPU — что может стать узким местом — Qianfan-OCR ориентирован на GPU. Это позволяет избежать задержек между этапами обработки и обеспечивает эффективный вывод для больших пакетов.

Проверьте статью, репозиторий и модель на HF. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему ML SubReddit с более чем 120 тысячами участников и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.

1. Какие ключевые особенности отличают модель Qianfan-OCR от других моделей искусственного интеллекта для работы с документами?

Ответ: модель Qianfan-OCR отличается унификацией анализа документов, анализа структуры и понимания документов в рамках единой архитектуры, объединяющей визуальные и языковые компоненты. Она использует мультимодальную архитектуру моста из фреймворка Qianfan-VL и механизм «Layout-as-Thought», который позволяет модели генерировать структурированные представления структуры документов.

2. Какие технические характеристики и компоненты входят в состав модели Qianfan-OCR?

Ответ: модель Qianfan-OCR состоит из трёх основных компонентов: Vision Encoder (Qianfan-ViT), Cross-Modal Adapter и Language Model Backbone (Qwen3-4B). Vision Encoder разбивает изображения на патчи размером 448 x 448, Cross-Modal Adapter проецирует визуальные особенности в пространство встраивания языковой модели, а Language Model Backbone использует Grouped-Query Attention (GQA) для сокращения использования памяти KV-кэша в 4 раза.

3. Какие преимущества обеспечивает включение фазы мышления в процесс работы модели Qianfan-OCR?

Ответ: включение фазы мышления обеспечивает стабильное преимущество на документах с высокой «энтропией меток структуры», содержащих разнородные элементы, такие как смешанный текст, формулы и диаграммы. Это позволяет модели восстанавливать явные возможности анализа структуры, которые часто теряются в сквозных парадигмах.

4. Какие результаты были получены при оценке модели Qianfan-OCR на OmniDocBench v1.5?

Ответ: на OmniDocBench v1.5 модель Qianfan-OCR достигла показателя 93,12, превзойдя DeepSeek-OCR-v2 (91,09) и Gemini-3 Pro (90,33). Это свидетельствует о высокой эффективности модели при работе с документами, содержащими разнородные элементы.

5. Какие преимущества обеспечивает использование модели Qianfan-OCR по сравнению с двухэтапными конвейерами OCR+LLM?

Ответ: двухэтапные конвейеры OCR+LLM часто терпят неудачу при выполнении задач, требующих пространственного мышления. В отличие от них, Qianfan-OCR ориентирован на GPU и позволяет избежать задержек между этапами обработки, обеспечивая эффективный вывод для больших пакетов. Это делает модель более эффективной при работе с документами, требующими пространственного анализа.

Источник