Как преобразовать сложные многоязычные документы — с плотным расположением элементов, мелкими шрифтами, формулами, таблицами и рукописным текстом — в структурированный Markdown/JSON с максимальной точностью, сохраняя при этом низкую задержку вывода и объём памяти, достаточный для реального использования?
Команда Baidu PaddlePaddle выпустила PaddleOCR-VL — модель для анализа документов с 0,9 миллиарда параметров, предназначенную для сквозного анализа документов, содержащих текст, таблицы, формулы, диаграммы и рукописный ввод.
Основные характеристики модели:
* Сочетает в себе динамический визуальный кодировщик в стиле NaViT (Native-resolution ViT) с декодером ERNIE-4.5-0.3B.
* Поддерживает 109 языков.
Принцип работы системы
PaddleOCR-VL развёртывается в виде двухэтапного конвейера.
Первый этап (PP-DocLayoutV2) выполняет анализ макета страницы: детектор RT-DETR локализует и классифицирует области; сеть-указатель прогнозирует порядок чтения.
Второй этап (PaddleOCR-VL-0.9B) проводит распознавание элементов с учётом обнаруженного макета. Окончательные результаты агрегируются в Markdown и JSON для дальнейшего использования. Такое разделение снижает задержку декодирования длинных последовательностей и нестабильность, с которыми сталкиваются сквозные VLM при работе с плотными, многоколоночными страницами со смешанным текстово-графическим содержимым.
На уровне модели PaddleOCR-VL-0.9B объединяет динамический кодировщик высокого разрешения в стиле NaViT (упаковка последовательности с нативным разрешением) с двухслойным проектором MLP и языковой моделью ERNIE-4.5-0.3B; для позиционного представления используется 3D-RoPE.
Бенчмарки
PaddleOCR-VL достигает современных результатов в OmniDocBench v1.5 и конкурентных или лидирующих показателей в v1.0, охватывая общее качество, а также подзадачи (расстояния редактирования текста, Formula-CDM, Table-TEDS/TEDS-S и редактирование порядка чтения).
Ключевые выводы
* PaddleOCR-VL с 0,9 миллиарда параметров объединяет динамический кодировщик с изменяемым разрешением в стиле NaViT с ERNIE-4.5-0.3B для анализа документов.
* Предназначена для сквозного извлечения данных из текста, таблиц, формул, диаграмм и рукописного ввода со структурированными выходами в формате Markdown/JSON.
* Претендует на звание модели с передовыми показателями производительности на общедоступных бенчмарках документов с быстрым выводом, подходящим для развёртывания.
* Поддерживает 109 языков, включая мелкие шрифты и сложные макеты страниц.
Редакционные комментарии
Этот выпуск имеет большое значение, поскольку объединяет визуальный кодировщик с динамическим разрешением в стиле NaViT с лёгким декодером ERNIE-4.5-0.3B для обеспечения анализа документов на уровне страницы и распознавания элементов на уровне элементов со сквозным анализом документов и практическими затратами на вывод.
Двухэтапная архитектура PP-DocLayoutV2 → PaddleOCR-VL-0.9B стабилизирует порядок чтения и сохраняет исходные типографские подсказки, которые важны для мелких шрифтов, формул, диаграмм и рукописного ввода на 109 языках. Структурированные выходные данные в формате Markdown/JSON и дополнительное ускорение с помощью vLLM/SGLang делают систему удобной для промышленного использования в области анализа документов.
Ознакомьтесь с технической статьёй, моделью на HF и техническими деталями. Не стесняйтесь посетить нашу страницу на GitHub, чтобы посмотреть учебные пособия, коды и блокноты. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там!
1. Какие ключевые характеристики отличают модель PaddleOCR-VL от других моделей для анализа документов?
Ответ: модель PaddleOCR-VL отличается сочетанием динамического визуального кодировщика в стиле NaViT с декодером ERNIE-4.5-0.3B, поддержкой 109 языков и двухэтапным конвейером анализа, который включает анализ макета страницы и распознавание элементов.
2. Какие задачи решает PaddleOCR-VL при анализе документов?
Ответ: PaddleOCR-VL предназначена для сквозного анализа документов, содержащих текст, таблицы, формулы, диаграммы и рукописный ввод, с целью извлечения данных в структурированном формате Markdown/JSON.
3. Какие преимущества предоставляет использование PaddleOCR-VL для промышленного анализа документов?
Ответ: использование PaddleOCR-VL обеспечивает быстрое и точное извлечение данных из сложных многоязычных документов, структурированные выходные данные в формате Markdown/JSON и дополнительное ускорение с помощью vLLM/SGLang, что делает систему удобной для промышленного использования.
4. Какие бенчмарки использовались для оценки производительности PaddleOCR-VL?
Ответ: PaddleOCR-VL достигает современных результатов в OmniDocBench v1.5 и конкурентных или лидирующих показателей в v1.0, охватывая общее качество, а также подзадачи (расстояния редактирования текста, Formula-CDM, Table-TEDS/TEDS-S и редактирование порядка чтения).
5. Какие этапы включает в себя работа системы PaddleOCR-VL?
Ответ: работа системы PaddleOCR-VL включает два этапа: первый этап (PP-DocLayoutV2) выполняет анализ макета страницы, а второй этап (PaddleOCR-VL-0.9B) проводит распознавание элементов с учётом обнаруженного макета.