Команда Baidu PaddlePaddle выпустила PaddleOCR-VL (0.9B): модель для сквозного многоязычного анализа документов в стиле NaViT + ERNIE-4.5-0.3B VLM

Как преобразовать сложные многоязычные документы — с плотным расположением элементов, мелкими шрифтами, формулами, таблицами и рукописным текстом — в структурированный Markdown/JSON с максимальной точностью, сохраняя при этом низкую задержку вывода и объём памяти, достаточный для реального использования?

Команда Baidu PaddlePaddle выпустила PaddleOCR-VL — модель для анализа документов с 0,9 миллиарда параметров, предназначенную для сквозного анализа документов, содержащих текст, таблицы, формулы, диаграммы и рукописный ввод.

Основные характеристики модели:
* Сочетает в себе динамический визуальный кодировщик в стиле NaViT (Native-resolution ViT) с декодером ERNIE-4.5-0.3B.
* Поддерживает 109 языков.

Принцип работы системы

PaddleOCR-VL развёртывается в виде двухэтапного конвейера.

Первый этап (PP-DocLayoutV2) выполняет анализ макета страницы: детектор RT-DETR локализует и классифицирует области; сеть-указатель прогнозирует порядок чтения.

Второй этап (PaddleOCR-VL-0.9B) проводит распознавание элементов с учётом обнаруженного макета. Окончательные результаты агрегируются в Markdown и JSON для дальнейшего использования. Такое разделение снижает задержку декодирования длинных последовательностей и нестабильность, с которыми сталкиваются сквозные VLM при работе с плотными, многоколоночными страницами со смешанным текстово-графическим содержимым.

На уровне модели PaddleOCR-VL-0.9B объединяет динамический кодировщик высокого разрешения в стиле NaViT (упаковка последовательности с нативным разрешением) с двухслойным проектором MLP и языковой моделью ERNIE-4.5-0.3B; для позиционного представления используется 3D-RoPE.

Бенчмарки

PaddleOCR-VL достигает современных результатов в OmniDocBench v1.5 и конкурентных или лидирующих показателей в v1.0, охватывая общее качество, а также подзадачи (расстояния редактирования текста, Formula-CDM, Table-TEDS/TEDS-S и редактирование порядка чтения).

Ключевые выводы

* PaddleOCR-VL с 0,9 миллиарда параметров объединяет динамический кодировщик с изменяемым разрешением в стиле NaViT с ERNIE-4.5-0.3B для анализа документов.
* Предназначена для сквозного извлечения данных из текста, таблиц, формул, диаграмм и рукописного ввода со структурированными выходами в формате Markdown/JSON.
* Претендует на звание модели с передовыми показателями производительности на общедоступных бенчмарках документов с быстрым выводом, подходящим для развёртывания.
* Поддерживает 109 языков, включая мелкие шрифты и сложные макеты страниц.

Редакционные комментарии

Этот выпуск имеет большое значение, поскольку объединяет визуальный кодировщик с динамическим разрешением в стиле NaViT с лёгким декодером ERNIE-4.5-0.3B для обеспечения анализа документов на уровне страницы и распознавания элементов на уровне элементов со сквозным анализом документов и практическими затратами на вывод.

Двухэтапная архитектура PP-DocLayoutV2 → PaddleOCR-VL-0.9B стабилизирует порядок чтения и сохраняет исходные типографские подсказки, которые важны для мелких шрифтов, формул, диаграмм и рукописного ввода на 109 языках. Структурированные выходные данные в формате Markdown/JSON и дополнительное ускорение с помощью vLLM/SGLang делают систему удобной для промышленного использования в области анализа документов.

Ознакомьтесь с технической статьёй, моделью на HF и техническими деталями. Не стесняйтесь посетить нашу страницу на GitHub, чтобы посмотреть учебные пособия, коды и блокноты. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там!

1. Какие ключевые характеристики отличают модель PaddleOCR-VL от других моделей для анализа документов?

Ответ: модель PaddleOCR-VL отличается сочетанием динамического визуального кодировщика в стиле NaViT с декодером ERNIE-4.5-0.3B, поддержкой 109 языков и двухэтапным конвейером анализа, который включает анализ макета страницы и распознавание элементов.

2. Какие задачи решает PaddleOCR-VL при анализе документов?

Ответ: PaddleOCR-VL предназначена для сквозного анализа документов, содержащих текст, таблицы, формулы, диаграммы и рукописный ввод, с целью извлечения данных в структурированном формате Markdown/JSON.

3. Какие преимущества предоставляет использование PaddleOCR-VL для промышленного анализа документов?

Ответ: использование PaddleOCR-VL обеспечивает быстрое и точное извлечение данных из сложных многоязычных документов, структурированные выходные данные в формате Markdown/JSON и дополнительное ускорение с помощью vLLM/SGLang, что делает систему удобной для промышленного использования.

4. Какие бенчмарки использовались для оценки производительности PaddleOCR-VL?

Ответ: PaddleOCR-VL достигает современных результатов в OmniDocBench v1.5 и конкурентных или лидирующих показателей в v1.0, охватывая общее качество, а также подзадачи (расстояния редактирования текста, Formula-CDM, Table-TEDS/TEDS-S и редактирование порядка чтения).

5. Какие этапы включает в себя работа системы PaddleOCR-VL?

Ответ: работа системы PaddleOCR-VL включает два этапа: первый этап (PP-DocLayoutV2) выполняет анализ макета страницы, а второй этап (PaddleOCR-VL-0.9B) проводит распознавание элементов с учётом обнаруженного макета.

Источник