Zhipu AI представляет GLM-OCR: мультимодальную модель OCR на 0,9 млрд параметров для анализа документов и извлечения ключевой информации

Исследователи из Zhipu AI и Университета Цинхуа представили GLM-OCR — компактную мультимодальную модель для понимания документов. Она объединяет визуальный кодер CogViT на 0,4 млрд параметров, лёгкий кросс-модальный коннектор и языковой декодер GLM на 0,5 млрд параметров. Цель — сбалансировать качество распознавания документов с более низкой задержкой и меньшими вычислительными затратами, чем у более крупных мультимодальных систем.

Почему распознавание документов всё ещё остаётся сложной инженерной задачей?

Традиционные системы OCR часто хороши в простой транскрипции текста, но им сложно работать с документами, содержащими смешанные макеты, таблицы, формулы, блоки кода, печати и структурированные поля. Недавние мультимодальные большие языковые модели улучшают понимание документов, но их размер и стандартное авторегрессивное декодирование делают их дорогостоящими для периферийного развёртывания и крупномасштабного производства.

Компактная архитектура, созданная для задач OCR

Ключевым техническим моментом этого исследования является использование Multi-Token Prediction (MTP). Стандартное авторегрессивное декодирование предсказывает по одному токену за раз, что не идеально подходит для задач в стиле OCR, где выходные данные часто детерминированы и локально структурированы. GLM-OCR вместо этого предсказывает несколько токенов за шаг. Модель обучена предсказывать 10 токенов за шаг и генерирует в среднем 5,2 токена за шаг декодирования во время вывода, что обеспечивает примерно 50% улучшение пропускной способности.

Двухэтапный анализ структуры вместо плоского чтения страниц

На системном уровне GLM-OCR использует двухэтапный конвейер. На первом этапе используется PP-DocLayout-V3 для анализа макета, который обнаруживает структурированные области на странице. На втором этапе выполняется параллельное распознавание на уровне регионов в этих обнаруженных областях. Это важно, потому что модель не просто читает всю страницу слева направо, как это может сделать обычная визуально-языковая модель. Она сначала разбивает страницу на семантически значимые области, что повышает эффективность и делает систему более устойчивой к документам со сложной структурой.

Анализ документов и извлечение ключевой информации используют разные пути вывода

Архитектура также разделяет две связанные задачи с документами. Для анализа документов конвейер использует обнаружение макета и обработку регионов для получения структурированных выходных данных, таких как Markdown и JSON. Для извлечения ключевой информации (KIE) исследовательская группа описывает другой путь: полное изображение документа передаётся модели с указанием задачи, и модель напрямую генерирует JSON, содержащий извлечённые поля.

Четырёхэтапный обучающий конвейер с учётом задач

Процесс обучения разделён на 4 этапа. Этап 1 обучает визуальный кодер на парах «изображение-текст» и данных о поиске или извлечении. Этап 2.1 выполняет мультимодальную предварительную подготовку на данных «изображение-текст», анализе документов, поиске и VQA. Этап 2.2 добавляет цель MTP. Этап 3 — это контролируемая настройка на задачах, специфичных для OCR, включая распознавание текста, транскрипцию формул, восстановление структуры таблиц и KIE. Этап 4 применяет обучение с подкреплением с помощью GRPO.

Результаты тестов показывают высокую производительность с важными оговорками

В публичных тестах GLM-OCR демонстрирует высокие результаты по нескольким задачам с документами. Он набирает 94,6 балла в OmniDocBench v1.5, 94,0 в OCRBench (Text), 96,5 в UniMERNet, 85,2 в PubTabNet и 86,0 в TEDS_TEST. Для KIE он сообщает 93,7 в Nanonets-KIE и 86,1 в Handwritten-KIE. Исследовательская группа отмечает, что результаты для Gemini-3-Pro и GPT-5.2-2025-12-11 показаны только для справки и исключены из рейтинга лучших результатов, что является важной деталью при интерпретации утверждений о лидерстве модели.

Подробности развёртывания

Исследовательская группа утверждает, что GLM-OCR поддерживает vLLM, SGLang и Ollama, и может быть настроен через LLaMA-Factory. Они также сообщают о пропускной способности 0,67 изображений в секунду и 1,86 страниц PDF в секунду в рамках своей настройки оценки. Кроме того, они описывают MaaS API по цене 0,2 юаня за миллион токенов, с примерами оценок затрат для отсканированных изображений и PDF-файлов с простым макетом.

Основные выводы

* GLM-OCR — это компактная мультимодальная модель OCR на 0,9 млрд параметров, созданная с использованием кодировщика CogViT на 0,4 млрд параметров и декодера GLM на 0,5 млрд параметров.
* Она использует Multi-Token Prediction (MTP) для повышения эффективности декодирования, достигая в среднем 5,2 токена за шаг и примерно на 50% более высокой пропускной способности.
* Модель использует двухэтапный конвейер: PP-DocLayout-V3 обрабатывает анализ макета, затем GLM-OCR выполняет параллельное распознавание на уровне регионов.
* Она поддерживает как анализ документов, так и KIE: анализ выводит Markdown/JSON, а KIE напрямую генерирует JSON из полного изображения документа.
* Результаты тестов высокие, но не универсальны: GLM-OCR лидирует в нескольких отчётах о неэталонных тестах, но MinerU 2.5 выше в PubTabNet, а Gemini-3-Pro выше в эталонных оценках KIE.

1. Какие технические инновации были применены в модели GLM-OCR для улучшения производительности в задачах OCR?

В модели GLM-OCR для улучшения производительности в задачах OCR был применён метод Multi-Token Prediction (MTP). Вместо стандартного авторегрессивного декодирования, которое предсказывает по одному токену за раз, GLM-OCR предсказывает несколько токенов за шаг. Модель обучена предсказывать 10 токенов за шаг и генерирует в среднем 5,2 токена за шаг декодирования во время вывода, что обеспечивает примерно 50% улучшение пропускной способности.

2. Какие преимущества предоставляет использование двухэтапного конвейера в GLM-OCR по сравнению с традиционным подходом к OCR?

На системном уровне GLM-OCR использует двухэтапный конвейер. На первом этапе используется PP-DocLayout-V3 для анализа макета, который обнаруживает структурированные области на странице. На втором этапе выполняется параллельное распознавание на уровне регионов в этих обнаруженных областях. Это повышает эффективность и делает систему более устойчивой к документам со сложной структурой, в отличие от традиционного подхода, при котором модель просто читает всю страницу слева направо.

3. Какие параметры и характеристики модели GLM-OCR были использованы для достижения высоких результатов в публичных тестах?

Для достижения высоких результатов в публичных тестах GLM-OCR были использованы следующие параметры и характеристики: визуальный кодер CogViT на 0,4 млрд параметров, лёгкий кросс-модальный коннектор и языковой декодер GLM на 0,5 млрд параметров. Модель обучена предсказывать 10 токенов за шаг и генерирует в среднем 5,2 токена за шаг декодирования во время вывода. Результаты тестов показывают высокую производительность с важными оговорками: GLM-OCR лидирует в нескольких отчётах о неэталонных тестах, но не является универсальным решением.

4. Какие задачи и сценарии использования могут быть оптимизированы с помощью модели GLM-OCR?

Модель GLM-OCR может быть использована для оптимизации следующих задач и сценариев использования: анализ документов, извлечение ключевой информации (KIE), распознавание текста, транскрипция формул, восстановление структуры таблиц. Она также может быть применена для работы с документами, содержащими смешанные макеты, таблицы, формулы, блоки кода, печати и структурированные поля.

5. Какие выводы можно сделать о потенциале модели GLM-OCR на основе результатов публичных тестов и описанных характеристик?

На основе результатов публичных тестов и описанных характеристик можно сделать вывод, что GLM-OCR является компактной мультимодальной моделью OCR с высокой производительностью по нескольким задачам с документами. Однако результаты не являются универсальными, и модель может быть не лучшим выбором для всех сценариев использования. Тем не менее, GLM-OCR представляет собой инновационное решение для задач OCR, сочетающее в себе высокую производительность и компактность архитектуры.

Источник