Tencent Hunyuan выпускает HunyuanOCR: экспертная модель обработки текста из изображений с 1 миллиардом параметров

Компания Tencent Hunyuan выпустила модель HunyuanOCR — это модель обработки языка и изображений, предназначенная для оптического распознавания символов (OCR) и понимания документов. Модель построена на собственной мультимодальной архитектуре Hunyuan и выполняет обнаружение, синтаксический анализ, извлечение информации, ответы на визуальные вопросы и перевод текста в изображениях через единый сквозной механизм.

Особенности HunyuanOCR

HunyuanOCR — это лёгкая альтернатива общим моделям VLM, таким как Gemini 2.5 и Qwen3 VL, которая соответствует или превосходит их в задачах, ориентированных на OCR. Она предназначена для использования в производстве, например, для синтаксического анализа документов, извлечения информации с карточек и квитанций, извлечения субтитров из видео и многоязычного перевода документов.

Архитектура

HunyuanOCR использует три основных модуля:
* Native Resolution Visual Encoder (Hunyuan ViT) — визуальный кодировщик с нативным разрешением.
* Adaptive MLP Connector — адаптивный соединитель MLP.
* Lightweight Language Model — лёгкая языковая модель.

Кодировщик основан на SigLIP-v2-400M и расширен для поддержки произвольных входных разрешений за счёт адаптивного патчинга, который сохраняет исходное соотношение сторон. Изображения разбиваются на патчи в соответствии с их нативными пропорциями и обрабатываются с глобальным вниманием, что улучшает распознавание длинных текстовых строк, длинных документов и сканирований низкого качества.

Адаптивный соединитель MLP выполняет обучаемый пулинг по пространственному измерению. Он сжимает плотные визуальные токены в более короткую последовательность, сохраняя при этом информацию из плотных текстовых областей. Это уменьшает длину последовательности, передаваемой языковой модели, и снижает вычислительные затраты, сохраняя при этом важные для OCR детали.

Языковая модель основана на плотно сконструированной модели Hunyuan 0.5B и использует XD RoPE. XD RoPE разделяет вращающиеся позиционные вложения на 4 подпространства для текста, высоты, ширины и времени. Это даёт модели естественный способ согласования порядка 1D-токенов с 2D-макетом и 3D-пространственно-временной структурой. В результате один и тот же стек может обрабатывать многоколоночные страницы, межстраничные потоки и последовательности видеокадров.

Обучение и вывод

Обучение и вывод следуют полностью сквозной парадигме. В цикле нет внешнего анализа макета или модели постобработки. Все задачи выражены в виде подсказок на естественном языке и обрабатываются за один прямой проход. Такая конструкция устраняет распространение ошибок между этапами конвейера и упрощает развёртывание.

Данные и рецепт предварительного обучения

Конвейер данных создаёт более 200 миллионов пар «изображение-текст» в 9 реальных сценариях, включая уличные виды, документы, рекламу, рукописный текст, скриншоты, карточки и сертификаты, счета-фактуры, игровые интерфейсы, видеокадры и художественную типографику. Корпус охватывает более 130 языков.

Результаты тестирования

На внутреннем бенчмарке по обнаружению текста HunyuanOCR достигает общего балла 70,92. Он превосходит традиционные методы конвейера, такие как PaddleOCR и BaiduOCR, а также общие VLM, такие как Gemini 2.5 Pro, Qwen3 VL 2B, Qwen3 VL 235B и Seed 1.6 Vision, несмотря на использование гораздо меньшего количества параметров.

На OmniDocBench HunyuanOCR достигает 94,10 в целом, с 94,73 по формулам и 91,81 по таблицам. На варианте Wild OmniDocBench, который печатает и переснимает документы под сгибами и при изменении освещения, он набирает 85,21 в целом. На DocML, многоязычном бенчмарке синтаксического анализа по 14 некитайским и неанглийским языкам, он достигает 91,03.

Для извлечения информации и VQA HunyuanOCR достигает точности 92,29 на карточках, 92,53 на квитанциях и 92,87 на видеосубтитрах. На OCRBench он набирает 860 баллов, что выше, чем у DeepSeek OCR в аналогичном масштабе, и близко к более крупным общим VLM, таким как Qwen3 VL 2B Instruct и Gemini 2.5 Pro.

В переводе текста в изображения HunyuanOCR использует бенчмарк DoTA и внутренний набор на основе DocML. Он достигает высоких баллов COMET на DoTA для перевода документов с английского на китайский и занимает первое место в треке 2.2 OCR free Small Model конкурса ICDAR 2025 DIMT.

Ключевые выводы

* Компактная сквозная модель OCR VLM: HunyuanOCR — это модель обработки языка и изображений с 1 миллиардом параметров, предназначенная для OCR, которая соединяет 0,4-битный визуальный кодировщик с нативным разрешением с 0,5-битной языковой моделью Hunyuan через MLP-адаптер и выполняет обнаружение, синтаксический анализ, извлечение информации, VQA и перевод в одном сквозном конвейере, управляемом инструкциями, без внешних модулей макета или обнаружения.
* Единая поддержка различных сценариев OCR: модель обучена на более чем 200 миллионах пар «изображение-текст» в 9 сценариях, включая документы, уличные виды, рекламу, рукописный контент, скриншоты, карточки и счета-фактуры, игровые интерфейсы и видеокадры, с охватом более 130 языков при обучении и поддержкой более 100 языков при развёртывании.
* Конвейер данных плюс обучение с подкреплением: обучение использует четырёхэтапный рецепт, включающий выравнивание языка и зрения, предварительное мультимодальное обучение, предварительное обучение с длинным контекстом и целенаправленное контролируемое уточнение, за которым следует обучение с подкреплением с групповой относительной оптимизацией политики и проверяемыми вознаграждениями для обнаружения, синтаксического анализа, VQA и перевода.
* Высокие результаты тестирования для моделей объёмом менее 3 миллиардов параметров: HunyuanOCR достигает 94,1 на OmniDocBench для понимания документов и 860 на OCRBench, что является одним из лучших показателей среди моделей обработки языка и зрения с менее чем 3 миллиардами параметров.

HunyuanOCR — это важный шаг к созданию компактных механизмов OCR, управляемых инструкциями, которые реалистичны для промышленного развёртывания.

1. Какие ключевые особенности отличают модель HunyuanOCR от других моделей VLM?

Ответ: HunyuanOCR отличается от других моделей VLM своей компактностью и специализацией на задачах OCR. Она использует мультимодальную архитектуру Hunyuan и выполняет обнаружение, синтаксический анализ, извлечение информации, ответы на визуальные вопросы и перевод текста в изображениях через единый сквозной механизм. HunyuanOCR также обучена на более чем 200 миллионах пар «изображение-текст» в 9 сценариях, что обеспечивает ей широкую поддержку различных сценариев OCR.

2. Какие модули включает в себя архитектура HunyuanOCR?

Ответ: архитектура HunyuanOCR включает в себя три основных модуля:
* Native Resolution Visual Encoder (Hunyuan ViT) — визуальный кодировщик с нативным разрешением.
* Adaptive MLP Connector — адаптивный соединитель MLP.
* Lightweight Language Model — лёгкая языковая модель.

3. Какие результаты тестирования HunyuanOCR на различных бенчмарках?

Ответ: HunyuanOCR достигает высоких результатов на различных бенчмарках, включая:
* общий балл 70,92 на внутреннем бенчмарке по обнаружению текста;
* 94,10 на OmniDocBench в целом;
* 94,73 по формулам и 91,81 по таблицам на OmniDocBench;
* 85,21 на Wild OmniDocBench;
* 91,03 на DocML;
* точность 92,29 на карточках, 92,53 на квитанциях и 92,87 на видеосубтитрах для извлечения информации и VQA;
* 860 баллов на OCRBench.

4. Какие языки поддерживает HunyuanOCR при обучении и развёртывании?

Ответ: HunyuanOCR обучена на более чем 130 языках и поддерживает более 100 языков при развёртывании. Это обеспечивает ей широкую поддержку различных языков и сценариев использования.

5. Какие методы обучения используются для HunyuanOCR?

Ответ: обучение HunyuanOCR использует четырёхэтапный рецепт, включающий выравнивание языка и зрения, предварительное мультимодальное обучение, предварительное обучение с длинным контекстом и целенаправленное контролируемое уточнение, за которым следует обучение с подкреплением с групповой относительной оптимизацией политики и проверяемыми вознаграждениями для обнаружения, синтаксического анализа, VQA и перевода.

Источник