DeepSeek выпустил модель 3B OCR: система Vision-Language Model (VLM) для высокопроизводительного оптического распознавания символов (OCR) и преобразования структурированных документов

Компания DeepSeek-AI выпустила модель DeepSeek-OCR — это система Vision-Language Model (VLM), предназначенная для высокопроизводительного OCR и преобразования структурированных документов. Модель сжимает длинные тексты в небольшой набор визуальных токенов, а затем декодирует эти токены с помощью языковой модели.

Архитектура: что нового?

DeepSeek-OCR-3B состоит из двух компонентов:
* Vision encoder под названием DeepEncoder;
* Decoder под названием DeepSeek3B-MoE-A570M.

Encoder предназначен для работы с изображениями высокого разрешения при низкой стоимости активации и небольшом количестве выходных токенов. Он использует этап оконного внимания на основе SAM для локального восприятия, двухслойный свёрточный компрессор для 16-кратного понижения дискретизации токенов и плотный этап глобального внимания на основе CLIP для агрегации визуальных знаний.

Decoder — это модель MoE с 3 миллиардами параметров (DeepSeek3B-MoE-A570M) с примерно 570 миллионами активных параметров на токен.

Режимы с несколькими разрешениями, разработанные для бюджетов токенов

DeepEncoder поддерживает нативные и динамические режимы. Нативные режимы: Tiny с 64 токенами при 512×512 пикселей, Small с 100 токенами при 640×640, Base с 256 токенами при 1024×1024 и Large с 400 токенами при 1280×1280.

Динамические режимы под названием Gundam и Gundam-Master смешивают плиточные локальные представления с глобальным представлением.

Результаты сжатия: что говорят цифры

Исследование на основе Fox benchmark измеряет точность как точное соответствие текста после декодирования. При 100 визуальных токенах страницы с 600–700 текстовыми токенами достигают точности 98,5% при сжатии в 6,7 раза. Страницы с 900–1000 текстовыми токенами достигают точности 96,8% при сжатии в 9,7 раза.

На OmniDocBench в отчёте указано, что DeepSeek-OCR превосходит GOT-OCR 2.0 при использовании всего 100 визуальных токенов на страницу и что при 800 визуальных токенах на страницу он превосходит MinerU 2.0, который использует в среднем более 6000 токенов на страницу.

Подробности обучения

Исследовательская группа описывает двухэтапный конвейер обучения. Сначала DeepEncoder обучается с предсказанием следующего токена на данных OCR 1.0 и OCR 2.0 и 100 миллионах образцов LAION, затем обучается полная система с параллелизмом конвейера на 4 разделах.

Для оборудования использовался 20 узлов, каждый с 8 A100 40G GPU, и использовался AdamW. Команда сообщает о скорости обучения 90 миллиардов токенов в день на текстовых данных и 70 миллиардов токенов в день на мультимодальных данных. В производстве сообщается о возможности генерировать более 200 тысяч страниц в день на одном узле A100 40G.

Как оценить это в практическом стеке

Если ваши целевые документы — это типичные отчёты или книги, начните с режима Small с 100 токенами, затем корректируйте вверх, только если расстояние редактирования неприемлемо. Если ваши страницы содержат плотные маленькие шрифты или очень большое количество токенов, используйте режим Gundam, поскольку он сочетает глобальные и локальные поля зрения с явным планированием бюджета токенов.

Ключевые выводы

DeepSeek OCR нацелен на эффективность использования токенов, используя оптическое сжатие контекста с почти без потерь декодированием при сжатии примерно в 10 раз и около 60% точности при сжатии примерно в 20 раз.

Основные моменты:
* HF release выставляет явные бюджеты токенов. Tiny использует 64 токена при 512×512, Small использует 100 токенов при 640×640, Base использует 256 токенов при 1024×1024, Large использует 400 токенов при 1280×1280, а Gundam объединяет n представлений при 640×640 плюс одно глобальное представление при 1024×1024.
* Структура системы — это DeepEncoder, который сжимает страницы в визуальные токены, и DeepSeek3B MoE декодер с примерно 570 миллионами активных параметров.
* Hugging Face модельная карточка документирует проверенную настройку для немедленного использования, Python 3.12.9, CUDA 11.8, PyTorch 2.6.0, Transformers 4.46.3, Tokenizers 0.20.3 и Flash Attention 2.7.3.

Редакционные комментарии

DeepSeek OCR — это практический шаг для документального ИИ. Он обрабатывает страницы как компактные оптические носители, которые сокращают длину последовательности декодера без потери большей части информации.

Модельная карточка и технический отчёт описывают точность декодирования 97% при сжатии примерно в 10 раз на Fox benchmark, что является ключевым утверждением для проверки в реальных рабочих нагрузках.

1. Какие компоненты включает в себя модель DeepSeek-OCR и какие функции они выполняют?

* Модель DeepSeek-OCR состоит из двух компонентов: Vision encoder под названием DeepEncoder и Decoder под названием DeepSeek3B-MoE-A570M. Encoder предназначен для работы с изображениями высокого разрешения при низкой стоимости активации и небольшом количестве выходных токенов. Decoder — это модель MoE с 3 миллиардами параметров (DeepSeek3B-MoE-A570M) с примерно 570 миллионами активных параметров на токен.

2. Какие режимы работы поддерживает DeepSeek-OCR и для каких целей они разработаны?

* DeepSeek-OCR поддерживает нативные и динамические режимы. Нативные режимы: Tiny с 64 токенами при 512×512 пикселей, Small с 100 токенами при 640×640, Base с 256 токенами при 1024×1024 и Large с 400 токенами при 1280×1280. Динамические режимы под названием Gundam и Gundam-Master смешивают плиточные локальные представления с глобальным представлением. Они разработаны для работы с разными бюджетами токенов.

3. Какие результаты были получены при тестировании модели DeepSeek-OCR на Fox benchmark и OmniDocBench?

* При 100 визуальных токенах страницы с 600–700 текстовыми токенами достигают точности 98,5% при сжатии в 6,7 раза. Страницы с 900–1000 текстовыми токенами достигают точности 96,8% при сжатии в 9,7 раза. На OmniDocBench в отчёте указано, что DeepSeek-OCR превосходит GOT-OCR 2.0 при использовании всего 100 визуальных токенов на страницу и что при 800 визуальных токенах на страницу он превосходит MinerU 2.0.

4. Какие выводы можно сделать о практическом применении DeepSeek-OCR?

* DeepSeek OCR нацелен на эффективность использования токенов, используя оптическое сжатие контекста с почти без потерь декодированием при сжатии примерно в 10 раз и около 60% точности при сжатии примерно в 20 раз. Если ваши целевые документы — это типичные отчёты или книги, начните с режима Small с 100 токенами, затем корректируйте вверх, только если расстояние редактирования неприемлемо. Если ваши страницы содержат плотные маленькие шрифты или очень большое количество токенов, используйте режим Gundam.

5. Какие технические характеристики и инструменты используются для работы с моделью DeepSeek-OCR?

* Модельная карточка и технический отчёт описывают точность декодирования 97% при сжатии примерно в 10 раз на Fox benchmark. Для работы с моделью используются Hugging Face модельная карточка, Python 3.12.9, CUDA 11.8, PyTorch 2.6.0, Transformers 4.46.3, Tokenizers 0.20.3 и Flash Attention 2.7.3.

Источник