Компания DeepSeek-AI выпустила модель DeepSeek-OCR — это система Vision-Language Model (VLM), предназначенная для высокопроизводительного OCR и преобразования структурированных документов. Модель сжимает длинные тексты в небольшой набор визуальных токенов, а затем декодирует эти токены с помощью языковой модели.
Архитектура: что нового?
DeepSeek-OCR-3B состоит из двух компонентов:
* Vision encoder под названием DeepEncoder;
* Decoder под названием DeepSeek3B-MoE-A570M.
Encoder предназначен для работы с изображениями высокого разрешения при низкой стоимости активации и небольшом количестве выходных токенов. Он использует этап оконного внимания на основе SAM для локального восприятия, двухслойный свёрточный компрессор для 16-кратного понижения дискретизации токенов и плотный этап глобального внимания на основе CLIP для агрегации визуальных знаний.
Decoder — это модель MoE с 3 миллиардами параметров (DeepSeek3B-MoE-A570M) с примерно 570 миллионами активных параметров на токен.
Режимы с несколькими разрешениями, разработанные для бюджетов токенов
DeepEncoder поддерживает нативные и динамические режимы. Нативные режимы: Tiny с 64 токенами при 512×512 пикселей, Small с 100 токенами при 640×640, Base с 256 токенами при 1024×1024 и Large с 400 токенами при 1280×1280.
Динамические режимы под названием Gundam и Gundam-Master смешивают плиточные локальные представления с глобальным представлением.
Результаты сжатия: что говорят цифры
Исследование на основе Fox benchmark измеряет точность как точное соответствие текста после декодирования. При 100 визуальных токенах страницы с 600–700 текстовыми токенами достигают точности 98,5% при сжатии в 6,7 раза. Страницы с 900–1000 текстовыми токенами достигают точности 96,8% при сжатии в 9,7 раза.
На OmniDocBench в отчёте указано, что DeepSeek-OCR превосходит GOT-OCR 2.0 при использовании всего 100 визуальных токенов на страницу и что при 800 визуальных токенах на страницу он превосходит MinerU 2.0, который использует в среднем более 6000 токенов на страницу.
Подробности обучения
Исследовательская группа описывает двухэтапный конвейер обучения. Сначала DeepEncoder обучается с предсказанием следующего токена на данных OCR 1.0 и OCR 2.0 и 100 миллионах образцов LAION, затем обучается полная система с параллелизмом конвейера на 4 разделах.
Для оборудования использовался 20 узлов, каждый с 8 A100 40G GPU, и использовался AdamW. Команда сообщает о скорости обучения 90 миллиардов токенов в день на текстовых данных и 70 миллиардов токенов в день на мультимодальных данных. В производстве сообщается о возможности генерировать более 200 тысяч страниц в день на одном узле A100 40G.
Как оценить это в практическом стеке
Если ваши целевые документы — это типичные отчёты или книги, начните с режима Small с 100 токенами, затем корректируйте вверх, только если расстояние редактирования неприемлемо. Если ваши страницы содержат плотные маленькие шрифты или очень большое количество токенов, используйте режим Gundam, поскольку он сочетает глобальные и локальные поля зрения с явным планированием бюджета токенов.
Ключевые выводы
DeepSeek OCR нацелен на эффективность использования токенов, используя оптическое сжатие контекста с почти без потерь декодированием при сжатии примерно в 10 раз и около 60% точности при сжатии примерно в 20 раз.
Основные моменты:
* HF release выставляет явные бюджеты токенов. Tiny использует 64 токена при 512×512, Small использует 100 токенов при 640×640, Base использует 256 токенов при 1024×1024, Large использует 400 токенов при 1280×1280, а Gundam объединяет n представлений при 640×640 плюс одно глобальное представление при 1024×1024.
* Структура системы — это DeepEncoder, который сжимает страницы в визуальные токены, и DeepSeek3B MoE декодер с примерно 570 миллионами активных параметров.
* Hugging Face модельная карточка документирует проверенную настройку для немедленного использования, Python 3.12.9, CUDA 11.8, PyTorch 2.6.0, Transformers 4.46.3, Tokenizers 0.20.3 и Flash Attention 2.7.3.
Редакционные комментарии
DeepSeek OCR — это практический шаг для документального ИИ. Он обрабатывает страницы как компактные оптические носители, которые сокращают длину последовательности декодера без потери большей части информации.
Модельная карточка и технический отчёт описывают точность декодирования 97% при сжатии примерно в 10 раз на Fox benchmark, что является ключевым утверждением для проверки в реальных рабочих нагрузках.
1. Какие компоненты включает в себя модель DeepSeek-OCR и какие функции они выполняют?
* Модель DeepSeek-OCR состоит из двух компонентов: Vision encoder под названием DeepEncoder и Decoder под названием DeepSeek3B-MoE-A570M. Encoder предназначен для работы с изображениями высокого разрешения при низкой стоимости активации и небольшом количестве выходных токенов. Decoder — это модель MoE с 3 миллиардами параметров (DeepSeek3B-MoE-A570M) с примерно 570 миллионами активных параметров на токен.
2. Какие режимы работы поддерживает DeepSeek-OCR и для каких целей они разработаны?
* DeepSeek-OCR поддерживает нативные и динамические режимы. Нативные режимы: Tiny с 64 токенами при 512×512 пикселей, Small с 100 токенами при 640×640, Base с 256 токенами при 1024×1024 и Large с 400 токенами при 1280×1280. Динамические режимы под названием Gundam и Gundam-Master смешивают плиточные локальные представления с глобальным представлением. Они разработаны для работы с разными бюджетами токенов.
3. Какие результаты были получены при тестировании модели DeepSeek-OCR на Fox benchmark и OmniDocBench?
* При 100 визуальных токенах страницы с 600–700 текстовыми токенами достигают точности 98,5% при сжатии в 6,7 раза. Страницы с 900–1000 текстовыми токенами достигают точности 96,8% при сжатии в 9,7 раза. На OmniDocBench в отчёте указано, что DeepSeek-OCR превосходит GOT-OCR 2.0 при использовании всего 100 визуальных токенов на страницу и что при 800 визуальных токенах на страницу он превосходит MinerU 2.0.
4. Какие выводы можно сделать о практическом применении DeepSeek-OCR?
* DeepSeek OCR нацелен на эффективность использования токенов, используя оптическое сжатие контекста с почти без потерь декодированием при сжатии примерно в 10 раз и около 60% точности при сжатии примерно в 20 раз. Если ваши целевые документы — это типичные отчёты или книги, начните с режима Small с 100 токенами, затем корректируйте вверх, только если расстояние редактирования неприемлемо. Если ваши страницы содержат плотные маленькие шрифты или очень большое количество токенов, используйте режим Gundam.
5. Какие технические характеристики и инструменты используются для работы с моделью DeepSeek-OCR?
* Модельная карточка и технический отчёт описывают точность декодирования 97% при сжатии примерно в 10 раз на Fox benchmark. Для работы с моделью используются Hugging Face модельная карточка, Python 3.12.9, CUDA 11.8, PyTorch 2.6.0, Transformers 4.46.3, Tokenizers 0.20.3 и Flash Attention 2.7.3.