DeepSeek AI выпускает DeepSeek-OCR 2 с использованием Causal Visual Flow Encoder для понимания структуры документов

Компания DeepSeek AI выпустила систему оптического распознавания символов (OCR) и понимания документов с открытым исходным кодом — DeepSeek-OCR 2. Эта система реструктурирует свой визуальный энкодер так, чтобы считывать страницы в причинно-следственном порядке, более близком к тому, как люди просматривают сложные документы.

Ключевой компонент — DeepEncoder V2

DeepEncoder V2 — это языковая модель в стиле трансформатора, которая преобразует двумерную страницу в одномерную последовательность визуальных токенов, уже следующих изученному порядку чтения, прежде чем начнётся декодирование текста.

От raster order к causal visual flow

Большинство мультимодальных моделей по-прежнему преобразуют изображения в фиксированную растровую последовательность сверху вниз и слева направо и применяют трансформер со статическими позиционными кодировками. Это плохо подходит для документов с многоколоночной вёрсткой, вложенными таблицами и смешанными языковыми областями. Читатели-люди вместо этого следуют семантическому порядку, перескакивая между областями.

DeepSeek-OCR 2 сохраняет структуру кодировщика и декодировщика DeepSeek-OCR, но заменяет оригинальный визуальный энкодер на основе CLIP ViT на DeepEncoder V2. Декодер остаётся DeepSeek-3B-A500M — языковая модель MoE с примерно 3 миллиардами общих параметров и примерно 500 миллионами активных параметров на токен.

Токенизатор зрения и бюджет токенов

Токенизатор зрения унаследован от DeepSeek-OCR. Он использует базовую основу SAM с 80 миллионами параметров, за которой следуют 2 слоя свёртки. На этом этапе изображение уменьшается так, что количество визуальных токенов сокращается в 16 раз, а функции сжимаются до измерения встраивания, равного 896.

DeepSeek-OCR 2 использует глобальную и локальную стратегию мульти-обрезки, чтобы охватить плотные страницы, не допуская при этом резкого роста количества токенов. Глобальный вид с разрешением 1024 × 1024 создаёт 256 токенов. До 6 локальных обрезок с разрешением 768 × 768 добавляют по 144 токена каждая. В результате количество визуальных токенов варьируется от 256 до 1120 на страницу.

DeepEncoder-V2, языковая модель как визуальный энкодер

DeepEncoder-V2 построен путём создания экземпляра трансформатора в стиле Qwen2-0.5B в качестве визуального энкодера. Входная последовательность строится следующим образом:
* все визуальные токены из токенизатора формируют префикс;
* к суффиксу добавляется набор обучаемых запросных токенов, называемых токенами причинно-следственного потока.

Количество токенов причинно-следственного потока равно количеству визуальных токенов.

Этапы обучения

1. Предварительное обучение кодировщика. На первом этапе DeepEncoder-V2 соединяется с небольшим декодером и использует стандартную цель языкового моделирования. Модель обучается при разрешениях 768×768 и 1024×1024 с мультимасштабной выборкой.
2. Улучшение запроса. На втором этапе DeepEncoder-V2 подключается к DeepSeek-3B-A500M и вводит мульти-обрезку. Токенизатор замораживается. Кодировщик и декодировщик обучаются совместно с 4-этапным конвейерным параллелизмом и 40 репликами для параллельной обработки данных.
3. Тонкая настройка декодера. На третьем этапе все параметры кодировщика замораживаются. Только декодер DeepSeek обучается для лучшей адаптации к переупорядоченным визуальным токенам.

Результаты тестирования на OmniDocBench

Основная оценка использует OmniDocBench-v1.5. Этот бенчмарк содержит 1355 страниц в 9 категориях документов на китайском и английском языках, включая книги, научные статьи, формы, презентации и газеты. Каждая страница аннотирована элементами макета, такими как текстовые фрагменты, уравнения, таблицы и рисунки.

DeepSeek-OCR 2 достигает общего балла OmniDocBench 91,09 при максимальном количестве визуальных токенов 1120. Исходный базовый уровень DeepSeek-OCR набирает 87,36 при максимальном количестве токенов 1156. Таким образом, DeepSeek-OCR 2 набирает 3,73 балла, используя при этом немного меньший бюджет токенов.

Основные выводы

* DeepSeek-OCR 2 заменяет энкодер в стиле CLIP ViT на DeepEncoder-V2 — энкодер на основе языковой модели Qwen2-0.5B, который преобразует двумерную страницу документа в одномерную последовательность токенов причинно-следственного потока, выровненных с изученным порядком чтения.
* Токенизатор зрения использует SAM с 80 миллионами параметров, свёрточные слои, глобальный и локальный виды мульти-обрезки и поддерживает бюджет визуальных токенов между 256 и 1120 токенами на страницу.
* Обучение проходит в три этапа: предварительное обучение кодировщика, совместное улучшение запроса с DeepSeek-3B-A500M и тонкая настройка только декодера с замороженным кодировщиком.
* На OmniDocBench v1.5 с 1355 страницами и 9 категориями документов DeepSeek-OCR 2 достигает общего балла 91,09 по сравнению с 87,36 для DeepSeek-OCR, уменьшает расстояние редактирования порядка чтения с 0,085 до 0,057 и достигает уровня редактирования элементов 0,100 по сравнению с 0,129 для DeepSeek-OCR и 0,115 для Gemini-3 Pro при аналогичных бюджетах визуальных токенов.

1. Какие ключевые инновации были внедрены в систему DeepSeek-OCR 2 по сравнению с предыдущими версиями OCR-систем?

Ответ: DeepSeek-OCR 2 использует Causal Visual Flow Encoder, который реструктурирует визуальный энкодер для считывания страниц в причинно-следственном порядке, более близком к тому, как люди просматривают сложные документы. Это отличает её от предыдущих версий, которые использовали фиксированную растровую последовательность для преобразования изображений.

2. Какие этапы включает в себя процесс обучения DeepSeek-OCR 2?

Ответ: процесс обучения DeepSeek-OCR 2 включает в себя три этапа: предварительное обучение кодировщика, улучшение запроса и тонкая настройка декодера. На первом этапе DeepEncoder-V2 соединяется с небольшим декодером и использует стандартную цель языкового моделирования. На втором этапе DeepEncoder-V2 подключается к DeepSeek-3B-A500M и вводит мульти-обрезку. На третьем этапе все параметры кодировщика замораживаются, и обучается только декодер DeepSeek для лучшей адаптации к переупорядоченным визуальным токенам.

3. Какие преимущества предоставляет использование DeepEncoder V2 в системе DeepSeek-OCR 2?

Ответ: использование DeepEncoder V2 в системе DeepSeek-OCR 2 позволяет преобразовывать двумерную страницу документа в одномерную последовательность токенов причинно-следственного потока, выровненных с изученным порядком чтения. Это улучшает понимание структуры документов и позволяет более эффективно обрабатывать многоколоночную вёрстку, вложенные таблицы и смешанные языковые области.

4. Какие результаты были достигнуты DeepSeek-OCR 2 на бенчмарке OmniDocBench?

Ответ: на бенчмарке OmniDocBench v1.5 DeepSeek-OCR 2 достигает общего балла 91,09 при максимальном количестве визуальных токенов 1120. Это на 3,73 балла больше, чем у исходного базового уровня DeepSeek-OCR, который набирает 87,36 при максимальном количестве токенов 1156. Таким образом, DeepSeek-OCR 2 демонстрирует улучшение в обработке сложных документов.

5. Какие параметры и стратегии используются в токенизаторе зрения DeepSeek-OCR 2 для оптимизации работы с визуальными токенами?

Ответ: в токенизаторе зрения DeepSeek-OCR 2 используется базовая основа SAM с 80 миллионами параметров, за которой следуют 2 слоя свёртки. Изображение уменьшается так, что количество визуальных токенов сокращается в 16 раз, а функции сжимаются до измерения встраивания, равного 896. Также используется глобальная и локальная стратегия мульти-обрезки, чтобы охватить плотные страницы, не допуская при этом резкого роста количества токенов.

Источник