NuMind AI официально выпустила NuMarkdown-8B-Thinking — модель OCR Vision-Language (VLM) с открытым исходным кодом (лицензия MIT), которая переопределяет способы оцифровки и структурирования сложных документов. В отличие от традиционных систем OCR, NuMarkdown-8B-Thinking не просто извлекает текст — она анализирует структуру документа, прежде чем создать точный файл в формате Markdown, готовый к использованию.
Основные отличия NuMarkdown-8B-Thinking
Модель использует подход, основанный на рассуждениях. Вместо того чтобы напрямую отображать извлечённый текст, NuMarkdown-8B-Thinking генерирует «токены рассуждений» — внутренние шаги, которые помогают ей понять структуру документа, прежде чем выдать конечный результат.
Эта возможность позволяет модели работать с форматами и структурами, которые ставят в тупик большинство традиционных систем OCR, включая:
* многоколоночные макеты со сложным порядком чтения;
* таблицы со слиянием, вложенными или нерегулярными ячейками;
* смешанные визуальные элементы (изображения, декоративные заголовки, водяные знаки);
* исторические или повреждённые сканы, где важно определить макет.
Количество токенов рассуждений зависит от сложности — от 20 % до 500 % от конечной длины Markdown, показывая, сколько модель «думает», прежде чем «пишет».
Обучение и архитектура
NuMarkdown-8B-Thinking — это доработанная версия Qwen 2.5-VL-7B от Alibaba — одной из самых мощных доступных мультимодальных моделей с открытым исходным кодом.
Её обучающий конвейер включал два ключевых этапа:
1. Контролируемая тонкая настройка (SFT) на синтетических образцах документов, где каждый пример включал:
* исходный документ;
* промежуточные этапы рассуждений (анализ макета, вывод структуры);
* окончательное представление в формате Markdown.
2. Обучение с подкреплением (GRPO) с использованием вознаграждения, ориентированного на макет, которое поощряло точное восстановление форматирования документа и пространственных отношений.
Этот двухэтапный процесс дал NuMarkdown-8B-Thinking возможность поддерживать высокую точность даже на сложных макетах, которые обычно требуют человеческого суждения.
Результаты тестирования
В независимых оценках и пользовательских тестах NuMarkdown-8B-Thinking демонстрирует передовые возможности рассуждений для задач OCR-to-Markdown:
* превосходит общие модели, такие как GPT-4o;
* превосходит специализированные модели, ориентированные на OCR, такие как OCRFlux;
* конкурирует с крупными закрытыми моделями рассуждений, такими как Gemini 2.5;
* уступает элитным моделям, таким как Gemini Flash Reasoning, в слепых многомодельных пользовательских рейтингах.
Пользователи особенно отмечают её способность:
* правильно определять порядок чтения в нелинейных макетах;
* сохранять сложное форматирование таблиц;
* выводить чистый, удобный для синтаксического анализа Markdown для использования в RAG без дополнительной постобработки.
Варианты развёртывания
NuMarkdown-8B-Thinking готова встроиться в ваш рабочий процесс, будь вы исследователем, разработчиком или инженером по искусственному интеллекту на предприятии:
* Hugging Face: доступно для прямого тестирования и интеграции.
* Локальное исполнение: модели и квантованные версии GGUF опубликованы для развёртывания на CPU/GPU.
* API-дружественность: совместима с API в стиле OpenAI и Hugging Face Transformers для быстрой интеграции в конвейеры.
Её лицензия MIT обеспечивает полную свободу для коммерческих, академических или личных проектов — без привязки к поставщику или дорогостоящих API-шлюзов.
Почему это важно
Для отраслей, которые полагаются на точную оцифровку документов — финансы, юриспруденция, здравоохранение, государственные архивы — точность макета так же важна, как и точность текста. Большинство систем OCR рассматривают макет как второстепенный вопрос; NuMarkdown-8B-Thinking рассматривает его как проблему рассуждений.
Сочетая открытый исходный код, логику рассуждений и оптимизированный для RAG вывод в формате Markdown, NuMarkdown-8B-Thinking предлагает прозрачную, поддающуюся проверке и высокопроизводительную альтернативу проприетарным решениям искусственного интеллекта для работы с документами.
Ознакомьтесь с моделью на Hugging Face и на странице GitHub. Не стесняйтесь посетить нашу страницу GitHub, чтобы ознакомиться с учебными пособиями, кодами и ноутбуками. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.
⭐ Поставьте нам звезду на GitHub
Присоединяйтесь к нашему ML Subreddit
Спонсируйте нас
1. Какие преимущества NuMarkdown-8B-Thinking предлагает по сравнению с традиционными системами OCR?
NuMarkdown-8B-Thinking отличается от традиционных систем OCR тем, что не только извлекает текст, но и анализирует структуру документа. Это позволяет модели работать с форматами и структурами, которые ставят в тупик большинство традиционных систем OCR, такими как многоколоночные макеты, таблицы со слиянием ячеек и смешанные визуальные элементы.
2. Какие этапы включает в себя обучающий конвейер NuMarkdown-8B-Thinking?
Обучающий конвейер NuMarkdown-8B-Thinking включает два ключевых этапа: контролируемую тонкую настройку (SFT) на синтетических образцах документов и обучение с подкреплением (GRPO) с использованием вознаграждения, ориентированного на макет.
3. Какие результаты демонстрирует NuMarkdown-8B-Thinking в независимых оценках и пользовательских тестах?
В независимых оценках и пользовательских тестах NuMarkdown-8B-Thinking демонстрирует передовые возможности рассуждений для задач OCR-to-Markdown. Она превосходит общие модели, такие как GPT-4o, и специализированные модели, ориентированные на OCR, такие как OCRFlux. Также она конкурирует с крупными закрытыми моделями рассуждений, такими как Gemini 2.5.
4. Какие варианты развёртывания предлагает NuMarkdown-8B-Thinking?
NuMarkdown-8B-Thinking готова встроиться в рабочий процесс пользователя. Её можно использовать через Hugging Face, для локального исполнения на CPU/GPU и через API-дружественный интерфейс, совместимый с API в стиле OpenAI и Hugging Face Transformers.
5. Почему точность макета важна для отраслей, которые полагаются на точную оцифровку документов?
Точность макета важна для отраслей, таких как финансы, юриспруденция, здравоохранение и государственные архивы, поскольку она обеспечивает не только точность текста, но и правильное представление структуры документа. NuMarkdown-8B-Thinking рассматривает макет как проблему рассуждений, что позволяет ей поддерживать высокую точность даже на сложных макетах.