IBM выпустила модель искусственного интеллекта для работы с документами Granite-Docling-258M

IBM представила модель Granite-Docling-258M — это модель искусственного интеллекта для работы с документами с открытым исходным кодом (Apache-2.0), предназначенная для комплексного преобразования документов. Модель ориентирована на точное извлечение структуры — таблиц, кода, уравнений, списков, подписей и порядка чтения — и выдаёт структурированное, машиночитаемое представление, а не Markdown с потерями. Она доступна на Hugging Face с демонстрацией в реальном времени и сборкой MLX для Apple Silicon.

Что нового по сравнению со SmolDocling?

Granite-Docling — это готовый к использованию аналог SmolDocling-256M. IBM заменила предыдущую основу на языковую модель Granite 165M и обновила визуальный кодировщик до SigLIP2 (base, patch16-512), сохранив при этом коннектор в стиле Idefics3 (пиксельный шейпер). В результате модель имеет 258 миллионов параметров и демонстрирует последовательное повышение точности при анализе структуры, полностраничном OCR, коде, уравнениях и таблицах (см. показатели ниже). IBM также устранила нестабильность, наблюдаемую в предварительной модели (например, повторяющиеся циклы токенов).

Архитектура и обучающий конвейер

* Основа: стек, производный от Idefics3, с визуальным кодировщиком SigLIP2 → коннектор с пиксельным шейпером → Granite 165M LLM.
* Обучающий фреймворк: nanoVLM (облегчённый, чисто PyTorch VLM обучающий инструментарий).
* Представление: выдаёт DocTags — авторскую разметку IBM, предназначенную для однозначного представления структуры документа (элементы + координаты + отношения), которую последующие инструменты преобразуют в Markdown/HTML/JSON.
* Вычислительные ресурсы: обучена на кластере IBM Blue Vela H100.

Количественные улучшения (Granite-Docling-258M против SmolDocling-256M)

Оценено с помощью docling-eval, LMMS-Eval и наборов данных для конкретных задач:
* Макет: MAP 0,27 против 0,23; F1 0,86 против 0,85.
* Полностраничное OCR: F1 0,84 против 0,80; меньшее расстояние редактирования.
* Распознавание кода: F1 0,988 против 0,915; расстояние редактирования 0,013 против 0,114.
* Распознавание уравнений: F1 0,968 против 0,947.
* Распознавание таблиц (FinTabNet @150dpi): структура TEDS 0,97 против 0,82; TEDS с контентом 0,96 против 0,76.
* Другие тесты: MMStar 0,30 против 0,17; OCRBench 500 против 338.
* Стабильность: «Более эффективно избегает бесконечных циклов» (ориентированная на производство настройка).

Многоязычная поддержка

Granite-Docling добавляет экспериментальную поддержку японского, арабского и китайского языков. IBM отмечает, что это ранняя стадия; основным языком остаётся английский.

Как путь DocTags меняет Document AI

Обычные конвейеры OCR-to-Markdown теряют структурную информацию и усложняют последующее извлечение с генерацией на основе извлечения (RAG). Granite-Docling выдаёт DocTags — компактную, удобную для LLM структурную грамматику, которую Docling преобразует в Markdown/HTML/JSON. Это сохраняет топологию таблиц, встроенные/плавающие математические выражения, блоки кода, подписи и порядок чтения с явными координатами, улучшая качество индекса и основы для RAG и аналитики.

Выводы и интеграция

* Интеграция Docling (рекомендуется): Docling CLI/SDK автоматически загружает Granite-Docling и преобразует PDF-файлы, офисные документы и изображения в несколько форматов. IBM позиционирует модель как компонент внутри конвейеров Docling, а не как общий VLM.
* Время выполнения: работает с Transformers, vLLM, ONNX и MLX; выделенная сборка MLX оптимизирована для Apple Silicon. Пространство Hugging Face предоставляет интерактивную демонстрацию (ZeroGPU).
* Лицензия: Apache-2.0.

Почему стоит выбрать Granite-Docling?

Для корпоративного документа AI небольшие VLM, сохраняющие структуру, снижают затраты на вывод и сложность конвейера. Granite-Docling заменяет несколько одноцелевых моделей (макет, OCR, таблицы, код, уравнения) одним компонентом, который выдаёт более богатое промежуточное представление, улучшая последующий поиск и точность преобразования. Измеренные преимущества — в TEDS для таблиц, F1 для кода/уравнений и снижение нестабильности — делают его практическим обновлением по сравнению со SmolDocling для производственных рабочих процессов.

Демонстрация

Проверьте модели на Hugging Face и демонстрацию здесь. Ознакомьтесь с нашей страницей GitHub, чтобы найти учебные пособия, коды и блокноты. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.

1. Какие основные улучшения были внесены в модель Granite-Docling-258M по сравнению с предыдущей моделью SmolDocling-256M?

Ответ: IBM заменила предыдущую основу на языковую модель Granite 165M и обновила визуальный кодировщик до SigLIP2 (base, patch16-512), сохранив при этом коннектор в стиле Idefics3 (пиксельный шейпер). В результате модель имеет 258 миллионов параметров и демонстрирует последовательное повышение точности при анализе структуры, полностраничном OCR, коде, уравнениях и таблицах. Также была устранена нестабильность, наблюдаемая в предварительной модели.

2. Какие количественные улучшения были достигнуты в Granite-Docling-258M по сравнению с SmolDocling-256M в различных задачах?

Ответ: Оценено с помощью docling-eval, LMMS-Eval и наборов данных для конкретных задач:
* Макет: MAP 0,27 против 0,23; F1 0,86 против 0,85.
* Полностраничное OCR: F1 0,84 против 0,80; меньшее расстояние редактирования.
* Распознавание кода: F1 0,988 против 0,915; расстояние редактирования 0,013 против 0,114.
* Распознавание уравнений: F1 0,968 против 0,947.
* Распознавание таблиц (FinTabNet @150dpi): структура TEDS 0,97 против 0,82; TEDS с контентом 0,96 против 0,76.
* Другие тесты: MMStar 0,30 против 0,17; OCRBench 500 против 338.

3. Какие новые возможности предоставляет модель Granite-Docling-258M в плане многоязычной поддержки?

Ответ: Granite-Docling добавляет экспериментальную поддержку японского, арабского и китайского языков. Однако основным языком остаётся английский. IBM отмечает, что это ранняя стадия развития многоязычной поддержки.

4. Как использование DocTags в модели Granite-Docling-258M влияет на процесс Document AI?

Ответ: Обычные конвейеры OCR-to-Markdown теряют структурную информацию и усложняют последующее извлечение с генерацией на основе извлечения (RAG). Granite-Docling выдаёт DocTags — компактную, удобную для LLM структурную грамматику, которую Docling преобразует в Markdown/HTML/JSON. Это сохраняет топологию таблиц, встроенные/плавающие математические выражения, блоки кода, подписи и порядок чтения с явными координатами, улучшая качество индекса и основы для RAG и аналитики.

5. Какие рекомендации даёт IBM по интеграции модели Granite-Docling-258M в производственные рабочие процессы?

Ответ: IBM позиционирует модель как компонент внутри конвейеров Docling, а не как общий VLM. Для интеграции рекомендуется использовать Docling CLI/SDK, который автоматически загружает Granite-Docling и преобразует PDF-файлы, офисные документы и изображения в несколько форматов. Также указано, что модель работает с Transformers, vLLM, ONNX и MLX; выделенная сборка MLX оптимизирована для Apple Silicon.

Источник