Встречайте dots.ocr: новая модель vision-language на 1,7 миллиарда параметров, которая демонстрирует передовые результаты в многоязычном анализе документов

dots.ocr — это модель-трансформер с открытым исходным кодом, разработанная для анализа структуры многоязычных документов и оптического распознавания символов (OCR). Она объединяет в себе обнаружение структуры и распознавание контента в рамках единой архитектуры, поддерживая более 100 языков и широкий спектр структурированных и неструктурированных типов документов.

Архитектура

Единая модель: dots.ocr объединяет обнаружение структуры и распознавание контента в единую нейронную сеть на основе трансформера. Это устраняет сложность отдельных конвейеров обнаружения и OCR, позволяя пользователям переключаться между задачами, настраивая входные запросы.

Параметры: модель содержит 1,7 миллиарда параметров, обеспечивая баланс между вычислительной эффективностью и производительностью для большинства практических сценариев.

Гибкость ввода: на вход можно подавать файлы изображений или PDF-документы. Модель имеет параметры предварительной обработки (например, fitz_preprocess) для оптимизации качества файлов с низким разрешением или плотных многостраничных файлов.

Возможности

Многоязычность: dots.ocr обучен на наборах данных, охватывающих более 100 языков, включая основные мировые языки и менее распространённые письменности, что отражает широкую многоязычную поддержку.

Извлечение контента: модель извлекает обычный текст, табличные данные, математические формулы (в LaTeX) и сохраняет порядок чтения внутри документов. Форматы вывода включают структурированный JSON, Markdown и HTML, в зависимости от макета и типа контента.

Сохранение структуры: dots.ocr сохраняет структуру документа, включая границы таблиц, области формул и размещение изображений, обеспечивая соответствие извлечённых данных исходному документу.

Бенчмарк

dots.ocr был оценён по сравнению с современными системами искусственного интеллекта для работы с документами, результаты представлены ниже:

| Бенчмарк | dots.ocr | Gemini2.5-Pro |
| — | — | — |
| Точность таблиц (TEDS) | 88,6% | 85,8% |
| Расстояние редактирования текста | 0,032 | 0,055 |

Результаты:

Таблицы: превосходит Gemini2.5-Pro по точности анализа таблиц.

Текст: демонстрирует меньшее расстояние редактирования текста (что указывает на более высокую точность).

Формулы и макет: соответствует или превосходит ведущие модели в распознавании формул и восстановлении структуры документа.

Развёртывание и интеграция

Открытый исходный код: выпущен под лицензией MIT, исходный код, документация и предварительно обученные модели доступны на GitHub. Репозиторий содержит инструкции по установке для pip, Conda и развёртывания на основе Docker.

API и скрипты: поддерживает гибкую настройку задач с помощью шаблонов запросов. Модель можно использовать интерактивно или в рамках автоматизированных конвейеров для пакетной обработки документов.

Форматы вывода: извлечённые результаты предоставляются в структурированном JSON для программного использования, с опциями для Markdown и HTML, где это уместно.

Заключение

dots.ocr представляет собой техническое решение для высокоточного многоязычного анализа документов, объединяя обнаружение структуры и распознавание контента в единой модели с открытым исходным кодом. Он особенно подходит для сценариев, требующих надёжного, независимого от языка анализа документов и извлечения структурированной информации в условиях ограниченных ресурсов или производственных средах.

Ознакомьтесь с нашей страницей на GitHub. Не стесняйтесь заглядывать на нашу страницу GitHub за учебными пособиями, кодами и ноутбуками. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.

Партнёрство с Marktechpost для продвижения.
Статья «Встречайте dots.ocr: новая модель vision-language на 1,7 миллиарда параметров, которая демонстрирует передовые результаты в многоязычном анализе документов» впервые опубликована на MarkTechPost.

1. Какие ключевые особенности модели dots.ocr делают её привлекательной для использования в многоязычном анализе документов?

Ответ: Модель dots.ocr объединяет обнаружение структуры и распознавание контента в единую нейронную сеть на основе трансформера. Она поддерживает более 100 языков и способна работать с широким спектром структурированных и неструктурированных типов документов. Кроме того, модель имеет параметры предварительной обработки для оптимизации качества файлов с низким разрешением или плотных многостраничных файлов.

2. Какие результаты были получены при сравнении dots.ocr с другими системами искусственного интеллекта для работы с документами?

Ответ: При сравнении с Gemini2.5-Pro модель dots.ocr продемонстрировала более высокую точность анализа таблиц (88,6% против 85,8%) и меньшее расстояние редактирования текста (0,032 против 0,055), что указывает на более высокую точность. Также модель соответствует или превосходит ведущие модели в распознавании формул и восстановлении структуры документа.

3. Какие возможности предоставляет модель dots.ocr для извлечения контента из документов?

Ответ: Модель dots.ocr способна извлекать обычный текст, табличные данные, математические формулы (в LaTeX) и сохранять порядок чтения внутри документов. Форматы вывода включают структурированный JSON, Markdown и HTML, в зависимости от макета и типа контента.

4. Как можно использовать модель dots.ocr в практических сценариях?

Ответ: Модель dots.ocr подходит для сценариев, требующих надёжного, независимого от языка анализа документов и извлечения структурированной информации в условиях ограниченных ресурсов или производственных средах. Например, её можно использовать для автоматизации обработки документов в различных организациях.

5. Где можно найти дополнительную информацию и ресурсы для работы с моделью dots.ocr?

Ответ: Дополнительную информацию и ресурсы для работы с моделью dots.ocr можно найти на странице проекта на GitHub, где доступны исходный код, документация и предварительно обученные модели. Также можно подписаться на сообщество в SubReddit (более 100 тысяч участников машинного обучения) и подписаться на рассылку.

Источник