Mistral AI выпустила модель оптического распознавания символов Mistral OCR 3

Компания Mistral AI представила свою новейшую модель оптического распознавания символов (OCR) — Mistral OCR 3. Эта модель является частью стека Document AI компании и предназначена для извлечения текста и изображений из PDF-файлов и других документов с сохранением структуры.

Основные характеристики Mistral OCR 3:

* Оптимизация: модель настроена для работы с формами, отсканированными документами, сложными таблицами и рукописным текстом.
* Цена: агрессивная цена — 2 доллара за 1000 страниц с 50% скидкой при использовании через Batch API.

Что оптимизировано в Mistral OCR 3?

Модель Mistral OCR 3 ориентирована на типичные рабочие нагрузки с корпоративными документами. Она настроена для работы с формами, отсканированными документами, сложными таблицами и рукописным текстом. Модель оценивается по внутренним бенчмаркам, основанным на реальных бизнес-сценариях, где она достигает общего показателя выигрыша в 74% по сравнению с Mistral OCR 2 в этих категориях документов.

Роль в Mistral Document AI

OCR 3 входит в состав Mistral Document AI — возможности компании по обработке документов, которая сочетает OCR с извлечением структурированных данных и Document QnA.

Теперь модель поддерживает Document AI Playground в Mistral AI Studio. В этом интерфейсе пользователи загружают PDF-файлы или изображения и получают обратно либо чистый текст, либо структурированный JSON без написания кода. Тот же базовый конвейер OCR доступен через общедоступный API, что позволяет командам переходить от интерактивного исследования к производственным нагрузкам без изменения основной модели.

Входы, выходы и структура

Процессор OCR принимает несколько форматов документов через единый API. Поле документа может указывать на:

* `document_url` для PDF, PPTX, DOCX и других;
* `image_url` для таких типов изображений, как PNG, JPEG или AVIF;
* загруженные или закодированные в base64 PDF-файлы или изображения по той же схеме.

Ответ представляет собой объект JSON с массивом `pages`. Каждая страница содержит индекс, строку Markdown, список изображений, список таблиц, когда используется `table_format=»html»`, обнаруженные гиперссылки, необязательные поля заголовка и нижнего колонтитула, когда включена функция извлечения заголовков или нижних колонтитулов, и объект `dimensions` с размером страницы.

Также имеется поле `documentannotation` для структурированных аннотаций и блок `usageinfo` для учётной информации.

Когда извлекаются изображения и HTML-таблицы, в Markdown включаются такие заполнители, как `![img-0.jpeg](img-0.jpeg)` и `[tbl-3.html](tbl-3.html)`. Эти заполнители сопоставляются с фактическим содержимым с помощью массивов `images` и `tables` в ответе, что упрощает последующую реконструкцию.

Обновления по сравнению с Mistral OCR 2

Mistral OCR 3 представляет несколько конкретных улучшений по сравнению с OCR 2. В публичных примечаниях к выпуску выделены четыре основные области:

* Рукописный ввод: Mistral OCR 3 более точно интерпретирует курсив, смешанные аннотации и рукописный текст, размещённый поверх печатных шаблонов.
* Формы: улучшает обнаружение полей, меток и рукописных записей в плотных макетах, таких как счета-фактуры, квитанции, формы соответствия и правительственные документы.
* Сканированные и сложные документы: модель более устойчива к артефактам сжатия, перекосу, искажениям, низкому DPI и фоновому шуму на отсканированных страницах.
* Сложные таблицы: восстанавливает структуры таблиц с заголовками, объединёнными ячейками, многострочными блоками и иерархиями столбцов, и может возвращать HTML-таблицы с соответствующими тегами colspan и rowspan, чтобы сохранить макет.

Ценообразование, пакетный вывод и аннотации

В карточке модели OCR 3 указана цена в 2 доллара за 1000 страниц для стандартного OCR и 3 доллара за 1000 аннотированных страниц при использовании структурированных аннотаций.

Mistral также предоставляет OCR 3 через свой Batch Inference API `/v1/batch`, который документирован в разделе пакетной обработки платформы. Пакетная обработка снижает эффективную цену OCR до 1 доллара за 1000 страниц, применяя 50% скидку для заданий, которые проходят через пакетный конвейер.

Модель интегрируется с двумя важными функциями на одной конечной точке: `Annotations – Structured and BBox Extraction`. Они позволяют разработчикам прикреплять метки, управляемые схемой, к областям документа и получать ограничивающие рамки для текста и других элементов, что полезно при сопоставлении контента с последующими системами или наложениями пользовательского интерфейса.

Ключевые выводы:

* Модель и роль: Mistral OCR 3, названная mistral-ocr-2512, является новой службой OCR, которая поддерживает стек Mistral Document AI для понимания документов на основе страниц.
* Точность: на внутренних бенчмарках, охватывающих формы, отсканированные документы, сложные таблицы и рукописный текст, OCR 3 достигает общего показателя выигрыша в 74% по сравнению с Mistral OCR 2.
* Структурированные выходные данные для RAG: служба извлекает перемежающийся текст и встроенные изображения и возвращает Markdown, обогащённый HTML-таблицами, сохраняя макет и структуру таблиц, чтобы выходные данные могли напрямую поступать в RAG, агенты и поисковые конвейеры с минимальным дополнительным анализом.
* API и форматы документов: разработчики получают доступ к OCR 3 через конечную точку `/v1/ocr` или SDK, передавая PDF-файлы как `documenturl` и изображения, такие как PNG или JPEG, как `imageurl`, и могут включать такие параметры, как вывод HTML-таблиц, извлечение заголовков или нижних колонтитулов и изображения в формате base64 в ответе.
* Ценообразование и пакетная обработка: OCR 3 стоит 2 доллара за 1000 страниц и 3 доллара за 1000 аннотированных страниц, а при использовании через Batch API эффективная цена для стандартного OCR снижается до 1 доллара за 1000 страниц для крупномасштабной обработки.

1. Какие типы документов может обрабатывать модель Mistral OCR 3?

Модель Mistral OCR 3 настроена для работы с формами, отсканированными документами, сложными таблицами и рукописным текстом.

2. Какие улучшения были внесены в модель Mistral OCR 3 по сравнению с предыдущей версией (Mistral OCR 2)?

Mistral OCR 3 более точно интерпретирует курсив, смешанные аннотации и рукописный текст, размещённый поверх печатных шаблонов. Также улучшено обнаружение полей, меток и рукописных записей в плотных макетах, таких как счета-фактуры, квитанции, формы соответствия и правительственные документы. Модель более устойчива к артефактам сжатия, перекосу, искажениям, низкому DPI и фоновому шуму на отсканированных страницах. Кроме того, она восстанавливает структуры таблиц с заголовками, объединёнными ячейками, многострочными блоками и иерархиями столбцов.

3. Какие форматы документов поддерживает Mistral OCR 3?

Процессор OCR принимает несколько форматов документов через единый API. Поле документа может указывать на:
* `document_url` для PDF, PPTX, DOCX и других;
* `image_url` для таких типов изображений, как PNG, JPEG или AVIF;
* загруженные или закодированные в base64 PDF-файлы или изображения.

4. Какова цена использования Mistral OCR 3?

Цена использования Mistral OCR 3 составляет 2 доллара за 1000 страниц для стандартного OCR и 3 доллара за 1000 аннотированных страниц при использовании структурированных аннотаций. При использовании через Batch API эффективная цена для стандартного OCR снижается до 1 доллара за 1000 страниц.

5. Какие возможности предоставляет Mistral OCR 3 для структурирования данных?

Ответ представляет собой объект JSON с массивом `pages`. Каждая страница содержит индекс, строку Markdown, список изображений, список таблиц, когда используется `tableformat=»html»`, обнаруженные гиперссылки, необязательные поля заголовка и нижнего колонтитула, когда включена функция извлечения заголовков или нижних колонтитулов, и объект `dimensions` с размером страницы. Также имеется поле `documentannotation` для структурированных аннотаций и блок `usage_info` для учётной информации.

Источник