Mistral AI выпустила модель оптического распознавания символов Mistral OCR 3

Компания Mistral AI представила свою новейшую модель оптического распознавания символов (OCR) — Mistral OCR 3. Эта модель является частью стека Document AI компании и предназначена для извлечения текста и изображений из структурированных документов, таких как PDF-файлы, сохраняя при этом структуру.

Основные характеристики Mistral OCR 3:

Оптимизация: модель настроена для работы с формами, отсканированными документами, сложными таблицами и рукописным текстом.

Цена: модель предлагает агрессивную цену — 2 доллара за 1000 страниц, а при использовании через Batch API предоставляется скидка 50%.

Формат вывода: модель выводит markdown, сохраняя макет документа. При включении табличного форматирования выходные данные обогащаются HTML-таблицами.

Роль в Mistral Document AI

OCR 3 является частью Mistral Document AI — возможности компании по обработке документов, которая объединяет OCR с извлечением структурированных данных и Document QnA.

Входы, выходы и структура

Входы: модель принимает несколько форматов документов через единый API. Поле документа может указывать на:

— `document_url` для PDF, PPTX, DOCX и других форматов;
— `image_url` для таких типов изображений, как PNG, JPEG или AVIF;
— Загруженные или закодированные в base64 PDF-файлы или изображения.

Выходы: ответ представляет собой объект JSON с массивом `pages`. Каждая страница содержит индекс, строку markdown, список изображений, список таблиц при использовании `table_format=»html»`, обнаруженные гиперссылки, необязательные поля заголовка и нижнего колонтитула и объект `dimensions` с размером страницы.

Преимущества перед Mistral OCR 2

Рукописный текст: Mistral OCR 3 более точно интерпретирует курсив, смешанные аннотации и рукописный текст, размещённый поверх печатных шаблонов.

Формы: модель улучшает обнаружение полей, меток и рукописных записей в плотных макетах, таких как счета-фактуры, квитанции, формы соответствия и правительственные документы.

Сканированные и сложные документы: модель более устойчива к артефактам сжатия, перекосам, искажениям, низкому DPI и фоновому шуму на отсканированных страницах.

Сложные таблицы: модель восстанавливает структуры таблиц с заголовками, объединёнными ячейками, многострочными блоками и иерархиями столбцов, и может возвращать HTML-таблицы с соответствующими тегами colspan и rowspan.

Цены, пакетный вывод и аннотации

Цены: модель OCR 3 оценивается в 2 доллара за 1000 страниц для стандартного OCR и 3 доллара за 1000 аннотированных страниц при использовании структурированных аннотаций.

Пакетный вывод: Mistral также предоставляет OCR 3 через свой API пакетного вывода `/v1/batch`, который задокументирован в разделе пакетной обработки платформы. Пакетная обработка снижает эффективную цену OCR до 1 доллара за 1000 страниц.

Аннотации: модель интегрирована с двумя важными функциями на той же конечной точке — структурированные аннотации и извлечение BBox. Эти функции позволяют разработчикам прикреплять метки, управляемые схемой, к областям документа и получать ограничивающие рамки для текста и других элементов.

Ключевые выводы

Модель и роль: Mistral OCR 3, названная mistral-ocr-2512, является новой службой OCR, которая поддерживает стек Document AI от Mistral для понимания документов на основе страниц.

Точность: на внутренних тестах, охватывающих формы, отсканированные документы, сложные таблицы и рукописный текст, OCR 3 достигает 74% общего коэффициента выигрыша по сравнению с Mistral OCR 2.

Структурированные выходные данные для RAG: служба извлекает чередующийся текст и встроенные изображения и возвращает markdown, обогащённый HTML-таблицами, сохраняя макет и структуру таблиц.

API и форматы документов: разработчики получают доступ к OCR 3 через конечную точку `/v1/ocr` или SDK, передавая PDF-файлы как `documenturl` и изображения, такие как PNG или JPEG, как `imageurl`, и могут включать такие параметры, как вывод HTML-таблиц, извлечение заголовков или нижнего колонтитула и изображения в формате base64 в ответе.

Цены и пакетная обработка: OCR 3 оценивается в 2 доллара за 1000 страниц и 3 доллара за 1000 аннотированных страниц, а при использовании через Batch API эффективная цена для стандартного OCR снижается до 1 доллара за 1000 страниц для крупномасштабной обработки.

1. Какие основные характеристики отличают модель Mistral OCR 3 от предыдущих версий?

Ответ: основными характеристиками Mistral OCR 3 являются оптимизация для работы с формами, отсканированными документами, сложными таблицами и рукописным текстом, агрессивная цена — 2 доллара за 1000 страниц, а также вывод данных в формате markdown с сохранением макета документа.

2. Какие форматы документов поддерживает Mistral OCR 3 и как осуществляется вход данных в модель?

Ответ: модель поддерживает несколько форматов документов через единый API, включая `documenturl` для PDF, PPTX, DOCX и других форматов, `imageurl` для PNG, JPEG или AVIF, а также загруженные или закодированные в base64 PDF-файлы или изображения.

3. Каковы преимущества Mistral OCR 3 перед предыдущей версией (Mistral OCR 2) в обработке различных типов документов?

Ответ: Mistral OCR 3 более точно интерпретирует курсив, смешанные аннотации и рукописный текст, размещённый поверх печатных шаблонов. Модель улучшает обнаружение полей, меток и рукописных записей в плотных макетах, таких как счета-фактуры, квитанции, формы соответствия и правительственные документы. Также модель более устойчива к артефактам сжатия, перекосам, искажениям, низкому DPI и фоновому шуму на отсканированных страницах. Кроме того, модель восстанавливает структуры таблиц с заголовками, объединёнными ячейками, многострочными блоками и иерархиями столбцов.

Источник