Компания Mistral AI представила свою новейшую модель оптического распознавания символов (OCR) — Mistral OCR 3. Эта модель является частью стека Document AI компании и предназначена для извлечения текста и изображений из структурированных документов, таких как PDF-файлы, сохраняя при этом структуру.
Основные характеристики Mistral OCR 3:
- Оптимизация: модель настроена для работы с формами, отсканированными документами, сложными таблицами и рукописным текстом.
- Цена: модель предлагает агрессивную цену — 2 доллара за 1000 страниц, а при использовании через Batch API предоставляется скидка 50%.
- Формат вывода: модель выводит markdown, сохраняя макет документа. При включении табличного форматирования выходные данные обогащаются HTML-таблицами.
Роль в Mistral Document AI
OCR 3 является частью Mistral Document AI — возможности компании по обработке документов, которая объединяет OCR с извлечением структурированных данных и Document QnA.
Входы, выходы и структура
- Входы: модель принимает несколько форматов документов через единый API. Поле документа может указывать на:
— `document_url` для PDF, PPTX, DOCX и других форматов;
— `image_url` для таких типов изображений, как PNG, JPEG или AVIF;
— Загруженные или закодированные в base64 PDF-файлы или изображения.
- Выходы: ответ представляет собой объект JSON с массивом `pages`. Каждая страница содержит индекс, строку markdown, список изображений, список таблиц при использовании `table_format=»html»`, обнаруженные гиперссылки, необязательные поля заголовка и нижнего колонтитула и объект `dimensions` с размером страницы.
Преимущества перед Mistral OCR 2
- Рукописный текст: Mistral OCR 3 более точно интерпретирует курсив, смешанные аннотации и рукописный текст, размещённый поверх печатных шаблонов.
- Формы: модель улучшает обнаружение полей, меток и рукописных записей в плотных макетах, таких как счета-фактуры, квитанции, формы соответствия и правительственные документы.
- Сканированные и сложные документы: модель более устойчива к артефактам сжатия, перекосам, искажениям, низкому DPI и фоновому шуму на отсканированных страницах.
- Сложные таблицы: модель восстанавливает структуры таблиц с заголовками, объединёнными ячейками, многострочными блоками и иерархиями столбцов, и может возвращать HTML-таблицы с соответствующими тегами colspan и rowspan.
Цены, пакетный вывод и аннотации
- Цены: модель OCR 3 оценивается в 2 доллара за 1000 страниц для стандартного OCR и 3 доллара за 1000 аннотированных страниц при использовании структурированных аннотаций.
- Пакетный вывод: Mistral также предоставляет OCR 3 через свой API пакетного вывода `/v1/batch`, который задокументирован в разделе пакетной обработки платформы. Пакетная обработка снижает эффективную цену OCR до 1 доллара за 1000 страниц.
- Аннотации: модель интегрирована с двумя важными функциями на той же конечной точке — структурированные аннотации и извлечение BBox. Эти функции позволяют разработчикам прикреплять метки, управляемые схемой, к областям документа и получать ограничивающие рамки для текста и других элементов.
Ключевые выводы
- Модель и роль: Mistral OCR 3, названная mistral-ocr-2512, является новой службой OCR, которая поддерживает стек Document AI от Mistral для понимания документов на основе страниц.
- Точность: на внутренних тестах, охватывающих формы, отсканированные документы, сложные таблицы и рукописный текст, OCR 3 достигает 74% общего коэффициента выигрыша по сравнению с Mistral OCR 2.
- Структурированные выходные данные для RAG: служба извлекает чередующийся текст и встроенные изображения и возвращает markdown, обогащённый HTML-таблицами, сохраняя макет и структуру таблиц.
- API и форматы документов: разработчики получают доступ к OCR 3 через конечную точку `/v1/ocr` или SDK, передавая PDF-файлы как `documenturl` и изображения, такие как PNG или JPEG, как `imageurl`, и могут включать такие параметры, как вывод HTML-таблиц, извлечение заголовков или нижнего колонтитула и изображения в формате base64 в ответе.
- Цены и пакетная обработка: OCR 3 оценивается в 2 доллара за 1000 страниц и 3 доллара за 1000 аннотированных страниц, а при использовании через Batch API эффективная цена для стандартного OCR снижается до 1 доллара за 1000 страниц для крупномасштабной обработки.
1. Какие основные характеристики отличают модель Mistral OCR 3 от предыдущих версий?
Ответ: основными характеристиками Mistral OCR 3 являются оптимизация для работы с формами, отсканированными документами, сложными таблицами и рукописным текстом, агрессивная цена — 2 доллара за 1000 страниц, а также вывод данных в формате markdown с сохранением макета документа.
2. Какие форматы документов поддерживает Mistral OCR 3 и как осуществляется вход данных в модель?
Ответ: модель поддерживает несколько форматов документов через единый API, включая `documenturl` для PDF, PPTX, DOCX и других форматов, `imageurl` для PNG, JPEG или AVIF, а также загруженные или закодированные в base64 PDF-файлы или изображения.
3. Каковы преимущества Mistral OCR 3 перед предыдущей версией (Mistral OCR 2) в обработке различных типов документов?
Ответ: Mistral OCR 3 более точно интерпретирует курсив, смешанные аннотации и рукописный текст, размещённый поверх печатных шаблонов. Модель улучшает обнаружение полей, меток и рукописных записей в плотных макетах, таких как счета-фактуры, квитанции, формы соответствия и правительственные документы. Также модель более устойчива к артефактам сжатия, перекосам, искажениям, низкому DPI и фоновому шуму на отсканированных страницах. Кроме того, модель восстанавливает структуры таблиц с заголовками, объединёнными ячейками, многострочными блоками и иерархиями столбцов.