Команда FireRedTeam выпустила FireRed-OCR-2B, используя GRPO для решения проблемы структурных галлюцинаций в таблицах и LaTeX для разработчиков программного обеспечения

Команда FireRedTeam выпустила модель FireRed-OCR-2B, предназначенную для обработки документов как задачи структурного проектирования, а не как генерацию текста в стиле «импрессионизма». Модель построена на архитектуре Qwen3-VL-2B-Instruct и устанавливает новый стандарт для комплексных решений, достигая общего балла 92,94% на бенчмарке OmniDocBench v1.5.

Сдвиг парадигмы: структурное проектирование против генерации текста

Разработчики часто сталкиваются с тем, что даже самые мощные общие модели VLM с трудом справляются с плотной пространственной логикой технического PDF. Модель FireRed-OCR-2B решает эту проблему с помощью специализированного конвейера прогрессивного обучения, состоящего из трёх этапов:

1. Многозадачное предварительное выравнивание: на этом этапе модель обучается на задачах обнаружения, распознавания регионов и преобразования макета в Markdown.
2. Специализированное SFT (Supervised Fine-Tuning): модель дорабатывается на высококачественном стандартизированном наборе данных Markdown для обеспечения логической согласованности и иерархического выражения.
3. Формат-ограниченный GRPO: на заключительном этапе используется обучение с подкреплением для обеспечения синтаксической корректности.

Основная инновация: формат-ограниченный GRPO

Наиболее значительным техническим отличием для FireRed-OCR является использование оптимизации политики с учётом групповых относительных параметров (GRPO). В то время как традиционное тонкое настройка фокусируется на точности символов, GRPO вводит цикл обучения с подкреплением, который вознаграждает модель за определённые структурные характеристики:

* Синтаксис формул: обеспечение математической корректности уравнений LaTeX.
* Целостность таблиц: поддержание согласованности подсчётов строк/столбцов и правильного HTML/Markdown-теггирования.
* Иерархическое закрытие: проверка того, что все открытые структурные теги (например, списки или заголовки) правильно закрыты.
* Точность текста: снижение количества ошибок на уровне символов в плотных текстовых блоках.

Устраняя необходимость в отдельной модели «критика», алгоритм GRPO оптимизирует процесс обучения, сосредотачиваясь на сложных областях анализа документов.

Решение проблемы нестандартного макета

«Длинный хвост» макетов документов (например, нестандартные юридические формы, академические работы с перекрывающимися фигурами или рукописные аннотации) — это то, где большинство конвейеров OCR ломаются. FireRed-OCR использует «фабрику данных Geometry + Semantics».

Этот новый подход использует кластеризацию геометрических признаков и многомерную маркировку для синтеза сбалансированных наборов данных. Сочетая геометрическое осознание с семантическим пониманием, модель поддерживает «устойчивость в дикой природе», превосходя традиционные конвейерные системы, такие как PaddleOCR, в сложных нестандартных макетах (протестировано на наборе данных FireRedBench).

Показатели производительности

В прямых сравнениях на OmniDocBench v1.5 FireRed-OCR-2B (92,94%) значительно превосходит другие комплексные модели, включая:

* DeepSeek-OCR 2: 91,09%
* Gemini-3.0 Pro: 90,33%
* Qwen3-VL-235B: 89,15%

Хотя некоторые «конвейерные» решения (использующие отдельные модели для обнаружения и распознавания) достигают немного более высоких баллов, FireRed-OCR-2B представляет собой передовую производительность для одномодельного комплексного подхода.

Ключевые выводы

1. Новый комплексный SOTA-показатель: FireRed-OCR-2B достиг показателя SOTA (92,94%) на бенчмарке OmniDocBench v1.5.
2. Архитектурная основа: модель построена на базе Qwen2-VL-2B-Instruct (или обновлённой версии 2026 года) и использует подход Vision-Language-Model (VLM).
3. Структурная целостность через GRPO: использование формат-ограниченного GRPO (Group Relative Policy Optimization) является ключевым техническим отличием.
4. «Геометрия + Семантика» Data Factory: для решения проблемы сложных «в дикой природе» макетов команда FireRedTeam разработала специализированный механизм данных.

Установка и импорт библиотек

«`python
import sys, subprocess, textwrap, numpy as np, pandas as pd

def _pip(*pkgs):
subprocess.run([sys.executable, «-m», «pip», «install», «-q», *pkgs], check=False)

_pip(«shapiq», «plotly», «pandas», «numpy», «scikit-learn»)

import plotly.express as px
import plotly.graph_objects as go
import plotly.io as pio
import shapiq
from sklearn.ensemble import RandomForestRegressor
from sklearn.modelselection import traintest_split

try:
pio.renderers.default = «colab»
except Exception:
pass
«`

Функции для извлечения основных эффектов

«`python
def extractmaineffects(iv, feature_names):
d = iv.dict_values
vals = [float(d.get((i,), 0.0)) for i in range(len(feature_names))]
return pd.Series(vals, index=list(featurenames), name=»maineffect»)

def extractpairmatrix(iv, feature_names):
d = iv.dict_values
n = len(feature_names)
M = np.zeros((n, n), dtype=float)
for k, v in d.items():
if isinstance(k, tuple) and len(k) == 2:
i, j = k
M[i, j] = float(v)
M[j, i] = float(v)
return pd.DataFrame(M, index=list(featurenames), columns=list(featurenames))
«`

Визуализация локальных и глобальных особенностей

«`python
def plotlocalfeaturebar(maineffects, top_k):
df = maineffects.abs().sortvalues(ascending=False).head(topk).resetindex()
df.columns = [«feature», «absmaineffect»]
fig = px.bar(df, x=»absmaineffect», y=»feature», orientation=»h», title=»Local Feature Importance (|Main Effects|)»)
fig.update_layout(yaxis={«categoryorder»: «total ascending»})
return fig

def plotlocalinteractionheatmap(pairdf, top_features):
sub = pairdf.loc[topfeatures, top_features]
fig = px.imshow(sub.values, x=sub.columns, y=sub.index, aspect=»auto», title=»Local Pairwise Interaction Importance (values)»)
return fig

def plotwaterfall(baseline, maineffects, top_k):
contrib = main_effects.copy()
top = contrib.reindex(contrib.abs().sortvalues(ascending=False).head(topk).index)
remainder = float(contrib.sum() — top.sum())
labels = [«baseline»] + list(top.index) + ([«others»] if abs(remainder) > 1e-12 else []) + [«prediction»]
measures = [«absolute»] + [«relative»] * len(top) + ([«relative»] if abs(remainder) > 1e-12 else []) + [«total»]
y = [0.0] + [float(v) for v in top.values] + ([float(remainder)] if abs(remainder) > 1e-12 else []) + [0.0]
fig = go.Figure(go.Waterfall(x=labels, y=y, measure=measures, orientation=»v», connector={«line»: {«width»: 1}}))
fig.update_layout(title=»Decision Breakdown (Baseline → Prediction via Main Effects)», showlegend=False)
return fig
«`

Глобальные сводки

«`python
def globalsummaries(explainer, Xsamples, feature_names, budget, seed=123):
mainabs = np.zeros(len(featurenames), dtype=float)
pairabs = np.zeros((len(featurenames), len(feature_names)), dtype=float)
for t, x in enumerate(X_samples):
iv = explainer.explain(x, budget=int(budget), random_state=int(seed + t))
main = extractmaineffects(iv, feature_names).values
pair = extractpairmatrix(iv, feature_names).values
main_abs += np.abs(main)
pair_abs += np.abs(pair)
mainabs /= max(1, len(Xsamples))
pairabs /= max(1, len(Xsamples))
maindf = pd.DataFrame({«feature»: featurenames, «meanabsmaineffect»: mainabs}).sortvalues(«meanabsmaineffect», ascending=False)
pairdf = pd.DataFrame(pairabs, index=featurenames, columns=featurenames)
return maindf, pairdf
«`

Заключение

Мы реализовали полный рабочий процесс объяснимого ИИ на базе SHAP-IQ, что позволило нам количественно оценить вклад функций, взаимодействий и решений строгим и интерпретируемым способом. Мы проанализировали отдельные прогнозы, чтобы понять причины, лежащие в основе выходных данных модели, и расширили этот анализ до глобальных сводок для выявления общих закономерностей влияния функций. Мы визуализировали объяснения, используя как структурированные таблицы, так и интерактивные графики, что позволило нам интерпретировать сложное поведение модели с ясностью и точностью.

1. Какие инновационные подходы использует модель FireRed-OCR-2B для решения проблемы структурных галлюцинаций в таблицах и LaTeX?

Ответ: модель FireRed-OCR-2B использует формат-ограниченный GRPO (Group Relative Policy Optimization) для решения проблемы структурных галлюцинаций. Этот подход вводит цикл обучения с подкреплением, который вознаграждает модель за определённые структурные характеристики, такие как синтаксис формул, целостность таблиц, иерархическое закрытие и точность текста.

2. Какие этапы включает в себя специализированный конвейер прогрессивного обучения модели FireRed-OCR-2B?

Ответ: специализированный конвейер прогрессивного обучения модели FireRed-OCR-2B включает в себя три этапа: многозадачное предварительное выравнивание, специализированное SFT (Supervised Fine-Tuning) и формат-ограниченный GRPO. На первом этапе модель обучается на задачах обнаружения, распознавания регионов и преобразования макета в Markdown. На втором этапе модель дорабатывается на высококачественном стандартизированном наборе данных Markdown для обеспечения логической согласованности и иерархического выражения. На заключительном этапе используется обучение с подкреплением для обеспечения синтаксической корректности.

3. Какие показатели производительности демонстрирует модель FireRed-OCR-2B на бенчмарке OmniDocBench v1.5?

Ответ: модель FireRed-OCR-2B демонстрирует высокий показатель производительности на бенчмарке OmniDocBench v1.5, достигая общего балла 92,94%. Это значительно превосходит другие комплексные модели, включая DeepSeek-OCR 2 (91,09%), Gemini-3.0 Pro (90,33%) и Qwen3-VL-235B (89,15%).

4. Какие ключевые выводы можно сделать из статьи о модели FireRed-OCR-2B?

Ответ: ключевые выводы из статьи о модели FireRed-OCR-2B включают:
* FireRed-OCR-2B достиг показателя SOTA (92,94%) на бенчмарке OmniDocBench v1.5.
* Модель построена на базе Qwen2-VL-2B-Instruct (или обновлённой версии 2026 года) и использует подход Vision-Language-Model (VLM).
* Использование формат-ограниченного GRPO (Group Relative Policy Optimization) является ключевым техническим отличием.
* Для решения проблемы сложных «в дикой природе» макетов команда FireRedTeam разработала специализированный механизм данных «Геометрия + Семантика» Data Factory.

5. Какие функции и инструменты используются для визуализации локальных и глобальных особенностей модели FireRed-OCR-2B?

Ответ: для визуализации локальных и глобальных особенностей модели FireRed-OCR-2B используются следующие функции и инструменты:
* Функции `extractmaineffects` и `extractpairmatrix` для извлечения основных эффектов и парных матриц.
* Функции `plotlocalfeaturebar` и `plotlocalinteractionheatmap` для визуализации локальных особенностей.
* Функция `plot_waterfall` для визуализации разбивки решений.
* Инструменты SHAP-IQ для количественной оценки вклада функций, взаимодействий и решений.

Источник