Создание конвейера генерации с извлечением информации (RAG) — это просто, но создать такой, который не будет выдавать ошибочные данные во время аудита по форме 10-K, практически невозможно. Для разработчиков в финансовом секторе «стандартный» подход на основе векторов — разбиение текста и надежда на лучшее — часто приводит к «супу из текста», в котором теряется жизненно важный структурный контекст таблиц и балансов.
VectifyAI пытается восполнить этот пробел, выпустив Mafin 2.5, мультимодального финансового агента, и PageIndex, фреймворк с открытым исходным кодом, который сдвигает отрасль к «RAG без векторов».
Проблема: почему векторный RAG не подходит для финансов
Традиционный RAG основан на семантическом сходстве. Если вы спрашиваете о «чистой прибыли», векторная база данных ищет фрагменты текста, которые звучат как чистая прибыль. Однако финансовые документы зависят от структуры. Число в ячейке не имеет смысла без заголовка, а заголовки часто удаляются при традиционном преобразовании PDF в текст.
Это ловушка «мусор на входе — мусор на выходе»: даже самая умная языковая модель не может корректно рассуждать, если входные данные потеряли свою иерархическую структуру.
Mafin 2.5: точность в масштабе
Mafin 2.5 — это не просто тонкая модель; это механизм рассуждений, который достиг точности 98,7% на FinanceBench, значительно превзойдя GPT-4o и Perplexity в задачах финансового поиска.
Что отличает его для разработчиков, так это встроенная интеграция с высококачественными источниками данных:
* Полный доступ к SEC: прямая индексация документов 10-K, 10-Q и 8-K.
* Информация о доходах: транскрипты отчётов о доходах в режиме реального времени и исторические данные.
* Рыночные данные: актуальные тикеры по Russell 3000 и Nasdaq.
PageIndex: переход к «RAG без векторов»
«Секретный соус» точности Mafin 2.5 — это PageIndex. PageIndex заменяет традиционные плоские вложения иерархическим индексом дерева.
Вместо поиска по случайным фрагментам PageIndex позволяет языковой модели «рассуждать» по структуре документа. Он строит семантическое дерево — по сути, интеллектуальную карту документа — позволяя агенту определить точный раздел, страницу и пункт.
Ключевые технические особенности включают:
* Поддержка Vision-Native: PageIndex поддерживает RAG на основе Vision, позволяя моделям «видеть» глобальный макет страницы (диаграммы, сложные сетки) вместо того, чтобы полагаться исключительно на текст OCR.
* Иерархическая навигация: он преобразует PDF-файлы в структуру с возможностью навигации, обеспечивая сохранение отношений между заголовками и данными.
* Отслеживаемость: в отличие от «чёрного ящика» векторного сходства, каждый ответ имеет чёткий путь через дерево документа, обеспечивая столь необходимый аудиторский след для регулируемой финансовой среды.
Ключевые выводы
* Непревзойдённая финансовая точность (98,7%): Mafin 2.5 установил новый рекорд на бенчмарке FinanceBench, достигнув точности 98,7%. Это значительно превосходит общие модели, такие как GPT-4o (~31%) и Perplexity (~45%), за счёт специализации на финансовом рассуждении, а не на общем поиске.
* Переход к «RAG без векторов»: отказ от «вибробased» поиска традиционных векторных баз данных, PageIndex представляет RAG на основе рассуждений. Он использует языковую модель для «рассуждения» по структуре документа, имитируя то, как аналитик-человек просматривает отчёт в поисках конкретных данных.
* Иерархическое индексирование «дерева» вместо фрагментации: вместо того, чтобы разбивать документы на произвольные фрагменты текста без контекста, PageIndex организует PDF-файлы в структуру семантического дерева (интеллектуальное оглавление). Это сохраняет критически важные отношения между заголовками, вложенными таблицами и сносками, которые традиционный RAG часто разрушает.
* Рабочие процессы без OCR и с поддержкой Vision: фреймворк поддерживает RAG без векторов на основе Vision, позволяя ИИ «видеть» и извлекать информацию непосредственно из изображений страниц. Это меняет правила игры для финансовых документов, где визуальный макет баланса или сложной сетки так же важен, как и цифры.
* Отслеживаемость на уровне предприятия: в отличие от «чёрного ящика» векторного сходства, PageIndex обеспечивает полностью отслеживаемый путь рассуждений. Каждый ответ связан с определёнными узлами, страницами и разделами, обеспечивая прозрачность, необходимую для финансовых аудитов и соблюдения требований на высоком уровне.
Технические подробности и репозиторий можно найти по ссылке. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit более чем на 100 тысяч участников. Подпишитесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.
1. Какие проблемы существуют при использовании традиционного RAG для финансовых документов?
При использовании традиционного RAG для финансовых документов существует проблема потери структурного контекста. Финансовые документы зависят от структуры, и число в ячейке не имеет смысла без заголовка. При традиционном преобразовании PDF в текст заголовки часто удаляются, что приводит к потере важного контекста.
2. В чём заключается инновационность Mafin 2.5 и PageIndex?
Mafin 2.5 — это механизм рассуждений, который достиг точности 98,7% на FinanceBench, значительно превзойдя GPT-4o и Perplexity в задачах финансового поиска. PageIndex заменяет традиционные плоские вложения иерархическим индексом дерева. Вместо поиска по случайным фрагментам PageIndex позволяет языковой модели «рассуждать» по структуре документа.
3. Какие ключевые технические особенности включает в себя PageIndex?
Ключевые технические особенности PageIndex включают:
* поддержку Vision-Native, позволяющую моделям «видеть» глобальный макет страницы (диаграммы, сложные сетки);
* иерархическую навигацию, преобразующую PDF-файлы в структуру с возможностью навигации;
* отслеживаемость, обеспечивающую полностью отслеживаемый путь рассуждений и прозрачность, необходимую для финансовых аудитов и соблюдения требований.
4. Какие источники данных интегрированы в Mafin 2.5?
В Mafin 2.5 интегрированы следующие источники данных:
* полный доступ к SEC: прямая индексация документов 10-K, 10-Q и 8-K;
* информация о доходах: транскрипты отчётов о доходах в режиме реального времени и исторические данные;
* рыночные данные: актуальные тикеры по Russell 3000 и Nasdaq.
5. Какие преимущества предоставляет использование PageIndex в финансовом секторе?
Использование PageIndex в финансовом секторе предоставляет следующие преимущества:
* сохранение критически важных отношений между заголовками, вложенными таблицами и сносками;
* поддержка RAG без векторов на основе Vision, позволяющая ИИ «видеть» и извлекать информацию непосредственно из изображений страниц;
* обеспечение прозрачности и отслеживаемости, необходимой для финансовых аудитов и соблюдения требований на высоком уровне.