Компания NVIDIA выпустила Llama Nemotron Nano VL — модель для работы с визуальным и текстовым контентом (VLM), предназначенную для эффективного и точного понимания документов. Модель построена на архитектуре Llama 3.1 и оснащена лёгким визуальным энкодером. Она ориентирована на приложения, требующие точного анализа сложных структур документов, таких как отсканированные формы, финансовые отчёты и технические диаграммы.
Обзор модели и архитектура
Llama Nemotron Nano VL объединяет визуальный энкодер CRadioV2-H с языковой моделью Llama 3.1 8B Instruct-tuned. Эта система способна совместно обрабатывать мультимодальные данные, включая многостраничные документы с визуальными и текстовыми элементами.
Архитектура оптимизирована для эффективного использования токенов, поддерживая длину контекста до 16K для последовательностей изображений и текста. Модель может обрабатывать несколько изображений вместе с текстовыми данными, что делает её подходящей для задач с длинным текстом и мультимодальными данными. Согласование визуальной и текстовой информации достигается за счёт проекционных слоёв и ротационного позиционного кодирования, специально разработанного для встраивания изображений в виде патчей.
Обучение проводилось в три этапа:
1. Чередующееся предварительное обучение на коммерческих наборах данных изображений и видео.
2. Многомодальная настройка инструкций для обеспечения интерактивного запроса.
3. Пересмешивание данных с инструкциями только для текста, что улучшило производительность на стандартных тестах LLM.
Всё обучение проводилось с использованием платформы NVIDIA Megatron-LLM с загрузчиком данных Energon, распределённым по кластерам с графическими процессорами A100 и H100.
Результаты тестирования и оценка
Llama Nemotron Nano VL была оценена на OCRBench v2 — бенчмарке, разработанном для оценки понимания визуального и текстового контента на уровне документов. OCRBench включает более 10 000 проверенных человеком пар вопросов и ответов, охватывающих документы из таких областей, как финансы, здравоохранение, юриспруденция и научные публикации.
Результаты показывают, что модель достигает современного уровня точности среди компактных VLM на этом бенчмарке. Примечательно, что её производительность конкурентоспособна с более крупными и менее эффективными моделями, особенно в извлечении структурированных данных (например, таблиц и пар «ключ-значение») и ответах на запросы, зависящие от макета.
Модель также адаптируется к документам на неанглийском языке и к ухудшенному качеству сканирования, что отражает её надёжность в реальных условиях.
Развёртывание, квантование и эффективность
Разработанная для гибкого развёртывания, Nemotron Nano VL поддерживает сценарии серверного и периферийного вывода. NVIDIA предоставляет квантованную 4-битную версию (AWQ) для эффективного вывода с использованием TinyChat и TensorRT-LLM, совместимую с Jetson Orin и другими ограниченными средами.
Ключевые технические особенности включают:
* поддержку модульного NIM (NVIDIA Inference Microservice), упрощающую интеграцию API;
* поддержку экспорта в ONNX и TensorRT, обеспечивающую совместимость с аппаратным ускорением;
* возможность использования предварительно вычисленных визуальных вложений, что позволяет сократить задержки для статических документов с изображениями.
Заключение
Llama Nemotron Nano VL представляет собой хорошо продуманный компромисс между производительностью, длиной контекста и эффективностью развёртывания в области понимания документов. Её архитектура, основанная на Llama 3.1 и дополненная компактным визуальным энкодером, предлагает практическое решение для корпоративных приложений, требующих мультимодального понимания в условиях строгих ограничений по задержкам или аппаратным ресурсам.
Опередив OCRBench v2, сохраняя при этом возможность развёртывания, Nemotron Nano VL позиционирует себя как жизнеспособную модель для таких задач, как автоматизированный контроль качества документов, интеллектуальное распознавание текста и конвейеры извлечения информации.