Jina AI представила Jina-VLM — модель визуального языка с 2,4 млрд параметров, предназначенную для мультиязычных визуальных вопросов и ответов, а также понимания документов на ограниченном оборудовании.
Основные характеристики модели
- Архитектура: модель объединяет визуальный кодировщик SigLIP2 So400M/14 384 с языковой основой Qwen3-1.7B через коннектор пулинга внимания, который сокращает количество визуальных токенов в 4 раза, сохраняя пространственную структуру.
- Обработка изображений: модель использует перекрывающиеся плитки размером 378×378 пикселей, 12 плиток плюс глобальный эскиз для обработки изображений произвольного разрешения вплоть до примерно 4K.
- Обучение: модель обучается на примерно 5 млн мультимодальных образцов и 12 млрд текстовых токенов почти на 30 языках в двухэтапном конвейере: сначала выравнивание с данными в стиле подписей, затем тонкая настройка инструкций с использованием LLaVA OneVision, Cauldron, Cambrian, PangeaIns, FineVision и мультиязыковых наборов инструкций.
Результаты тестирования
На стандартных англоязычных задачах визуального вопроса и ответа (VQA), которые включают диаграммы, схемы, документы, OCR и смешанные сцены, Jina-VLM достигает среднего балла 72,3 по 8 бенчмаркам. Это лучший средний показатель среди моделей масштаба 2 млрд в исследовании Jina AI.
На задачах мультимодального понимания и понимания реального мира модель набирает 67,4 балла в мультимодальной группе и 61,9 в группе реального мира.
Сравнение с другими моделями
| Модель | Параметры | VQA Avg | MMMB Multi. | MMB | DocVQA | OCRBench |
|———|————|———|————|——|———|———-|
| Jina-VLM | 2,4 млрд | 72,3 | 78,8 | 74,3 | 90,67 | 77,8 |
| Qwen2-VL-2B | 2,1 млрд | 66,4 | 71,3 | 69,4 | 89,2 | 80,9 |
| Qwen3-VL-2B | 2,8 млрд | 71,6 | 75,0 | 72,3 | 92,3 | 85,8 |
| InternVL3-2B | 2,2 млрд | 69,2 | 73,6 | 71,9 | 87,4 | 83,5 |
| InternVL3.5-2B | 2,2 млрд | 71,6 | 74,6 | 70,9 | 88,5 | 83,6 |
Ключевые выводы
Jina-VLM — это модель визуального языка с 2,4 млрд параметров, которая сочетает в себе визуальный кодировщик SigLIP2 So400M и языковую основу Qwen3-1.7B через коннектор пулинга внимания, который сокращает количество визуальных токенов в 4 раза, сохраняя пространственную структуру. Модель использует перекрывающиеся плитки для обработки изображений произвольного разрешения, а также обучается на мультимодальных данных на множестве языков. На англоязычных задачах VQA Jina-VLM достигает среднего балла 72,3, а на мультиязычных мультимодальных задачах — 78,8 на MMMB и 74,3 на Multilingual MMBench.
Проверьте статью, модель на Hugging Face и технические детали. Не стесняйтесь заглянуть на нашу страницу GitHub, чтобы найти учебные пособия, коды и блокноты. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тыс. участников машинного обучения) и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там!
1. Какие ключевые особенности архитектуры модели Jina-VLM делают её эффективной для обработки визуальных данных?
Ответ: Модель Jina-VLM объединяет визуальный кодировщик SigLIP2 So400M/14 384 с языковой основой Qwen3-1.7B через коннектор пулинга внимания, который сокращает количество визуальных токенов в 4 раза, сохраняя пространственную структуру. Кроме того, модель использует перекрывающиеся плитки для обработки изображений произвольного разрешения.
2. На каких языках была обучена модель Jina-VLM и какие результаты она показала на англоязычных задачах визуального вопроса и ответа (VQA)?
Ответ: Модель Jina-VLM была обучена на почти 30 языках. На англоязычных задачах VQA Jina-VLM достигает среднего балла 72,3 по 8 бенчмаркам.
3. Какие параметры и характеристики модели Jina-VLM позволяют ей достигать высоких результатов в задачах мультимодального понимания и понимания реального мира?
Ответ: Модель Jina-VLM имеет 2,4 миллиарда параметров и использует архитектуру, которая объединяет визуальный кодировщик и языковую основу. Она обучается на мультимодальных данных на множестве языков, что позволяет ей достигать высоких результатов в задачах мультимодального понимания и понимания реального мира.
4. В чём заключается преимущество модели Jina-VLM перед другими моделями, такими как Qwen2-VL-2B, Qwen3-VL-2B, InternVL3-2B и InternVL3.5-2B?
Ответ: Jina-VLM достигает среднего балла 72,3 на стандартных англоязычных задачах визуального вопроса и ответа (VQA), что является лучшим средним показателем среди моделей масштаба 2 млрд в исследовании Jina AI. На задачах мультимодального понимания и понимания реального мира модель набирает 67,4 балла в мультимодальной группе и 61,9 в группе реального мира. Это свидетельствует о преимуществе Jina-VLM перед другими моделями.
5. Какие возможности предоставляет модель Jina-VLM для обработки изображений произвольного разрешения?
Ответ: Модель Jina-VLM использует перекрывающиеся плитки размером 378×378 пикселей, 12 плиток плюс глобальный эскиз для обработки изображений произвольного разрешения вплоть до примерно 4K.