MiMo-VL-7B: мощная модель для понимания визуальной информации и мультимодального рассуждения

Модели Vision-Language (VLMs) стали основополагающими компонентами для мультимодальных систем искусственного интеллекта. Они позволяют автономным агентам понимать визуальную среду, работать с мультимодальным контентом и взаимодействовать с цифровым и физическим мирами.

Исследователи из Xiaomi представляют MiMo-VL-7B — компактную, но мощную модель VLM, состоящую из трёх ключевых компонентов:
* кодировщика Vision Transformer с нативным разрешением, который сохраняет мелкие визуальные детали;
* многослойного перцептрона (MLP) для эффективного кросс-модального выравнивания;
* языковой модели MiMo-7B, оптимизированной для сложных задач рассуждения.

Этапы обучения модели MiMo-VL-7B

MiMo-VL-7B проходит два последовательных этапа обучения:
1. Предварительное обучение (pre-training) — четырёхэтапная фаза, включающая прогрев проектора, выравнивание зрения и языка, общее мультимодальное предварительное обучение и тонкую настройку под контролем длинного контекста. Для этого используются 2,4 триллиона токенов из тщательно отобранных высококачественных наборов данных. Это позволяет получить модель MiMo-VL-7B-SFT.
2. Пост-обучение (post-training) — этап, на котором используется смешанное обучение с подкреплением (MORL), объединяющее разнообразные сигналы вознаграждения, охватывающие точность восприятия, точность визуального обоснования, способности логического рассуждения и человеческие предпочтения. Это позволяет получить модель MiMo-VL-7B-RL.

Архитектура MiMo-VL-7B

Архитектура MiMo-VL-7B содержит три компонента:
* Vision Transformer (ViT) для кодирования визуальных входных данных, таких как изображения и видео;
* проектор, который отображает визуальные кодировки в скрытое пространство, согласованное с LLM;
* сама LLM, которая выполняет текстовое понимание и рассуждения.

В качестве визуального кодировщика используется Qwen2.5-ViT для поддержки входных данных с нативным разрешением. В основе LLM лежит MiMo-7B-Base с сильными возможностями рассуждения и случайно инициализированный многослойный перцептрон (MLP) в качестве проектора.

Предварительный обучающий набор данных модели включает 2,4 триллиона токенов, разнообразные мультимодальные данные, подписи к изображениям, чередующиеся данные, данные оптического распознавания символов (OCR), данные обоснования, видеоконтент, взаимодействия с графическим интерфейсом (GUI), примеры рассуждений и последовательности только для текста.

Результаты оценки

Всесторонняя оценка по 50 задачам демонстрирует, что MiMo-VL-7B демонстрирует современную производительность среди моделей с открытым исходным кодом. В целом модели достигают исключительных результатов в общих задачах визуального языка, причём MiMo-VL-7B-SFT и MiMo-VL-7B-RL получают 64,6% и 66,7% на MMMUval соответственно, превосходя более крупные модели, такие как Gemma 3 27B.

Для понимания документов MiMo-VL-7B-RL демонстрирует отличные результаты с 56,5% на CharXivRQ, значительно превышая Qwen2.5-VL на 14,0 пунктов и InternVL3 на 18,9 пунктов. В задачах мультимодального рассуждения обе модели RL и SFT существенно превосходят базовые модели с открытым исходным кодом, а MiMo-VL-7B-SFT даже превосходит гораздо более крупные модели, включая Qwen2.5-VL-72B и QVQ-72B-Preview.

Понимание графического интерфейса пользователя (GUI)

MiMo-VL-7B демонстрирует исключительные возможности понимания GUI и обоснования, причём модель RL превосходит все сравниваемые общие модели VLM и достигает сопоставимой или более высокой производительности по сравнению с моделями, специализирующимися на GUI, в сложных тестах, таких как Screenspot-Pro и OSWorld-G.

Модель получает наивысший рейтинг Elo среди всех оценённых моделей VLM с открытым исходным кодом, занимая первое место среди моделей с параметрами от 7B до 72B и приближаясь к проприетарным моделям, таким как Claude 3.7 Sonnet.

Заключение

Исследователи представили модели MiMo-VL-7B, которые демонстрируют современную производительность благодаря тщательно отобранным высококачественным наборам данных для предварительного обучения и фреймворкам MORL. Ключевые выводы включают последовательное повышение производительности за счёт включения данных для рассуждений на более поздних этапах предварительного обучения, преимущества обучения с подкреплением по политике (on-policy RL) по сравнению с vanilla GRPO и проблемы интерференции задач при применении MORL для различных возможностей.

Исследователи открывают исходный код комплексного набора для оценки, чтобы обеспечить прозрачность и воспроизводимость мультимодальных исследований. Эта работа продвигает способные модели визуального языка с открытым исходным кодом и предоставляет ценную информацию для сообщества.

Источник

Оставьте комментарий