Мультимодальные способности к рассуждению помогают машинам выполнять такие задачи, как решение математических задач, встроенных в диаграммы, чтение знаков на фотографиях или интерпретация научных графиков. Интеграция визуальной и лингвистической информации позволяет этим системам более точно воспроизводить мыслительные процессы человека, что делает их пригодными для задач, требующих визуального толкования в сочетании с логической последовательностью.
Основная проблема в этой области — неспособность существующих систем повторно обращаться к определённым частям изображения во время динамических рассуждений. Традиционные модели обычно начинают с однократного анализа изображения, а затем продолжают остальные рассуждения в чистом тексте. Такой подход ограничивает точность в ситуациях, когда требуется повторное обращение к изображению для подтверждения детали или извлечения новых визуальных подсказок в процессе рассуждений. Эти недостатки особенно заметны в задачах, требующих детального пространственного восприятия, таких как идентификация мелких меток в научных документах или устранение неоднозначности в визуально сложных сценах.
Для решения этой проблемы исследователи из Пекинского университета, Alibaba Group и ZEEKR Intelligent Technology представили модель под названием VLM-R³. Эта модель решает задачу, позволяя более интерактивно соединять зрение и рассуждения. Она наделяет модель способностью определять, когда требуется визуальное уточнение, идентифицировать точную область изображения для анализа и повторно интегрировать этот визуальный контент в процесс рассуждений.
Этот подход имитирует решение проблем человеком, когда можно увеличить масштаб диаграммы или перечитать абзац, чтобы проверить деталь перед принятием решения. Структура модели делает упор на итеративное уточнение решений путём использования визуальных доказательств на протяжении всего процесса рассуждений.
Для этого исследователи создали набор данных под названием Visuo-Lingual Interleaved Rationale (VLIR), предназначенный для обучения моделей пошаговому взаимодействию между изображениями и текстом. VLM-R³ использует этот набор данных и работает с помощью метода под названием Region-Conditioned Reinforcement Policy Optimization (R-GRPO). Эта стратегия обучения побуждает модель выборочно сосредотачиваться на информативных частях изображения, выполнять такие преобразования, как обрезка или масштабирование, и учитывать эти изменения на последующих логических этапах.
Результаты демонстрируют высокую производительность по различным бенчмаркам. На MathVista модель достигла 70,4%, что больше по сравнению с 68,2% в базовом варианте. Для MathVision улучшение составило с 25,1% до 30,2%. В ScienceQA модель показала улучшение на 14,3%, достигнув 87,9% по сравнению с 73,6% в базовом варианте. На тесте на галлюцинации (Hallucination Bench) модель достигла 62,0%, опередив другие модели, такие как Mulberry, которая набрала 54,1%. VLM-R³ также показал превосходные результаты в понимании документов в DocVQA с результатом 96,8%.
Сравнения показали, что, хотя модель использует меньше параметров, чем закрытые модели, такие как Gemini-2 Flash или GPT-4o, она обеспечивает конкурентную точность, особенно в задачах, требующих детального визуального анализа и чередования рассуждений.
Эта работа чётко формулирует проблему, которая существует в том, как модели обрабатывают зрение во время рассуждений, и представляет хорошо структурированное решение. Интегрируя метод непрерывного анализа изображений, исследователи из Alibaba Group, Пекинского университета и ZEEKR продвинули мощную идею — модели, которые снова смотрят, думают и уточняют. Предлагаемая платформа значительно повышает точность в сложных задачах и представляет собой план для более надёжных систем искусственного интеллекта, учитывающих визуальные данные.
Ознакомиться с работой можно на странице статьи и на GitHub. Все заслуги в проведении этого исследования принадлежат авторам проекта. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit с более чем 99 тысячами участников и подписывайтесь на нашу рассылку.