Исследователи ByteDance представили VGR: новую мультимодальную большую языковую модель (MLLM) с улучшенным восприятием визуальных деталей

Почему мультимодальное рассуждение важно для задач, связанных со зрением и языком

Мультимодальное рассуждение позволяет моделям принимать обоснованные решения и отвечать на вопросы, объединяя визуальную и текстовую информацию. Этот тип рассуждений играет центральную роль в интерпретации диаграмм, ответах на вопросы, основанные на изображениях, и понимании сложных визуальных документов. Цель — научить машины использовать зрение так же, как это делают люди: не просто видеть, но и понимать, что они видят, и связывать это с языковым мышлением.

Проблемы в визуальном мышлении и языковой предвзятости

Основная проблема в этой области заключается в том, что многие модели чрезмерно зависят от лингвистической информации даже в задачах, требующих визуального толкования. Такая зависимость приводит к снижению производительности в приложениях, ориентированных на восприятие. Когда вопрос требует идентификации конкретного объекта на изображении или интерпретации числовых данных на диаграмме, эти модели часто терпят неудачу, потому что пытаются ответить, используя ранее усвоенные языковые шаблоны, а не анализируя визуальный контент. Это создаёт узкое место для задач, требующих детального визуального понимания для точного рассуждения и принятия решений.

Текущие ограничения существующих моделей зрения и языка

Были представлены различные инструменты для повышения производительности в этих задачах, но большинство из них всё ещё не справляются, когда их просят проанализировать детальные визуальные сигналы. Некоторые методы используют предварительно сгенерированные подписи к изображениям или аннотированные области, чтобы помочь модели, в то время как другие полагаются на структурированные многошаговые подсказки, чтобы стимулировать рассуждения. Несмотря на эти попытки, многие модели по-прежнему ограничены статическими визуальными ссылками или негибкими алгоритмами. Например, модели, которые используют только текстовые цепочки рассуждений, часто упускают визуальные нюансы, а те, которые полагаются на жёсткие подсказки, не подходят для разнообразных открытых запросов. Эти ограничения замедлили прогресс в создании моделей, которые действительно интегрируют зрение и рассуждение.

Представление VGR: фреймворк визуального обоснованного рассуждения

Исследователи из ByteDance Inc. и Университета Китайской академии наук представили новую модель под названием Visual Grounded Reasoning (VGR). В исследовании представлен метод, который позволяет модели динамически взаимодействовать с визуальными элементами во время рассуждений.

VGR отличается тем, что не обрабатывает потоки изображений и текста отдельно. Вместо этого он определяет важные области изображения во время обдумывания вопроса и использует эти области как часть процесса поиска ответа. Наряду с этой моделью исследователи создали новый набор данных VGR-SFT, который позволяет системе научиться визуальному мышлению с учётом встроенных визуальных подсказок. Этот подход устраняет необходимость в ручных аннотациях и обеспечивает гибкую визуальную фокусировку.

Как выборочное визуальное воспроизведение обеспечивает эффективное визуальное мышление

В основе VGR лежит метод, известный как выборочное визуальное воспроизведение. Эта функция позволяет модели извлекать определённые части изображения, когда это необходимо. Она использует кодировщик изображений для извлечения токенов из регионов изображения и сохраняет их в пуле визуальной памяти. Во время рассуждений, если модель сталкивается с ситуацией, когда требуется визуальная информация, она сигнализирует о воспроизведении, и соответствующие токены изображения повторно вводятся в поток рассуждений.

Система использует стратегию AnyRes, расширяя поддержку разрешения и сокращая использование токенов. По сравнению с базовым методом VGR использует только 144 токена для снимков изображений и 720 токенов для областей с высоким разрешением, что на 70 % меньше общего количества токенов. Для обучения этой способности модель управляется как стандартным обучением с учителем, так и вспомогательной функцией потерь, которая повышает её способность эффективно выбирать и интерпретировать регионы.

Результаты тестирования: точность и эффективность при меньшем количестве токенов

Модель была протестирована с использованием LLaVA-NeXT-7B в качестве базового уровня и показала хорошие результаты. На бенчмарке MMStar VGR добился улучшения на +4,1. Она также превзошла базовый уровень на +7,1 на бенчмарке AI2D и впечатляющие +12,9 на ChartQA. Эти результаты были достигнуты при использовании только 30 % количества визуальных токенов, необходимых для базового уровня.

В другом сравнении VGR улучшил производительность на 6,4 балла на MMStar и на 14,1 на ChartQA, демонстрируя свою эффективность и точность при использовании меньшего количества ресурсов. Эта производительность демонстрирует эффективность механизма выборочного воспроизведения в улучшении мультимодального мышления за счёт целенаправленного визуального взаимодействия.

Заключительные мысли: выход за рамки текстоцентричного мышления

В заключение, эта работа показывает, что продуманная интеграция визуальных сигналов в процесс рассуждения может преодолеть ограничения текстового вывода. Исследователи решили чёткую проблему, разработали точный метод для её решения и доказали его полезность с измеримыми результатами. Решение является одновременно практическим и эффективным, переопределяя способы слияния визуальных сигналов в интеллектуальные системы рассуждений.

Ознакомьтесь с [документом и моделью](https://marktechpost.com/2023/09/19/bytedance-researchers-introduce-vgr-a-novel-reasoning-multimodal-large-language-model-mllm-with-enhanced-fine-grained-visual-perception-capabilities/). Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также подписывайтесь на нас в [Twitter](https://twitter.com/) и присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) с более чем 100 тысячами участников и подписывайтесь на [наш информационный бюллетень](https://marktechpost.com/subscribe/).

Статья «ByteDance Researchers Introduce VGR: A Novel Reasoning Multimodal Large Language Model (MLLM) with Enhanced Fine-Grained Visual Perception Capabilities» впервые опубликована на MarkTechPost.

1. Какие проблемы в области визуального мышления и языковой предвзятости решает модель VGR?

В статье указано, что многие модели чрезмерно зависят от лингвистической информации даже в задачах, требующих визуального толкования. Модель VGR решает эту проблему, позволяя модели динамически взаимодействовать с визуальными элементами во время рассуждений. Она определяет важные области изображения во время обдумывания вопроса и использует эти области как часть процесса поиска ответа.

2. Как работает метод выборочного визуального воспроизведения в модели VGR?

Метод выборочного визуального воспроизведения позволяет модели извлекать определённые части изображения, когда это необходимо. Модель использует кодировщик изображений для извлечения токенов из регионов изображения и сохраняет их в пуле визуальной памяти. Во время рассуждений, если модель сталкивается с ситуацией, когда требуется визуальная информация, она сигнализирует о воспроизведении, и соответствующие токены изображения повторно вводятся в поток рассуждений.

3. Какие результаты были получены при тестировании модели VGR?

Модель VGR была протестирована с использованием LLaVA-NeXT-7B в качестве базового уровня и показала хорошие результаты. На бенчмарке MMStar VGR добился улучшения на +4,1. Она также превзошла базовый уровень на +7,1 на бенчмарке AI2D и впечатляющие +12,9 на ChartQA. Эти результаты были достигнуты при использовании только 30 % количества визуальных токенов, необходимых для базового уровня.

4. В чём заключается значимость интеграции визуальных сигналов в процесс рассуждения?

Интеграция визуальных сигналов в процесс рассуждения позволяет преодолеть ограничения текстового вывода. Это доказывает, что продуманная интеграция визуальных сигналов может улучшить мультимодальное мышление и сделать интеллектуальные системы более эффективными.

5. Какие преимущества предоставляет модель VGR по сравнению с базовыми методами?

Модель VGR использует только 144 токена для снимков изображений и 720 токенов для областей с высоким разрешением, что на 70 % меньше общего количества токенов по сравнению с базовыми методами. При этом она демонстрирует высокую точность и эффективность при меньшем количестве ресурсов.

Источник

Оставьте комментарий