Mirage: мультимодальное рассуждение в VLM без визуализации изображений

Хотя VLM (Vision-Language Models, модели зрения и языка) хорошо справляются с пониманием текста и изображений, при рассуждениях они часто полагаются исключительно на текст, что ограничивает их способность решать задачи, требующие визуального мышления, например, пространственные головоломки. Люди естественным образом визуализируют решения, а не описывают каждую деталь, но VLM с этим справляются плохо.

Хотя некоторые современные модели могут генерировать и текст, и изображения, обучение их генерации изображений часто ослабляет их способность рассуждать. Создание изображений также не поддерживает пошаговое визуальное рассуждение. В результате раскрытие всего потенциала VLM для комплексного, визуально обоснованного мышления остаётся ключевой задачей в этой области.

CoT prompting (подсказки для пошагового рассуждения) побуждает модели решать задачи шаг за шагом, используя примеры с промежуточными объяснениями. Эта идея была распространена на мультимодальные задачи, где визуальная информация интегрирована в поток рассуждений.

Методы вроде ICoT (Integration of Image and Text) встраивают регионы изображений в текстовые последовательности, тогда как Visual CoT (визуальный CoT) использует визуальные аннотации для обучения моделей улучшению пространственного понимания.

Некоторые современные модели могут генерировать одновременно и текст, и изображения; однако они требуют тщательного контроля и влекут за собой высокие вычислительные затраты.

Исследователи из Университета Массачусетса в Амхерсте и Массачусетского технологического института предлагают подход, вдохновлённый тем, как люди используют мысленные образы, который включает формирование простых, релевантных задаче визуалов внутри себя во время мышления. Они представляют Mirage — фреймворк, который позволяет VLM встраивать визуальное рассуждение непосредственно в свои текстовые выходные данные без генерации полноценных изображений. Вместо этого модель вставляет компактные визуальные подсказки, полученные из её скрытых состояний.

Mirage — это фреймворк, вдохновлённый человеческими мысленными образами, который позволяет VLM рассуждать, используя компактные визуальные подсказки, а не генерировать полноценные изображения. Он использует два этапа обучения: сначала он закрепляет сжатые визуальные функции, известные как латентные токены, в процессе рассуждения с помощью вспомогательных изображений и совместного контроля. Затем он ослабляет это ограничение, позволяя модели генерировать свои латентные токены и использовать их для руководства рассуждениями. Такая настройка обеспечивает чередующееся мультимодальное рассуждение.

Заключительный этап обучения с подкреплением дополнительно настраивает модель, используя вознаграждения за точность и форматирование, поощряя как правильные ответы, так и структурированные мыслительные процессы.

Исследование оценивает модель на четырёх задачах пространственного рассуждения, таких как визуальные головоломки и геометрические задачи, используя небольшой набор данных из 1000 обучающих образцов. Для поддержки рассуждений оно генерирует синтетические вспомогательные изображения и шаги мышления, имитируя то, как люди используют эскизы и подсказки для облегчения мыслительных процессов.

Модель последовательно превосходит как модели, работающие только с текстом, так и мультимодальные базовые модели, даже в задачах, требующих обширного планирования, например, при решении лабиринтов. Меньшая версия модели также показывает хорошие результаты, демонстрируя надёжность метода. Исследования подтверждают, что сначала закрепление латентных визуальных токенов, а затем гибкое обучение является ключевым.

В целом, чередование визуального и текстового рассуждения без реальных изображений повышает как понимание, так и точность.

Заключение

Вдохновлённое тем, как люди используют мысленные образы для рассуждений, исследование представляет лёгкий подход, который позволяет VLM мыслить визуально, не генерируя при этом реальных изображений. Встраивая компактные визуальные подсказки в текст во время декодирования, модель учится рассуждать мультимодально с помощью двухэтапного процесса обучения: сначала закрепляя эти подсказки к реальным функциям изображения, затем позволяя им свободно развиваться для поддержки рассуждений. Заключительный этап обучения с подкреплением повышает производительность.

Тестируемая на задачах пространственного рассуждения, методика последовательно превосходит традиционные модели, работающие только с текстом. Однако остаются проблемы масштабирования на другие задачи и улучшения качества синтетических обучающих данных.

Ознакомиться с докладом и страницей на GitHub можно здесь. Вся заслуга в этом исследовании принадлежит исследователям этого проекта.

Спонсорская возможность

Охватите наиболее влиятельных разработчиков ИИ по всему миру. 1 миллион+ читателей в месяц, 500 тысяч+ создателей сообществ, бесконечные возможности. [Изучить спонсорство]

1. Какие проблемы существующих VLM (Vision-Language Models) решает предложенный фреймворк Mirage?

Существующие VLM часто полагаются исключительно на текст при рассуждениях, что ограничивает их способность решать задачи, требующие визуального мышления. Mirage решает эту проблему, позволяя VLM встраивать визуальное рассуждение непосредственно в свои текстовые выходные данные без генерации полноценных изображений.

2. Какие методы используются для улучшения пространственного понимания в мультимодальных задачах?

Для улучшения пространственного понимания в мультимодальных задачах используются методы, такие как ICoT (Integration of Image and Text), которые встраивают регионы изображений в текстовые последовательности, и Visual CoT (визуальный CoT), который использует визуальные аннотации для обучения моделей улучшению пространственного понимания.

3. Какие этапы обучения включает в себя фреймворк Mirage?

Фреймворк Mirage включает в себя два этапа обучения: сначала он закрепляет сжатые визуальные функции, известные как латентные токены, в процессе рассуждения с помощью вспомогательных изображений и совместного контроля. Затем он ослабляет это ограничение, позволяя модели генерировать свои латентные токены и использовать их для руководства рассуждениями.

4. Как оценивается эффективность модели Mirage?

Эффективность модели Mirage оценивается на четырёх задачах пространственного рассуждения, таких как визуальные головоломки и геометрические задачи, используя небольшой набор данных из 1000 обучающих образцов.

5. Какие результаты показало исследование при сравнении модели Mirage с другими моделями?

Исследование показало, что модель Mirage последовательно превосходит как модели, работающие только с текстом, так и мультимодальные базовые модели, даже в задачах, требующих обширного планирования, например, при решении лабиринтов.

Источник

Оставьте комментарий