ReVisual-R1: мультимодальная большая языковая модель с открытым исходным кодом на 7 миллиардов параметров, которая обеспечивает длинные, точные и продуманные рассуждения

Задача мультимодального рассуждения

Недавние прорывы в языковых моделях, основанных на тексте, таких как DeepSeek-R1, показали, что RL может помочь в развитии сильных навыков рассуждения. Исследователи попытались применить те же методы RL к MLLM, чтобы улучшить их способность рассуждать как по визуальным, так и по текстовым данным. Однако эти попытки не были полностью успешными; MLLM всё ещё испытывают трудности со сложными задачами рассуждения. Это говорит о том, что простое повторное использование стратегий RL из моделей только для текста может не подойти в мультимодальной среде, где взаимодействие между различными типами данных создаёт новые проблемы, требующие более адаптированных подходов.

Эволюция мультимодальных языковых моделей

Недавние исследования в области MLLM основаны на прогрессе LLM путём объединения визуальных данных с пониманием языка. Ранние модели, такие как CLIP и MiniGPT-4, заложили основу, за которой последовали модели, настроенные по инструкциям, например LLaMA. Хотя закрытые модели демонстрируют сильные рассуждения благодаря длинным выводам CoT, модели с открытым исходным кодом в основном сосредоточены на тонкой настройке и адаптации CoT. Однако они часто дают краткие ответы, которые ограничивают углублённый анализ.

RL, включая такие методы, как RLHF и GRPO, показал себя перспективным для улучшения рассуждений в LLM. Вдохновлённые этим, недавние исследования направлены на применение RL в MLLM для улучшения визуального рассуждения и поддержки более богатых и длинных выводов.

Введение ReVisual-R1

Исследователи из Университета Цинхуа, Шанхайского университета Цзяо Тун и Шанхайской лаборатории искусственного интеллекта представили ReVisual-R1 — MLLM с открытым исходным кодом на 7 миллиардов параметров, который устанавливает новый стандарт в мультимодальных рассуждениях.

Их исследование выявляет три ключевых вывода:

1. Тщательное предварительное обучение только на тексте обеспечивает сильный старт, превосходя многие существующие MLLM даже до RL.
2. Общепринятый алгоритм GRPO страдает от стагнации градиента, которую исследователи решают с помощью нового метода, называемого Prioritized Advantage Distillation (PAD).
3. Добавление финальной стадии RL только для текста после мультимодального RL дополнительно улучшает рассуждения.

Трёхэтапный подход, который включает в себя предварительное обучение текста, мультимодальное RL и финальное RL только для текста, обеспечивает эффективный баланс между визуальной привязкой и глубоким когнитивным мышлением.

Разработка набора данных GRAMMAR

Набор данных GRAMMAR был разработан после того, как было замечено, что существующим мультимодальным наборам данных для холодного старта не хватает глубины, необходимой для обучения сильных моделей рассуждений. Наборы данных только для текста, такие как DeepMath, показали лучшие результаты как в текстовых, так и в мультимодальных задачах, что позволяет предположить, что сложность текста лучше стимулирует рассуждения.

Чтобы решить эту проблему, GRAMMAR объединяет разнообразные текстовые и мультимодальные образцы, используя многоэтапный процесс отбора. Эти данные подпитывают систему оптимизации подкрепления с поэтапной обработкой (SRO), которая сначала обучает модели с помощью мультимодального RL, улучшенного с помощью Prioritized Advantage Distillation, чтобы избежать застоя в обучении, и эффективного по длине вознаграждения, чтобы сдержать многословие, а затем переходит к финальной стадии RL только для текста, чтобы улучшить рассуждения и языковую беглость.

Трёхэтапный процесс обучения

Эксперименты для ReVisual-R1 проводились в соответствии со структурированным трёхэтапным процессом обучения: начиная с чистых текстовых данных для создания языковой основы, затем включая мультимодальное обучение с подкреплением для визуально-текстового рассуждения и, наконец, тонкая настройка с помощью RL только для текста для улучшения рассуждений и беглости речи.

Модель была протестирована на различных бенчмарках и превзошла как модели с открытым исходным кодом, так и некоторые коммерческие модели в задачах мультимодального и математического рассуждения. Модель достигла лучших результатов в 9 из 10 тестов. Исследования методом исключения подтвердили важность порядка обучения и метода Prioritized Advantage Distillation, который помог сосредоточить обучение на качественных ответах, что привело к значительному улучшению общей производительности.

Резюме и вклад

В заключение, ReVisual-R1 — это 7B MLLM с открытым исходным кодом, созданная для решения задач сложного мультимодального рассуждения. Вместо того чтобы полагаться исключительно на масштаб, она использует хорошо продуманный трёхэтапный процесс обучения: начиная с высококачественных текстовых данных для создания основы рассуждений, затем переходит к фазе мультимодального RL, усиленного с помощью новой техники PAD для стабильности, и заканчивается финальной настройкой с помощью RL только для текста. Этот продуманный учебный план значительно повышает производительность.

ReVisual-R1 устанавливает новый стандарт среди 7B моделей, превосходя в таких задачах, как MathVerse и AIME. Работа подчёркивает, как структурированное обучение может раскрыть более глубокие возможности рассуждений в MLLM.

Источник

Оставьте комментарий