Модели зрения и языка (VLM) играют решающую роль в современных интеллектуальных системах, обеспечивая детальное понимание визуального контента. Сложность задач мультимодального интеллекта возросла, начиная от решения научных задач и заканчивая разработкой автономных агентов.
Текущие требования к VLM вышли далеко за рамки простого восприятия визуального контента, и всё больше внимания уделяется продвинутому мышлению. Недавние работы показывают, что рассуждения в длинных формах и масштабируемое RL значительно улучшают способности LLM к решению задач. Однако текущие усилия в основном сосредоточены на конкретных областях для улучшения рассуждений VLM.
В сообществе с открытым исходным кодом в настоящее время отсутствует модель мультимодального мышления, которая превосходила бы традиционные нематематические модели сопоставимого масштаба параметров в различных задачах.
Исследователи из Zhipu AI и Университета Цинхуа предложили GLM-4.1V-Thinking — модель VLM, предназначенную для развития общего мультимодального понимания и рассуждений.
Подход использует обучение с подкреплением с помощью выборочного отбора (RLCS), чтобы раскрыть весь потенциал модели, позволяя улучшить решение STEM-задач, понимание видео, распознавание контента, кодирование, обоснование, работу с графическими интерфейсами и понимание длинных документов.
Исследователи открыли исходный код GLM-4.1V-9B-Thinking, который устанавливает новый стандарт среди моделей аналогичного размера. Он также демонстрирует конкурентоспособную, а в некоторых случаях и более высокую производительность по сравнению с проприетарными моделями, такими как GPT-4o, в сложных задачах, таких как понимание длинных документов и STEM-рассуждения.
GLM-4.1V-Thinking состоит из трёх основных компонентов:
* кодировщик изображений;
* адаптер MLP;
* декодер LLM.
Он использует AIMv2-Huge в качестве кодировщика изображений и GLM в качестве LLM, заменяя исходные двумерные свёртки трёхмерными для временного понижения дискретизации. Модель объединяет 2D-RoPE для поддержки произвольных разрешений изображений и соотношений сторон, а также обрабатывает экстремальные соотношения сторон свыше 200:1 и высокие разрешения свыше 4K.
Исследователи расширяют RoPE до 3D-RoPE в LLM для улучшения пространственного понимания в мультимодальных контекстах. Для временного моделирования в видео после каждого токена кадра добавляются токены индекса времени, а временные метки кодируются в виде строк, чтобы помочь модели понять временные промежутки между кадрами в реальном мире.
Во время предварительного обучения исследователи используют различные наборы данных, сочетая большие академические корпуса с перемежающимися данными изображений и текстами, богатыми знаниями. Включая чистые текстовые данные, основные языковые возможности модели сохраняются, что приводит к лучшим показателям pass@k по сравнению с другими современными предварительно обученными базовыми моделями аналогичного размера.
Этап контролируемой точной настройки преобразует базовую VLM в модель, способную к длинным выводам CoT с использованием тщательно отобранного корпуса long-CoT по проверяемым, например STEM-задачам, и непроверяемым задачам, таким как следование инструкциям.
Наконец, на этапе RL используется комбинация RLVR и RLHF для проведения крупномасштабного обучения во всех мультимодальных областях, включая решение STEM-задач, обоснование, оптическое распознавание символов, агентов GUI и многое другое.
GLM-4.1V-9B-Thinking превосходит все конкурирующие модели с открытым исходным кодом менее 10 миллиардов параметров в общих задачах VQA, охватывающих как одно-, так и многоизображения.
Он достигает наивысшей производительности на сложных STEM-бенчмарках, включая MMMUVal, MMMUPro, VideoMMMU и AI2D. В областях OCR и диаграмм модель устанавливает новые рекордные показатели на ChartQAPro и ChartMuseum.
Для понимания длинных документов GLM-4.1V-9B-Thinking превосходит все другие модели на MMLongBench, устанавливая новые рекордные результаты в задачах с графическими интерфейсами и мультимодальном кодировании. Наконец, модель демонстрирует надёжную производительность в понимании видео, превосходя VideoMME, MMVU и MotionBench.
В заключение исследователи представили GLM-4.1V-Thinking, который представляет собой шаг к общему мультимодальному мышлению. Его модель с 9 миллиардами параметров превосходит более крупные модели, например, те, что превышают 70 миллиардов параметров. Однако остаётся несколько ограничений, таких как непоследовательное улучшение качества рассуждений с помощью RL, нестабильность во время обучения и трудности со сложными случаями.
Будущие разработки должны быть сосредоточены на улучшении контроля и оценки рассуждений модели, а модели вознаграждения должны оценивать промежуточные этапы рассуждений, выявляя галлюцинации и логические несоответствия. Кроме того, изучение стратегий предотвращения взлома вознаграждений в задачах субъективной оценки имеет решающее значение для достижения общего интеллекта.
Примечание: данная статья впервые опубликована на MarkTechPost.
1. Какие основные компоненты включает в себя модель GLM-4.1V-Thinking?
Модель GLM-4.1V-Thinking состоит из трёх основных компонентов: кодировщик изображений, адаптер MLP и декодер LLM.
2. Какие преимущества предлагает GLM-4.1V-Thinking по сравнению с другими моделями?
GLM-4.1V-Thinking предлагает несколько преимуществ, включая улучшение решения STEM-задач, понимание видео, распознавание контента, кодирование, обоснование, работу с графическими интерфейсами и понимание длинных документов. Кроме того, модель демонстрирует конкурентоспособную, а в некоторых случаях и более высокую производительность по сравнению с проприетарными моделями, такими как GPT-4o, в сложных задачах, таких как понимание длинных документов и STEM-рассуждения.
3. Какие методы используются для предварительного обучения GLM-4.1V-Thinking?
Для предварительного обучения GLM-4.1V-Thinking исследователи используют различные наборы данных, сочетая большие академические корпуса с перемежающимися данными изображений и текстами, богатыми знаниями. Это включает в себя чистые текстовые данные, что позволяет сохранить основные языковые возможности модели и достичь лучших показателей pass@k по сравнению с другими современными предварительно обученными базовыми моделями аналогичного размера.
4. Какие задачи GLM-4.1V-Thinking решает лучше всего?
GLM-4.1V-Thinking демонстрирует высокую производительность в различных задачах, включая общие задачи VQA, STEM-бенчмарки (MMMUVal, MMMUPro, VideoMMMU и AI2D), OCR и диаграммы (ChartQAPro и ChartMuseum), понимание длинных документов (MMLongBench), задачи с графическими интерфейсами и мультимодальным кодированием, а также понимание видео (VideoMME, MMVU и MotionBench).
5. Какие ограничения существуют у GLM-4.1V-Thinking?
Несмотря на свои преимущества, GLM-4.1V-Thinking имеет несколько ограничений, включая непоследовательное улучшение качества рассуждений с помощью RL, нестабильность во время обучения и трудности со сложными случаями. Будущие разработки должны быть сосредоточены на улучшении контроля и оценки рассуждений модели.