VL-Cogito: развитие мультимодального мышления с помощью поэтапного обучения с подкреплением

Мультимодальное мышление, при котором модели интегрируют и интерпретируют информацию из разных источников, таких как текст, изображения и диаграммы, является одной из самых сложных задач в области искусственного интеллекта. VL-Cogito — это современная мультимодальная большая языковая модель (MLLM), предложенная Академией DAMO (Alibaba Group) и партнёрами. Она представляет собой надёжный механизм обучения с подкреплением, который существенно улучшает навыки рассуждения больших моделей в области математики, естественных наук, логики, диаграмм и общего понимания.

Основные инновации

Уникальный подход VL-Cogito основан на Прогрессивной системе обучения с подкреплением (PCuRL), разработанной для систематического преодоления нестабильности и доменных разрывов, присущих мультимодальному мышлению.

Система включает в себя два прорывных нововведения:

1. Онлайн-взвешивание сложности (ODSW): этот механизм назначает динамические веса обучающим выборкам в зависимости от их сложности и развивающихся возможностей модели. Вместо жёсткой фильтрации «лёгких» или «сложных» выборок, ODSW обеспечивает, чтобы каждая подсказка способствовала соответствующим обновлениям градиента, позволяя модели переходить от простых случаев к сложным через непрерывный учебный план.

2. Динамическое вознаграждение за длину (DyLR): традиционные вознаграждения за длину в моделях рассуждения, основанных на RL, устанавливают статическую цель, которая не учитывает сложность задачи и поощряет ненужную многословность. DyLR решает эту проблему, рассчитывая идеальную целевую длину для каждой подсказки, оцениваемую по средней длине правильных выборок развёртывания для каждого вопроса.

Этапы обучения

Обучение RL VL-Cogito начинается непосредственно с основы Qwen2.5-VL-Instruct-7B, без необходимости начального холодного старта с помощью контролируемой тонкой настройки (SFT).

Процесс PCuRL явно разделён на три последовательных этапа RL: лёгкий, средний и сложный. На каждом этапе:

* Тот же набор данных перемешивается, предоставляя модели различные обобщающие задачи.
* Взвешивающая функция ODSW для этого этапа смещает обновления градиента в сторону целевой сложности.
* На сложном этапе активируется DyLR, чтобы стимулировать расширение цепочки адаптивного рассуждения.

Технические настройки:

* Оптимизатор AdamW, LR=1e-6, DeepSpeed-ZeRO3.
* Размер пакета развёртывания: 512; глобальный размер пакета: 128; длина последовательности: 4096; потеря дивергенции KL: 1e-3; 16 образцов ответов на подсказку; температура: 1,0.
* Гиперпараметры вознаграждения: α=1, β=0,5, γ=1, w=0,25 (штраф за подсказки с нулевой точностью).

Кураторы наборов данных и выборка данных RL

Тщательно подобранный обучающий набор охватывает 23 мультимодальных набора данных из открытых источников по шести категориям задач: математическое мышление, логическое мышление, подсчёт, научное мышление, понимание диаграмм и общее понимание изображений.

Все образцы переформулированы в открытые форматы вопросов и ответов, чтобы предотвратить поверхностное использование подсказок с множественным выбором.

Результаты оценки и тестирования

VL-Cogito сравнивается как с общими, так и с ориентированными на рассуждения MLLM на панели из десяти задач, включая такие наборы данных, как Geometry@3K, MathVerse, MathVista, ChartQA, ScienceQA, MMMU, EMMA и MMStar.

Абсолютный прирост точности по сравнению с основой:

* +7,6% на Geometry@3K;
* +5,5% на MathVista;
* +4,9% на LogicVista;
* +2,2% на ScienceQA;
* +4,5% на EMMA;
* +3,8% на MMStar.

VL-Cogito демонстрирует детальное, саморефлексивное пошаговое рассуждение. В математике модель разлагает решения на отдельные цепочки и активно исправляет ошибки, поведение, прививаемое RL-верификацией и оценкой преимуществ. В задачах классификации (например, идентификация разлагающихся организмов или небоскрёбов на изображениях) она методично рассматривает каждый вариант, прежде чем выбрать ответ, демонстрируя сильное мультимодальное понимание и надёжность процесса.

Выводы

Архитектура и обучающие инновации VL-Cogito устанавливают новый стандарт для мультимодального мышления в различных тестах. Дизайн и эмпирическая проверка прогрессивного учебного плана RL с динамическим вознаграждением за длину указывают на общую дорожную карту для надёжного рассуждения в мультимодальных моделях.

1. Какие инновационные подходы используются в модели VL-Cogito для улучшения мультимодального мышления?

В модели VL-Cogito используются два инновационных подхода:
* Онлайн-взвешивание сложности (ODSW), которое назначает динамические веса обучающим выборкам в зависимости от их сложности и развивающихся возможностей модели.
* Динамическое вознаграждение за длину (DyLR), которое рассчитывает идеальную целевую длину для каждой подсказки, оцениваемую по средней длине правильных выборок развёртывания для каждого вопроса.

2. Какие этапы включает в себя процесс обучения RL VL-Cogito?

Процесс обучения RL VL-Cogito разделён на три последовательных этапа: лёгкий, средний и сложный. На каждом этапе:
* Тот же набор данных перемешивается, предоставляя модели различные обобщающие задачи.
* Взвешивающая функция ODSW для этого этапа смещает обновления градиента в сторону целевой сложности.
* На сложном этапе активируется DyLR, чтобы стимулировать расширение цепочки адаптивного рассуждения.

3. Какие категории задач охватывает обучающий набор данных для VL-Cogito?

Обучающий набор данных для VL-Cogito охватывает шесть категорий задач:
* математическое мышление;
* логическое мышление;
* подсчёт;
* научное мышление;
* понимание диаграмм;
* общее понимание изображений.

4. Какие результаты были получены при тестировании VL-Cogito по сравнению с другими MLLM?

При тестировании VL-Cogito на панели из десяти задач, включая такие наборы данных, как Geometry@3K, MathVerse, MathVista, ChartQA, ScienceQA, MMMU, EMMA и MMStar, был получен абсолютный прирост точности по сравнению с основой. Например, прирост точности составил:
* +7,6% на Geometry@3K;
* +5,5% на MathVista;
* +4,9% на LogicVista;
* +2,2% на ScienceQA;
* +4,5% на EMMA;
* +3,8% на MMStar.

5. Какие особенности демонстрирует VL-Cogito в задачах классификации?

В задачах классификации VL-Cogito демонстрирует сильное мультимодальное понимание и надёжность процесса. Модель методично рассматривает каждый вариант, прежде чем выбрать ответ, демонстрируя детальное, саморефлексивное пошаговое рассуждение.

Источник