Расширение возможностей больших языковых моделей (LLM)
Большие языковые модели (LLM) научились работать с несколькими модальностями, особенно с изображениями и текстом. Это позволило создать более интерактивные и интуитивно понятные системы искусственного интеллекта. Мультимодальные LLM (MLLM) могут интерпретировать визуальные образы, отвечать на вопросы об изображениях и вести диалоги, включающие как текст, так и картинки. Их способность рассуждать в визуальной и лингвистической областях делает их всё более ценными для таких приложений, как образование, генерация контента и интерактивные помощники.
Проблема забывания только текста в MLLM
Однако интеграция зрения в LLM создаёт проблему. При обучении на наборах данных, в которых изображения смешаны с текстом, MLLM часто теряют способность выполнять чисто текстовые задачи. Это явление, известное как забывание только текста, возникает потому, что визуальные токены, вставленные в языковую последовательность, отвлекают внимание модели от текста. В результате MLLM начинает отдавать приоритет контенту, связанному с изображениями, и плохо справляется с задачами, требующими только понимания языка, такими как базовые рассуждения, понимание или текстовые задачи типа «вопрос-ответ» (Q&A).
Ограничения существующих стратегий смягчения последствий
Несколько методов пытаются решить эту проблему. Некоторые подходы повторно вводят большие объёмы текстовых данных во время обучения, в то время как другие чередуют одномодальное и мультимодальное тонкое настраивание. Эти стратегии направлены на то, чтобы напомнить модели о её первоначальных языковых возможностях. Другие разработки включают адаптеры или настройку на основе подсказок. Однако эти методы часто увеличивают затраты на обучение, требуют сложной логики переключения во время логического вывода или не восстанавливают полностью понимание текста.
WINGS: подход с двумя обучающимися от Alibaba и Нанкинского университета
Исследователи из группы Alibaba Group AI Business и Нанкинского университета представили новый подход под названием WINGS. В этой архитектуре в каждый слой MLLM добавлены два новых модуля — визуальный и текстовый обучающиеся. Они работают параллельно с основным механизмом внимания модели. Структура напоминает «крылья», прикреплённые по обе стороны от слоёв внимания. Компонент маршрутизации контролирует, сколько внимания получает каждый учащийся, в зависимости от текущего сочетания токенов, позволяя модели динамически балансировать своё внимание между визуальной и текстовой информацией.
Низкоранговое остаточное внимание (LoRRA): баланс между эффективностью и модальностью
Архитектура WINGS использует механизм, называемый низкоранговым остаточным вниманием (LoRRA), который делает вычисления лёгкими, одновременно позволяя учащимся фиксировать важную информацию, специфичную для модальности. На первом этапе обучения активируются только визуальные обучающиеся для выравнивания характеристик изображения. На втором этапе совместно обучаются как визуальные, так и текстовые обучающиеся с помощью модуля маршрутизатора, который использует веса внимания для распределения ответственности. Каждый учащийся использует эффективные блоки внимания для взаимодействия либо с изображением, либо с окружающим текстом, и их выходные данные объединяются с выходными данными основной модели. Это гарантирует, что визуальное внимание не подавляет понимание текста.
Показатели производительности WINGS в текстовых и мультимодальных задачах
С точки зрения производительности, WINGS показал высокие результаты. На наборе данных MMLU он достиг результата в 60,53 балла только по тексту, что представляет собой улучшение на 9,70 балла по сравнению с аналогичной базовой моделью. Для CMMLU он набрал 69,82 балла, что на 9,36 балла выше базового уровня. В задачах на рассуждение, таких как Race-High, он набрал 11,9 балла, а в WSC было зафиксировано улучшение на 11,12 балла. В мультимодальных тестах, таких как MMMU-VAL, WINGS добился улучшения на 4,78 балла. Он также продемонстрировал надёжные результаты на бенчмарке IIT, более эффективно обрабатывая многооборотные диалоги со смешанным текстом и изображениями, чем другие открытые MLLM того же масштаба.
Заключение: на пути к более сбалансированным и обобщаемым MLLM
Подводя итог, исследователи решили проблему катастрофического забывания только текста в MLLM, представив WINGS — архитектуру, которая объединяет специализированных визуальных и текстовых обучающихся наряду с маршрутизацией внимания. Анализируя сдвиги внимания и разрабатывая целенаправленные вмешательства, они сохранили производительность текста, одновременно улучшив визуальное понимание, предложив более сбалансированную и эффективную мультимодальную модель.
Ознакомиться с полной версией статьи можно по ссылке. Все заслуги за это исследование принадлежат исследователям этого проекта. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.