Статья об искусственном интеллекте представляет LLaDA-V: большую мультимодальную языковую модель, основанную исключительно на диффузии, для настройки визуальных инструкций и мультимодального рассуждения

Мультимодальные большие языковые модели (MLLMs) предназначены для обработки и генерации контента в различных форматах, включая текст, изображения, аудио и видео. Эти модели стремятся понимать и интегрировать информацию из разных источников, что позволяет использовать их в таких приложениях, как ответы на визуальные вопросы, создание подписей к изображениям и мультимодальные диалоговые системы. Разработка MLLMs — это значительный шаг на пути к созданию систем искусственного интеллекта, способных интерпретировать мир и взаимодействовать с ним более человекоподобным образом.

Основная проблема при разработке эффективных MLLMs заключается в интеграции различных типов входных данных, особенно визуальной информации, в языковые модели при сохранении высокой производительности по всем задачам. Существующие модели часто сталкиваются с трудностями в балансировке понимания языка и визуального рассуждения, особенно при работе со сложными данными. Кроме того, многим моделям требуются большие наборы данных для эффективной работы, что затрудняет их адаптацию к конкретным задачам или областям. Эти проблемы подчёркивают необходимость более эффективных и масштабируемых подходов к мультимодальному обучению.

Текущие MLLMs в основном используют авторегрессивные методы, предсказывая по одному токену за раз в направлении слева направо. Хотя этот подход эффективен, он имеет ограничения в работе со сложными мультимодальными контекстами. Были исследованы альтернативные методы, такие как диффузионные модели, однако они часто демонстрируют более слабое понимание языка из-за своей ограниченной архитектуры или неадекватных стратегий обучения.

Исследователи из Renmin University of China и Ant Group представили LLaDA-V — мультимодальную языковую модель, основанную исключительно на диффузии, которая объединяет настройку визуальных инструкций с моделями замаскированной диффузии. LLaDA-V, созданная на основе LLaDA, большой языковой диффузионной модели, включает в себя визуальный кодировщик и MLP-коннектор для проецирования визуальных характеристик в пространство языковых вложений, обеспечивая эффективное мультимодальное согласование.

Как работает LLaDA-V

* Маскированный диффузионный процесс: текстовые ответы постепенно уточняются путём итеративного предсказания замаскированных токенов. В отличие от авторегрессионных моделей, которые последовательно предсказывают токены, LLaDA-V генерирует выходные данные, обращая вспять процесс замаскированной диффузии.
* Обучение в три этапа:
* Первый этап выравнивает визуальные и языковые вложения путём сопоставления визуальных характеристик из SigLIP2 с языковым пространством LLaDA.
* Второй этап точно настраивает модель, используя 10 миллионов однотипных образцов и 2 миллиона мультимодальных образцов из MAmmoTH-VL.
* Третий этап фокусируется на рассуждениях, используя 900 тысяч пар вопросов и ответов из VisualWebInstruct и смешанную стратегию набора данных.
* Двунаправленное внимание улучшает понимание контекста, обеспечивая надёжное мультимодальное понимание.

В ходе оценки по 18 мультимодальным задачам LLaDA-V продемонстрировала превосходную производительность по сравнению с гибридными авторегрессивно-диффузионными и чисто диффузионными моделями. Она превзошла LLaMA3-V в большинстве задач, связанных с междисциплинарными знаниями и математическими рассуждениями, такими как MMMU, MMMU-Pro и MMStar, достигнув результата 60,1 в MMStar, что близко к результату Qwen2-VL в 60,7. Несмотря на то, что LLaDA-V использовала более слабую языковую башню LLaDA-8B, она также продемонстрировала эффективность в использовании данных, превзойдя LLaMA3-V в MMMU-Pro с использованием 1 миллиона образцов против 9 миллионов у LLaMA3-V.

Хотя LLaDA-V отставала в тестах на понимание диаграмм и документов, таких как AI2D, и в задачах, связанных с реальными сценами, такими как RealworldQA, результаты LLaDA-V подчёркивают её потенциал для мультимодальных задач.

В заключение, LLaDA-V решает задачи создания эффективных мультимодальных моделей, представляя архитектуру, основанную исключительно на диффузии, которая сочетает настройку визуальных инструкций с замаскированной диффузией. Этот подход обеспечивает сильные мультимодальные возможности рассуждения при сохранении эффективности использования данных. Работа демонстрирует потенциал диффузионных моделей в мультимодальном искусственном интеллекте, открывая путь для дальнейшего изучения вероятностных подходов к сложным задачам искусственного интеллекта.

Источник

Оставьте комментарий