Модели встраивания служат мостиками между различными типами данных, кодируя разнообразную мультимодальную информацию в общее плотное пространство представлений. В последние годы были достигнуты успехи в разработке моделей встраивания, обусловленные прогрессом в области крупных базовых моделей. Однако существующие мультимодальные модели встраивания обучаются на таких наборах данных, как MMEB и M-BEIR, причём большинство из них фокусируются только на естественных изображениях и фотографиях из MSCOCO, Flickr и ImageNet. Эти наборы данных не охватывают более крупные формы визуальной информации, включая документы, PDF-файлы, веб-сайты, видео и слайды. Из-за этого существующие модели встраивания неэффективны при выполнении реалистичных задач, таких как поиск статей, веб-сайтов и видео на YouTube.
Изначально бенчмарки мультимодального встраивания, такие как MSCOCO, Flickr30K и Conceptual Captions, были сосредоточены на статических парах «изображение-текст» для таких задач, как создание подписей к изображениям и их поиск. Более поздние бенчмарки, такие как M-BEIR и MMEB, ввели многозадачные оценки, но по-прежнему ограничены статическими изображениями и короткими контекстами.
Обучение представлению видео развивалось с помощью таких моделей, как VideoCLIP и VideoCoCa, которые интегрируют контрастное обучение с целями создания подписей. Обучение представлению визуальных документов продвинулось вперёд благодаря моделям, таким как ColPali и VisRAG, которые используют VLM для поиска документов. Единые методы поиска по модальности, такие как GME и Uni-Retrieval, демонстрируют высокие результаты на универсальных бенчмарках. Однако ни один из них не может объединить поиск по изображениям, видео и визуальным документам в рамках единой платформы.
Исследователи из Salesforce Research, UC Santa Barbara, University of Waterloo и Tsinghua University предложили VLM2Vec-V2 для унификации поиска по изображениям, видео и визуальным документам в рамках единой платформы.
Основные моменты:
* Разработана MMEB-V2 — бенчмарк, который расширяет MMEB пятью новыми типами задач, включая поиск по визуальным документам, поиск по видео, временную привязку, классификацию видео и ответы на вопросы по видео.
* VLM2Vec-V2 служит универсальной моделью встраивания, которая поддерживает несколько входных модальностей, демонстрируя высокие результаты как по вновь представленным задачам, так и по исходным задачам с изображениями.
* VLM2Vec-V2 использует Qwen2-VL в качестве базовой модели, выбранной за её специализированные возможности в мультимодальной обработке.
* VLM2Vec-V2 достигает наивысшего среднего балла 58,0 по 78 наборам данных, охватывающим задачи с изображениями, видео и визуальными документами, превосходя сильные базовые модели, включая GME, LamRA и VLM2Vec, построенные на той же базе Qwen2-VL.
Особенности VLM2Vec-V2:
* Naive Dynamic Resolution;
* Multimodal Rotary Position Embedding (M-RoPE);
* единая структура, сочетающая 2D и 3D свёртки.
Для эффективного многозадачного обучения на различных источниках данных VLM2Vec-V2 вводит гибкий конвейер выборки данных с двумя ключевыми компонентами:
* смешивание пакетов «на лету» на основе предопределённых таблиц весовых коэффициентов выборки, которые контролируют относительные вероятности каждого набора данных;
* чередующаяся стратегия суббатчинга, которая разбивает полные пакеты на независимо выбранные субпакеты, повышая стабильность контрастного обучения.
VLM2Vec-V2 достигает наивысшего общего среднего балла 58,0 по 78 наборам данных, охватывающим задачи с изображениями, видео и визуальными документами, превосходя сильные базовые модели, включая GME, LamRA и VLM2Vec, построенные на той же базе Qwen2-VL.
В задачах с изображениями VLM2Vec-V2 превосходит большинство базовых моделей со значительным отрывом и достигает производительности, сравнимой с VLM2Vec-7B, несмотря на то, что имеет размер всего 2 миллиарда параметров.
Для видео VLM2Vec-V2 демонстрирует конкурентоспособные результаты, несмотря на обучение на относительно небольших объёмах видеоданных.
В поиске по визуальным документам VLM2Vec-V2 превосходит все варианты VLM2Vec, но всё ещё отстаёт от ColPali, который специально оптимизирован для задач с визуальными документами.
В заключение, исследователи представили VLM2Vec-V2 — сильную базовую модель, обученную с помощью контрастного обучения по различным задачам и сочетаниям модальностей. VLM2Vec-V2 построен на основе MMEB-V2 и использует Qwen2-VL в качестве базовой модели.
Экспериментальная оценка демонстрирует эффективность VLM2Vec-V2 в достижении сбалансированной производительности по нескольким модальностям, подчёркивая диагностическую ценность MMEB-V2 для будущих исследований.
1. Какие проблемы существующих мультимодальных моделей встраивания решает VLM2Vec-V2?
Ответ: существующие мультимодальные модели встраивания обучаются на таких наборах данных, как MMEB и M-BEIR, причём большинство из них фокусируются только на естественных изображениях и фотографиях из MSCOCO, Flickr и ImageNet. Эти наборы данных не охватывают более крупные формы визуальной информации, включая документы, PDF-файлы, веб-сайты, видео и слайды. Из-за этого существующие модели встраивания неэффективны при выполнении реалистичных задач, таких как поиск статей, веб-сайтов и видео на YouTube. VLM2Vec-V2 решает эту проблему, объединяя поиск по изображениям, видео и визуальным документам в рамках единой платформы.
2. Какие основные моменты отличают VLM2Vec-V2 от других моделей?
Ответ:
* Разработана MMEB-V2 — бенчмарк, который расширяет MMEB пятью новыми типами задач, включая поиск по визуальным документам, поиск по видео, временную привязку, классификацию видео и ответы на вопросы по видео.
* VLM2Vec-V2 служит универсальной моделью встраивания, которая поддерживает несколько входных модальностей, демонстрируя высокие результаты как по вновь представленным задачам, так и по исходным задачам с изображениями.
* VLM2Vec-V2 использует Qwen2-VL в качестве базовой модели, выбранной за её специализированные возможности в мультимодальной обработке.
* VLM2Vec-V2 достигает наивысшего среднего балла 58,0 по 78 наборам данных, охватывающим задачи с изображениями, видео и визуальными документами, превосходя сильные базовые модели, включая GME, LamRA и VLM2Vec, построенные на той же базе Qwen2-VL.
3. Какие особенности имеет VLM2Vec-V2?
Ответ:
* Naive Dynamic Resolution;
* Multimodal Rotary Position Embedding (M-RoPE);
* единая структура, сочетающая 2D и 3D свёртки;
* гибкий конвейер выборки данных с двумя ключевыми компонентами: смешивание пакетов «на лету» на основе предопределённых таблиц весовых коэффициентов выборки, которые контролируют относительные вероятности каждого набора данных; чередующаяся стратегия суббатчинга, которая разбивает полные пакеты на независимо выбранные субпакеты, повышая стабильность контрастного обучения.
4. В чём заключается преимущество VLM2Vec-V2 перед другими моделями в задачах с изображениями?
Ответ: в задачах с изображениями VLM2Vec-V2 превосходит большинство базовых моделей со значительным отрывом и достигает производительности, сравнимой с VLM2Vec-7B, несмотря на то, что имеет размер всего 2 миллиарда параметров.