Многомодальные встраивания объединяют визуальные и текстовые данные в единое пространство представлений, позволяя системам осмысленно понимать и связывать изображения и язык. Эти встраивания поддерживают различные задачи, включая ответы на вопросы по визуальному контенту, поиск, классификацию и привязку. Технология особенно важна для моделей искусственного интеллекта, которые интерпретируют реальный контент через визуальную и лингвистическую призмы, например, для анализа документов, цифровых ассистентов или визуальных поисковых систем.
Одной из актуальных проблем является неспособность современных моделей эффективно обобщать данные по различным задачам и модальностям. Большинство моделей обучаются для узкоспециализированных задач или демонстрируют низкую эффективность при применении к незнакомым наборам данных. Кроме того, без широкого и унифицированного бенчмарка оценка производительности по многомодальным задачам становится непоследовательной и фрагментарной. Это ограничивает способность моделей выполнять различные функции, необходимые для реалистичных междоменных приложений, особенно при введении новых распределений данных.
Для генерации визуально-текстовых встраиваний были предложены несколько инструментов, таких как CLIP, BLIP и SigLIP. Эти модели обычно используют отдельные кодировщики для изображений и текста, объединяя их выходные данные с помощью простых операций, таких как слияние на уровне оценок. Хотя эти подходы предлагают базовую полезность, они страдают от ограниченного межмодального рассуждения и способности к обобщению. Их производительность в условиях нулевого обучения, как правило, снижается из-за поверхностных стратегий слияния и отсутствия обработки инструкций, специфичных для задачи, во время обучения.
В сотрудничестве между исследователями из Salesforce Research и Университета Ватерлоо была представлена новая модель под названием VLM2VEC вместе с комплексным бенчмарком под названием MMEB. MMEB включает в себя 36 наборов данных по четырем основным задачам: классификация, ответы на вопросы по визуальному контенту, поиск и привязка визуального контента. Наборы данных делятся на 20, используемых для обучения, и 16 — для оценки, включая задачи с распределением данных за пределами выборки. Фреймворк VLM2VEC предназначен для преобразования любой модели «vision-language» в модель встраиваний с использованием контрастного обучения. Это позволяет ей обрабатывать любые комбинации текстовых и визуальных входных данных, следуя инструкциям по выполнению задач.
Для создания VLM2VEC исследовательская группа использовала базовые модели, такие как Phi-3.5-V и LLaVA-1.6. Метод начинается с построения запросов и целевых показателей, специфичных для задачи и основанных на инструкциях, которые обрабатываются с помощью модели «vision-language» для генерации встраиваний. Контрастное обучение используется с функцией потерь InfoNCE и косинусным сходством, выравнивая встраивания путем максимизации сходства между соответствующими парами запрос-цель и минимизации его для несоответствий. Для поддержки больших размеров пакетов, критически важных для обучения с разнообразными отрицательными примерами, исследователи использовали GradCache, который разделяет пакеты на управляемые по памяти подпакеты и накапливает градиенты. Этот процесс обеспечивает эффективное обучение даже при высоких требованиях к памяти для многомодальных входных данных. Инструкции, специфичные для задачи, внедрены в конвейер обучения, чтобы помочь модели адаптировать кодирование к природе задачи, такой как привязка или поиск, что дополнительно повышает ее способности к обобщению.
Результаты тестирования демонстрируют преимущество предложенного метода. Лучшая версия VLM2VEC использовала LLaVA-1.6 в качестве базовой модели, применяла настройку LoRA и обрабатывала изображения с разрешением 1344 × 1344. Эта конфигурация достигла показателя Precision@1 в 62,9 % по всем 36 наборам данных MMEB. В тестах нулевого обучения на 16 наборах данных за пределами выборки модель сохранила высокий показатель в 57,1 %. По сравнению с лучшей базовой моделью без тонкой настройки, набравшей 44,7 %, VLM2VEC продемонстрировала улучшение на 18,2 пункта. По сравнению с лучшей тонко настроенной базовой моделью на уровне 47,2 % улучшение составило 15,7 пункта. По всем категориям задач — классификация, ответы на вопросы по визуальному контенту, поиск и привязка — модель стабильно набирала более 50 %, что не удалось ни одной базовой модели. Результаты также показывают, что варианты, настроенные с помощью LoRA, превосходят модели, обученные с полной тонкой настройкой, демонстрируя, что стратегии обучения с эффективным использованием параметров могут обеспечить более высокую точность.
Исследование чётко описывает решение проблемы узкоспециализированных инструментов многомодальных встраиваний, которым не хватает обобщающей способности. Объединив хорошо структурированную обучающую среду и надёжный бенчмарк, исследование демонстрирует универсальную модель встраиваний, которая эффективно справляется с различными задачами, используя контрастное обучение и следование инструкциям. Это достижение знаменует собой значимый шаг вперёд в масштабируемом и адаптируемом многомодальном искусственном интеллекте.