Исследователи Apple представили FastVLM: достижение современного компромисса между разрешением, задержкой и точностью в моделях Vision Language Models

Модели Vision Language Models (VLMs) позволяют работать как с текстовыми данными, так и с визуальной информацией. Однако разрешение изображений имеет решающее значение для производительности VLM при обработке текста и данных с большим количеством графиков. Увеличение разрешения изображений создаёт значительные проблемы.

Проблемы при увеличении разрешения изображений:
* Предварительно обученные кодировщики изображений часто не справляются с изображениями высокого разрешения из-за неэффективных требований к предварительному обучению.
* Выполнение логического вывода на изображениях высокого разрешения увеличивает вычислительные затраты и задержку при генерации визуальных токенов, будь то обработка одного изображения высокого разрешения или нескольких изображений с более низким разрешением.
* Изображения высокого разрешения создают больше токенов, что приводит к увеличению времени предварительного заполнения LLM и времени до первого токена (TTFT), которое представляет собой сумму задержки кодировщика изображений и времени предварительного заполнения LLM.

Методы и подходы:
* Крупные мультимодальные модели, такие как Frozen и Florence, используют перекрёстное внимание для объединения встраиваний изображений и текста в промежуточных слоях LLM.
* Авторегрессионные архитектуры, такие как LLaVA, mPLUG-Owl, MiniGPT-4 и Cambrian-1, эффективны.
* Для эффективного кодирования изображений широко используются CLIP-обученные трансформеры зрения, такие как SigLIP, EVA-CLIP, InternViT и DFNCLIP.
* Методы, такие как LLaVA-PruMerge и выборка токенов на основе матрёшки, пытаются динамически сократить количество токенов, а иерархические основы, такие как ConvNeXT и FastViT, уменьшают количество токенов за счёт прогрессивной понижающей дискретизации.
* Недавно был представлен ConvLLaVA, который использует чисто свёрточный кодировщик изображений для кодирования изображений в VLM.

Исследователи из Apple предложили FastVLM — модель, которая достигает оптимизированного компромисса между разрешением, задержкой и точностью, анализируя, как качество изображения, время обработки, количество токенов и размер LLM влияют друг на друга.

FastVLM использует FastViTHD — гибридный кодировщик изображений, разработанный для вывода меньшего количества токенов и сокращения времени кодирования для изображений высокого разрешения. FastVLM достигает оптимального баланса между количеством визуальных токенов и разрешением изображения только за счёт масштабирования входного изображения.

Преимущества FastVLM:
* Улучшение TTFT в 3,2 раза в настройке LLaVA1.5.
* Превосходная производительность по ключевым бенчмаркам при использовании того же 0,5B LLM по сравнению с LLaVA-OneVision при максимальном разрешении.
* В 85 раз более быстрый TTFT при использовании в 3,4 раза меньшего кодировщика изображений.

Все модели FastVLM обучены на одном узле с 8 видеокартами NVIDIA H100-80GB. Этап 1 обучения VLM выполняется быстро, занимая около 30 минут при использовании декодера Qwen2-7B.

FastViTHD улучшает базовую архитектуру FastViT, вводя дополнительный этап с уровнем понижающей дискретизации. Это обеспечивает работу самовнимания с тензорами, пониженными в 32 раза, а не в 16, сокращая задержку кодирования изображений при генерации в 4 раза меньшего количества токенов для декодера LLM.

Архитектура FastViTHD содержит пять этапов: первые три этапа используют блоки RepMixer для эффективной обработки, а последние два этапа используют блоки многоголового самовнимания, создавая оптимальный баланс между вычислительной эффективностью и пониманием изображений высокого разрешения.

В сравнении с ConvLLaVA при использовании того же LLM и аналогичных данных для обучения FastVLM демонстрирует на 8,4% более высокую производительность в TextVQA и на 12,5% в DocVQA, работая при этом на 22% быстрее.

FastVLM соответствует или превосходит производительность MM1 по различным бенчмаркам, используя промежуточное предварительное обучение с 15 миллионами образцов для масштабирования разрешения, при этом генерируя в 5 раз меньше визуальных токенов. Более того, FastVLM не только превосходит Cambrian-1, но и работает в 7,9 раз быстрее.

В заключение, исследователи представили FastVLM — достижение в области VLM, использующее гибридную архитектуру FastViTHD для эффективного кодирования изображений высокого разрешения. Гибридная архитектура, предварительно обученная на подкреплённых данных изображения и текста, сокращает вывод визуальных токенов, сохраняя при этом минимальную жертву точности по сравнению с существующими подходами.

FastVLM демонстрирует конкурентную производительность по бенчмаркам VLM, обеспечивая заметные улучшения эффективности как по TTFT, так и по количеству параметров бэкбона. Тщательное тестирование на оборудовании M1 MacBook Pro показывает, что FastVLM предлагает современный компромисс между разрешением, задержкой и точностью, превосходящий текущие методы.

Ознакомьтесь с [статьёй](…). Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также подписывайтесь на нас в [Twitter](…) и присоединяйтесь к нашему [ML SubReddit](…). Подписывайтесь на наш [Newsletter](…).

Вам также может понравиться [NVIDIA’s Open Sourced Cosmos DiffusionRenderer](…).

1. Какие проблемы возникают при увеличении разрешения изображений в моделях Vision Language Models (VLMs)?

При увеличении разрешения изображений в моделях VLM возникают следующие проблемы:
* Предварительно обученные кодировщики изображений часто не справляются с изображениями высокого разрешения из-за неэффективных требований к предварительному обучению.
* Выполнение логического вывода на изображениях высокого разрешения увеличивает вычислительные затраты и задержку при генерации визуальных токенов.
* Изображения высокого разрешения создают больше токенов, что приводит к увеличению времени предварительного заполнения LLM и времени до первого токена (TTFT).

2. Какие методы и подходы используются для эффективного кодирования изображений в VLM?

Для эффективного кодирования изображений в VLM используются следующие методы и подходы:
* Крупные мультимодальные модели, такие как Frozen и Florence, используют перекрёстное внимание для объединения встраиваний изображений и текста в промежуточных слоях LLM.
* Авторегрессионные архитектуры, такие как LLaVA, mPLUG-Owl, MiniGPT-4 и Cambrian-1, эффективны.
* Для эффективного кодирования изображений широко используются CLIP-обученные трансформеры зрения, такие как SigLIP, EVA-CLIP, InternViT и DFNCLIP.
* Методы, такие как LLaVA-PruMerge и выборка токенов на основе матрёшки, пытаются динамически сократить количество токенов, а иерархические основы, такие как ConvNeXT и FastViT, уменьшают количество токенов за счёт прогрессивной понижающей дискретизации.
* Недавно был представлен ConvLLaVA, который использует чисто свёрточный кодировщик изображений для кодирования изображений в VLM.

3. В чём заключается преимущество модели FastVLM по сравнению с другими моделями VLM?

Модель FastVLM имеет следующие преимущества по сравнению с другими моделями VLM:
* Улучшение TTFT в 3,2 раза в настройке LLaVA1.5.
* Превосходная производительность по ключевым бенчмаркам при использовании того же 0,5B LLM по сравнению с LLaVA-OneVision при максимальном разрешении.
* В 85 раз более быстрый TTFT при использовании в 3,4 раза меньшего кодировщика изображений.
* На 8,4% более высокая производительность в TextVQA и на 12,5% в DocVQA по сравнению с ConvLLaVA при использовании того же LLM и аналогичных данных для обучения.
* FastVLM соответствует или превосходит производительность MM1 по различным бенчмаркам, используя промежуточное предварительное обучение с 15 миллионами образцов для масштабирования разрешения, при этом генерируя в 5 раз меньше визуальных токенов.

Источник