Apple выпустила FastVLM: новый гибридный энкодер изображений, который в 85 раз быстрее и в 3,4 раза компактнее аналогичных языковых моделей обработки изображений (VLM)

Оглавление

1. Введение
2. Существующие архитектуры VLM
3. Apple’s FastVLM
4. Сравнения с бенчмарками
5. Заключение

Введение

Языковые модели обработки изображений (VLM) позволяют работать как с текстовыми данными, так и с визуальной информацией. Однако разрешение изображений имеет решающее значение для производительности VLM при обработке текста и данных с графиками. Увеличение разрешения изображений создаёт значительные проблемы.

Во-первых, предварительно обученные энкодеры изображений часто плохо справляются с изображениями высокого разрешения из-за неэффективных требований к предварительному обучению. Выполнение логического вывода на изображениях высокого разрешения увеличивает вычислительные затраты и задержку при генерации визуальных токенов, независимо от того, используется ли обработка одного изображения высокого разрешения или несколько плиток с более низким разрешением.

Во-вторых, изображения высокого разрешения создают больше токенов, что приводит к увеличению времени предварительного заполнения LLM и времени до первого токена (TTFT), которое представляет собой сумму задержки энкодера изображений и времени предварительного заполнения LLM.

Существующие архитектуры VLM

Крупные мультимодальные модели, такие как Frozen и Florence, использовали кросс-внимание для объединения встраиваний изображений и текста в промежуточных слоях LLM. Авторегрессионные архитектуры, такие как LLaVA, mPLUG-Owl, MiniGPT-4 и Cambrian-1, эффективны. Для эффективного кодирования изображений широко используются CLIP-претренированные трансформеры зрения, такие как SigLIP, EVA-CLIP, InternViT и DFNCLIP.

Методы, такие как LLaVA-PruMerge и выборка токенов на основе матрёшки, пытаются динамически сократить количество токенов, в то время как иерархические основы, такие как ConvNeXT и FastViT, уменьшают количество токенов за счёт прогрессивной субдискретизации. Недавно был представлен ConvLLaVA, который использует чисто свёрточный энкодер изображений для кодирования изображений для VLM.

Apple’s FastVLM

Исследователи из Apple предложили FastVLM — модель, которая обеспечивает оптимизированный компромисс между разрешением, задержкой и точностью, анализируя, как качество изображения, время обработки, количество токенов и размер LLM влияют друг на друга.

Он показывает в 3,2 раза более высокую производительность TTFT в настройке LLaVA1.5 и обеспечивает более высокую производительность по ключевым бенчмаркам, используя тот же 0,5B LLM, по сравнению с LLaVA-OneVision при максимальном разрешении. Он обеспечивает в 85 раз более быструю TTFT при использовании в 3,4 раза меньшего энкодера изображений.

Все модели FastVLM обучены на одном узле с 8 видеокартами NVIDIA H100-80GB, где этап 1 обучения VLM проходит быстро, занимая около 30 минут для обучения с декодером Qwen2-7B. Кроме того, FastViTHD улучшает базовую архитектуру FastViT, вводя дополнительный этап со слоем субдискретизации. Это обеспечивает работу механизма самовнимания с тензорами, субдискретизированными в 32 раза, а не в 16, сокращая задержку кодирования изображений при генерации в 4 раза меньшего количества токенов для декодера LLM.

Архитектура FastViTHD содержит пять этапов: первые три этапа используют блоки RepMixer для эффективной обработки, а последние два этапа используют блоки многоголового самовнимания, создавая оптимальный баланс между вычислительной эффективностью и пониманием изображений высокого разрешения.

Сравнения с бенчмарками

Преимущество в производительности увеличивается при более высоких разрешениях, где FastVLM поддерживает в 2 раза более высокую скорость обработки по сравнению с ConvLLaVA в различных бенчмарках. FastVLM соответствует или превосходит производительность MM1 в различных бенчмарках, используя промежуточное предварительное обучение с 15 миллионами образцов для масштабирования разрешения, при этом генерируя в 5 раз меньше визуальных токенов.

Более того, FastVLM не только превосходит Cambrian-1, но и работает в 7,9 раз быстрее. При масштабировании настройки инструкций он выдаёт лучшие результаты, используя в 2,3 раза меньше визуальных токенов.

Заключение

В заключение исследователи представили FastVLM — достижение в области VLM, использующее FastViTHD в качестве основы для эффективного кодирования изображений высокого разрешения. Гибридная архитектура, предварительно обученная на подкреплённых данных с изображениями и текстом, сокращает вывод визуальных токенов, сохраняя минимальные потери в точности по сравнению с существующими подходами.

FastVLM обеспечивает конкурентоспособную производительность по бенчмаркам VLM, одновременно обеспечивая заметные улучшения эффективности как по TTFT, так и по количеству параметров основы видения. Тщательное тестирование на оборудовании M1 MacBook Pro показывает, что FastVLM предлагает современный компромисс между разрешением, задержкой и точностью, превосходящий текущие методы.

1. Какие проблемы возникают при обработке изображений высокого разрешения с помощью предварительно обученных энкодеров изображений?

Предварительно обученные энкодеры изображений часто плохо справляются с изображениями высокого разрешения из-за неэффективных требований к предварительному обучению. Выполнение логического вывода на изображениях высокого разрешения увеличивает вычислительные затраты и задержку при генерации визуальных токенов.

2. Какие методы используются для эффективного кодирования изображений в существующих архитектурах VLM?

Для эффективного кодирования изображений используются CLIP-претренированные трансформеры зрения, такие как SigLIP, EVA-CLIP, InternViT и DFNCLIP. Также применяются методы, такие как LLaVA-PruMerge и выборка токенов на основе матрёшки, которые пытаются динамически сократить количество токенов. Иерархические основы, такие как ConvNeXT и FastViT, уменьшают количество токенов за счёт прогрессивной субдискретизации.

3. В чём заключается преимущество FastVLM перед другими моделями VLM?

FastVLM использует FastViTHD, гибридный энкодер изображений, предназначенный для вывода меньшего количества токенов и сокращения времени кодирования для изображений высокого разрешения. Он достигает оптимального баланса между количеством визуальных токенов и разрешением изображения только за счёт масштабирования входного изображения. FastVLM показывает в 3,2 раза более высокую производительность TTFT в настройке LLaVA1.5 и обеспечивает более высокую производительность по ключевым бенчмаркам, используя тот же 0,5B LLM, по сравнению с LLaVA-OneVision при максимальном разрешении.

4. Какие этапы включает в себя архитектура FastViTHD?

5. Как FastVLM сравнивается с другими моделями VLM по производительности на бенчмарках?

При сравнении с ConvLLaVA, использующим тот же LLM и аналогичные данные для обучения, FastVLM показывает на 8,4% более высокую производительность на TextVQA и на 12,5% улучшение на DocVQA, работая при этом на 22% быстрее. Преимущество в производительности увеличивается при более высоких разрешениях, где FastVLM поддерживает в 2 раза более высокую скорость обработки по сравнению с ConvLLaVA в различных бенчмарках. FastVLM соответствует или превосходит производительность MM1 в различных бенчмарках, используя промежуточное предварительное обучение с 15 миллионами образцов для масштабирования разрешения, при этом генерируя в 5 раз меньше визуальных токенов. Более того, FastVLM не только превосходит Cambrian-1, но и работает в 7,9 раз быстрее.

Источник