Liquid AI представляет LFM2-VL-3B: модель языка и зрения с 3 миллиардами параметров для устройств класса «edge»

Компания Liquid AI выпустила LFM2-VL-3B — модель языка и зрения с 3 миллиардами параметров для задач преобразования текста в изображение и обратно. Она расширяет семейство LFM2-VL за пределы вариантов на 450 миллионов и 1,6 миллиарда параметров.

Основные характеристики модели:
* нацелена на более высокую точность при сохранении скоростного профиля архитектуры LFM2;
* доступна на LEAP и Hugging Face под лицензией LFM Open License v1.0.

Обзор модели и интерфейс

LFM2-VL-3B принимает чередующиеся входные данные в виде изображений и текста и выдаёт текстовые выходные данные. Модель использует шаблон, подобный ChatML. Процессор вставляет страж ``, который заменяется на закодированные токены изображения во время выполнения. Длина текстового контекста по умолчанию составляет 32 768 токенов. Эти детали помогают разработчикам воспроизводить оценки и интегрировать модель с существующими мультимодальными конвейерами.

Архитектура

В стеке используется языковая башня, башня зрения с учётом формы и проектор. Языковая башня — LFM2-2.6B, гибридный бэкбоун с свёрточными операциями и механизмом внимания. Башня зрения — SigLIP2 NaFlex на 400 миллионов параметров, она сохраняет исходные соотношения сторон и избегает искажений. Соединитель — двухслойный MLP с неупорядоченным расположением пикселей, он сжимает токены изображения перед слиянием с языковым пространством. Такая конструкция позволяет пользователям ограничивать бюджеты токенов зрения без переобучения модели.

Настройки вывода

На Hugging Face карточка модели предоставляет рекомендуемые параметры. Для генерации текста используются температура 0,1, минимальное значение p 0,15 и штраф за повторение 1,05. Для настройки зрения используются минимальные и максимальные значения токенов изображения 64 и 256, а также включено разделение изображений. Процессор автоматически применяет шаблон чата и страж изображения.

Как это обучено?

Liquid AI описывает поэтапный подход. Команда выполняет совместное промежуточное обучение, которое со временем корректирует соотношение текста и изображения. Затем модель подвергается тонкой настройке под контролем, ориентированной на понимание изображений. Источники данных — крупномасштабные открытые наборы данных и собственные синтетические данные для охвата задач.

Бенчмарки

Исследовательская группа сообщает о конкурентных результатах среди лёгких открытых VLM. На MM-IFEval модель достигает 51,83. На RealWorldQA — 71,37. На MMBench dev en — 79,81. Оценка POPE составляет 89,01.

Почему это важно для пользователей edge?

Архитектура поддерживает вычислительные ресурсы и память в рамках бюджета небольших устройств. Токены изображения сжимаемы и ограничены пользователем, поэтому пропускная способность предсказуема. Кодировщик SigLIP2 400M NaFlex сохраняет исходные соотношения сторон, что помогает при детальном восприятии. Проектор уменьшает количество токенов на соединителе, что улучшает количество токенов в секунду.

Ключевые выводы

* Компактный мультимодальный стек: 3 миллиарда параметров LFM2-VL-3B объединяют языковую башню LFM2-2.6B с 400-миллионным кодировщиком зрения SigLIP2 NaFlex и двухслойным проектором MLP для слияния токенов изображения.
* Обработка разрешений и бюджеты токенов: изображения запускаются в исходном виде с разрешением до 512×512, более крупные входные данные разбиваются на неперекрывающиеся патчи размером 512×512 с помощью миниатюрного пути для глобального контекста.
* Интерфейс вывода: подсказки, подобные ChatML, со стражем ``, длина текстового контекста по умолчанию — 32 768 токенов, рекомендуемые настройки декодирования и элементы управления на уровне процессора для разделения изображений позволяют воспроизводить оценку и легко интегрировать модель в мультимодальные конвейеры.
* Измеренная производительность: результаты включают MM-IFEval 51,83, RealWorldQA 71,37, MMBench-dev-en 79,81 и POPE 89,01. Сигналы, связанные только с языком, составляют около 30% GPQA и 63% MMLU, что полезно для смешанных задач восприятия и работы со знаниями.

LFM2-VL-3B — это практичный шаг для краевых мультимодальных рабочих нагрузок. 3-миллиардный стек объединяет LFM2-2.6B с 400-миллионным кодировщиком SigLIP2 NaFlex и эффективным проектором, который снижает количество токенов изображения для предсказуемой задержки. Обработка с исходным разрешением с помощью 512-битного тайлинга и ограничения по токенам дают детерминированные бюджеты. Сообщаемые оценки на MM-IFEval, RealWorldQA, MMBench и POPE являются конкурентоспособными для такого размера. Открытые веса, сборка GGUF и доступ к LEAP снижают трудности интеграции. В целом, это готовый к работе на edge VLM-релиз с чёткими элементами управления и прозрачными бенчмарками.

1. Какие основные характеристики и преимущества модели LFM2-VL-3B?

Ответ: модель LFM2-VL-3B имеет несколько ключевых характеристик и преимуществ, включая высокую точность при сохранении скоростного профиля архитектуры LFM2, возможность работы с чередующимися входными данными в виде изображений и текста и выдачу текстовых выходных данных. Она также использует шаблон, подобный ChatML, и доступна на LEAP и Hugging Face под лицензией LFM Open License v1.0.

2. Какие компоненты входят в архитектуру LFM2-VL-3B и как они взаимодействуют между собой?

Ответ: архитектура LFM2-VL-3B включает в себя языковую башню LFM2-2.6B, башню зрения SigLIP2 NaFlex на 400 миллионов параметров и двухслойный MLP с неупорядоченным расположением пикселей. Языковая башня и башня зрения взаимодействуют через соединитель, который сжимает токены изображения перед слиянием с языковым пространством.

3. Какие результаты показала модель LFM2-VL-3B на различных бенчмарках?

Ответ: модель LFM2-VL-3B показала конкурентные результаты на различных бенчмарках, включая MM-IFEval (51,83), RealWorldQA (71,37), MMBench dev en (79,81) и POPE (89,01).

4. Почему модель LFM2-VL-3B важна для пользователей edge?

Ответ: модель LFM2-VL-3B важна для пользователей edge, поскольку её архитектура поддерживает вычислительные ресурсы и память в рамках бюджета небольших устройств. Она также позволяет ограничивать бюджеты токенов зрения без переобучения модели, что улучшает производительность на краевых устройствах.

5. Какие ключевые выводы можно сделать о модели LFM2-VL-3B?

Ответ: ключевые выводы о модели LFM2-VL-3B включают её компактный мультимодальный стек, обработку разрешений и бюджеты токенов, интерфейс вывода и измеренную производительность. Модель представляет собой практичный шаг для краевых мультимодальных рабочих нагрузок и готова к работе на edge с чёткими элементами управления и прозрачными бенчмарками.

Источник