Компания Liquid AI официально выпустила LFM2-VL — новое семейство базовых моделей зрения и языка, оптимизированных для работы с низкой задержкой на устройствах. В семействе есть два высокоэффективных варианта — LFM2-VL-450M и LFM2-VL-1.6B. Этот запуск знаменует собой значительный шаг вперёд в применении мультимодального искусственного интеллекта на смартфонах, ноутбуках, носимых устройствах и встраиваемых системах без ущерба для скорости или точности. 🚀
Непревзойдённая скорость и эффективность
Модели LFM2-VL разработаны так, чтобы обеспечивать в 2 раза более быструю работу с графическим процессором (GPU) по сравнению с существующими моделями зрения и языка. При этом они сохраняют конкурентные показатели на таких задачах, как описание изображений, ответы на визуальные вопросы и мультимодальные рассуждения.
Вариант с 450 миллионами параметров адаптирован для сред с ограниченными ресурсами, а версия с 1,6 миллиарда параметров предлагает более широкие возможности, оставаясь при этом достаточно лёгкой для использования с одним графическим процессором или на мобильных устройствах высокого класса.
Технические инновации
Модульная архитектура: LFM2-VL сочетает в себе языковую модель (LFM2-1.2B или LFM2-350M), визуальный кодировщик SigLIP2 NaFlex (400 миллионов или 86 миллионов параметров) и мультимодальный проектор с техникой «pixel unshuffle», которая динамически уменьшает количество токенов изображения для более быстрой обработки.
Обработка исходного разрешения: изображения обрабатываются в исходном разрешении до 512×512 пикселей без искажений, связанных с масштабированием. Более крупные изображения разбиваются на неперекрывающиеся участки размером 512×512, что позволяет сохранить детализацию и соотношение сторон. Модель 1,6B также кодирует уменьшенное изображение в виде эскиза для понимания глобального контекста.
Гибкая работа с выводами: пользователи могут настраивать компромисс между скоростью и качеством во время вывода, регулируя максимальное количество токенов изображения и количество патчей. Это позволяет адаптировать работу в реальном времени к возможностям устройства и потребностям приложения.
Обучение: модели были сначала предварительно обучены на основе LFM2, затем совместно прошли промежуточное обучение для объединения возможностей зрения и языка с помощью прогрессивной корректировки соотношения данных «текст-изображение» и, наконец, были доработаны для понимания изображений примерно на 100 миллиардах мультимодальных токенов.
Результаты тестирования
LFM2-VL демонстрирует конкурентные результаты на общедоступных тестах, таких как RealWorldQA, MM-IFEval и OCRBench, конкурируя с более крупными моделями, такими как InternVL3 и SmolVLM2, но с меньшим объёмом памяти и гораздо более быстрой обработкой. Это делает её идеальной для периферийных и мобильных приложений.
Варианты использования и интеграция
LFM2-VL предназначена для разработчиков и предприятий, стремящихся развернуть быстрый, точный и эффективный мультимодальный искусственный интеллект непосредственно на устройствах. Это снижает зависимость от облачных технологий и позволяет создавать новые приложения в области робототехники, Интернета вещей, интеллектуальных камер, мобильных помощников и многого другого.
Примеры приложений включают в себя создание подписей к изображениям в реальном времени, визуальный поиск и интерактивные мультимодальные чат-боты.
Начало работы
Скачать: обе модели доступны сейчас в коллекции Liquid AI Hugging Face.
Запуск: для платформ, таких как llama.cpp, предоставлен пример кода для вывода, поддерживающий различные уровни квантования для оптимальной производительности на различном оборудовании.
Настройка: архитектура поддерживает интеграцию с платформой Liquid AI LEAP для дальнейшей настройки и мультиплатформенного периферийного развёртывания.
В итоге Liquid AI с моделью LFM2-VL устанавливает новый стандарт для эффективных, открытых моделей зрения и языка на периферии. Благодаря поддержке исходного разрешения, настраиваемому компромиссу между скоростью и качеством и ориентации на реальное применение, она даёт разработчикам возможность создавать приложения нового поколения на базе искусственного интеллекта — где угодно и на любом устройстве.
Ознакомьтесь с техническими деталями и моделями на Hugging Face. Посетите нашу страницу на GitHub, чтобы найти учебные пособия, коды и блокноты. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit, насчитывающему более 100 тысяч участников машинного обучения, а также подписывайтесь на нашу рассылку.
1. Какие преимущества моделей LFM2-VL выделяет компания Liquid AI по сравнению с существующими моделями зрения и языка?
Ответ: модели LFM2-VL обеспечивают в 2 раза более быструю работу с графическим процессором (GPU) по сравнению с существующими моделями зрения и языка, сохраняя при этом конкурентные показатели на таких задачах, как описание изображений, ответы на визуальные вопросы и мультимодальные рассуждения.
2. Какие технические инновации используются в моделях LFM2-VL для обеспечения высокой скорости и эффективности?
Ответ: в моделях LFM2-VL используются следующие технические инновации: модульная архитектура, обработка исходного разрешения изображений, гибкая работа с выводами и обучение через предварительное и промежуточное обучение.
3. Для каких устройств и приложений предназначены модели LFM2-VL?
Ответ: модели LFM2-VL предназначены для разработчиков и предприятий, стремящихся развернуть быстрый, точный и эффективный мультимодальный искусственный интеллект непосредственно на устройствах. Это снижает зависимость от облачных технологий и позволяет создавать новые приложения в области робототехники, Интернета вещей, интеллектуальных камер, мобильных помощников и многого другого.
4. Какие результаты демонстрирует LFM2-VL на общедоступных тестах?
Ответ: LFM2-VL демонстрирует конкурентные результаты на общедоступных тестах, таких как RealWorldQA, MM-IFEval и OCRBench, конкурируя с более крупными моделями, такими как InternVL3 и SmolVLM2, но с меньшим объёмом памяти и гораздо более быстрой обработкой.
5. Где можно ознакомиться с техническими деталями и моделями LFM2-VL?
Ответ: технические детали и модели LFM2-VL можно ознакомиться на Hugging Face. Также можно посетить страницу Liquid AI на GitHub, чтобы найти учебные пособия, коды и блокноты.