Liquid AI выпустила LFM2-8B-A1B: модель Mixture-of-Experts для работы на устройстве с 8,3 миллиарда параметров и 1,5 миллиарда активных параметров на токен

Компания Liquid AI представила LFM2-8B-A1B — компактную модель Mixture-of-Experts (MoE), созданную для выполнения задач на устройстве при ограниченных ресурсах памяти, задержках и энергопотреблении.

Потенциал модели

Сколько возможностей может предоставить модель с разреженной структурой и 8,3 миллиарда параметров, активируя при этом около 1,5 миллиарда параметров на токен, не увеличивая задержку или нагрузку на память? Liquid AI выпустила LFM2-8B-A1B, которая показывает, что модель с 8,3 миллиарда параметров может эффективно работать на мобильных устройствах и встроенных системах.

В отличие от большинства работ по MoE, оптимизированных для облачных пакетных сервисов, LFM2-8B-A1B ориентирована на телефоны, ноутбуки и встроенные системы.

Понимание архитектуры

LFM2-8B-A1B использует «быстрый бэкбон» LFM2 и включает в себя разреженные блоки MoE для увеличения ёмкости без существенного увеличения активных вычислений. Бэкбон использует 18 блоков с короткими свёрточными операциями и 6 блоков сгруппированного внимания (GQA). Все слои, кроме первых двух, включают блок MoE; первые два остаются плотными для стабильности. Каждый блок MoE определяет 32 эксперта; маршрутизатор выбирает 4 лучших эксперта на токен с помощью нормализованной сигмоидальной функции и адаптивного смещения для балансировки нагрузки и стабилизации обучения.

Длина контекста составляет 32 768 токенов; размер словаря — 65 536; бюджет предварительного обучения — около 12 триллионов токенов.

Этот подход ограничивает количество операций с плавающей запятой на токен и рост кэша в пределах активного пути (внимание + четыре эксперта MLP), в то время как общая ёмкость позволяет специализацию в таких областях, как многоязычные знания, математика и код.

Производительность

Liquid AI сообщает, что LFM2-8B-A1B работает значительно быстрее, чем Qwen3-1.7B, при тестировании на процессоре с использованием внутреннего стека на основе XNNPACK и специального ядра CPU MoE.

Команда Liquid AI позиционирует качество как сопоставимое с моделями с 3–4 миллиардами плотных параметров, сохраняя при этом активные вычисления около 1,5 миллиарда.

Точность

В карточке модели перечислены результаты по 16 бенчмаркам, включая MMLU/MMLU-Pro/GPQA (знания), IFEval/IFBench/Multi-IF (выполнение инструкций), GSM8K/GSMPlus/MATH500/MATH-Lvl-5 (математика) и MGSM/MMMLU (многоязычность).

Развёртывание и инструменты

LFM2-8B-A1B поставляется с Transformers/vLLM для вывода на GPU и сборками GGUF для llama.cpp. Официальный репозиторий GGUF перечисляет общие количественные показатели от Q4_0 ≈4,7 ГБ до F16 ≈16,7 ГБ для локальных запусков, в то время как llama.cpp требует последней сборки с поддержкой lfm2moe (b6709+) для предотвращения ошибок «unknown model architecture».

Основные выводы

* Архитектура и маршрутизация: LFM2-8B-A1B сочетает в себе быстрый бэкбон LFM2 (18 блоков с короткими свёрточными операциями + 6 блоков GQA) с разреженными MoE FFN на каждом слое (все слои, кроме первых двух), используя 32 эксперта с маршрутизацией top-4 через нормализованное сигмоидальное управление и адаптивное смещение; 8,3 миллиарда параметров в сумме, около 1,5 миллиарда активных на токен.
* Целевая платформа: модель предназначена для телефонов, ноутбуков и встроенных процессоров/GPU; квантованные варианты «комфортно помещаются» на передовом потребительском оборудовании для частного использования с низкой задержкой.
* Производительность: Liquid сообщает, что LFM2-8B-A1B значительно быстрее, чем Qwen3-1.7B, в тестах на процессоре и стремится к качеству, сопоставимому с моделями с 3–4 миллиардами плотных параметров, сохраняя при этом около 1,5 миллиарда активных параметров.

LFM2-8B-A1B демонстрирует, что разреженная модель MoE может быть практичной ниже обычного серверного уровня. Модель сочетает в себе бэкбон LFM2 с вниманием и экспертными MLP на каждом слое (кроме первых двух), чтобы поддерживать токен вычислений около 1,5 миллиарда, одновременно повышая качество до уровня 3–4 миллиардов плотных классов.

С помощью стандартных и GGUF весов, путей llama.cpp/ExecuTorch/vLLM и разрешительной политики для работы на устройстве LFM2-8B-A1B является конкретным вариантом для создания помощников с низкой задержкой и встроенных ко-пилотов в приложениях на потребительском и периферийном оборудовании.

1. Каковы основные преимущества модели LFM2-8B-A1B по сравнению с другими моделями Mixture-of-Experts?

Ответ: модель LFM2-8B-A1B имеет несколько ключевых преимуществ. Во-первых, она разработана для работы на устройствах с ограниченными ресурсами памяти, задержками и энергопотреблением. Во-вторых, модель использует «быстрый бэкбон» LFM2 и включает в себя разреженные блоки MoE для увеличения ёмкости без существенного увеличения активных вычислений. В-третьих, LFM2-8B-A1B работает значительно быстрее, чем Qwen3-1.7B, при тестировании на процессоре.

2. Какие параметры модели LFM2-8B-A1B обеспечивают её эффективность на мобильных устройствах и встроенных системах?

Ответ: эффективность модели LFM2-8B-A1B на мобильных устройствах и встроенных системах обеспечивается несколькими параметрами. Во-первых, модель имеет разреженную структуру с 8,3 миллиарда параметров, активируя при этом около 1,5 миллиарда параметров на токен. Во-вторых, бэкбон использует 18 блоков с короткими свёрточными операциями и 6 блоков сгруппированного внимания (GQA). В-третьих, первые два слоя остаются плотными для стабильности, а остальные слои включают блок MoE.

3. Какие результаты демонстрирует модель LFM2-8B-A1B в бенчмарках?

Ответ: в карточке модели перечислены результаты по 16 бенчмаркам, включая MMLU/MMLU-Pro/GPQA (знания), IFEval/IFBench/Multi-IF (выполнение инструкций), GSM8K/GSMPlus/MATH500/MATH-Lvl-5 (математика) и MGSM/MMMLU (многоязычность). Это свидетельствует о том, что модель демонстрирует хорошие результаты в различных областях.

4. Какие инструменты и библиотеки используются для развёртывания модели LFM2-8B-A1B?

Ответ: LFM2-8B-A1B поставляется с Transformers/vLLM для вывода на GPU и сборками GGUF для llama.cpp. Официальный репозиторий GGUF перечисляет общие количественные показатели для локальных запусков. Это позволяет использовать модель на различных платформах и устройствах.

5. Каковы перспективы использования модели LFM2-8B-A1B в приложениях на потребительском и периферийном оборудовании?

Ответ: LFM2-8B-A1B является конкретным вариантом для создания помощников с низкой задержкой и встроенных ко-пилотов в приложениях на потребительском и периферийном оборудовании. Это связано с её эффективностью на мобильных устройствах и встроенных системах, а также с использованием стандартных и GGUF весов, путей llama.cpp/ExecuTorch/vLLM и разрешительной политики для работы на устройстве.

Источник