Новая гибридная архитектура Liquid AI

Компания Liquid AI представила новую гибридную архитектуру LFM2-24B-A2B, которая сочетает внимание (Attention) и свёртки (Convolutions) для решения проблем масштабирования современных больших языковых моделей (LLMs).

Архитектура «A2B»: соотношение 1:3 для повышения эффективности

«A2B» в названии модели означает Attention-to-Base. В традиционном трансформере каждый слой использует Softmax Attention, который масштабируется квадратично (O(N2)) с длиной последовательности. Это приводит к созданию массивных кэшей KV (Key-Value), которые потребляют VRAM.

Команда Liquid AI обошла эту проблему, используя гибридную структуру. «Базовые» слои представляют собой эффективные блоки коротких свёрток с вентилями, а «слои внимания» используют сгруппированное запросное внимание (GQA).

В конфигурации LFM2-24B-A2B модель использует соотношение 1:3:
* Общее количество слоёв: 40.
* Блоки свёртки: 30.
* Блоки внимания: 10.

Перемежая небольшое количество блоков GQA с большинством слоёв свёрток с вентилями, модель сохраняет высокую разрешающую способность и возможности рассуждений трансформера, одновременно поддерживая быструю предварительную загрузку и малый объём памяти модели с линейной сложностью.

Sparse MoE: интеллект 24B на бюджете 2B

Самое важное в LFM2-24B-A2B — это её конструкция «Mixture of Experts» (MoE). Хотя модель содержит 24 миллиарда параметров, она активирует только 2,3 миллиарда параметров на токен.

Это меняет правила игры для развёртывания. Благодаря тому, что активный путь параметров настолько оптимизирован, модель может поместиться в 32 ГБ ОЗУ. Это означает, что она может работать локально на высокопроизводительных потребительских ноутбуках, настольных компьютерах со встроенными графическими процессорами (iGPUs) и выделенными NPU, не требуя при этом инфраструктуры уровня дата-центра A100.

Модель эффективно обеспечивает плотность знаний 24-битной модели со скоростью вывода и энергоэффективностью 2-битной модели.

Бенчмарки: повышение производительности

Команда Liquid AI сообщает, что семейство LFM2 демонстрирует предсказуемое логарифмически-линейное масштабирование. Несмотря на меньшее количество активных параметров, модель 24B-A2B последовательно превосходит более крупных конкурентов.

* Логика и рассуждения: в тестах вроде GSM8K и MATH-500 она конкурирует с плотными моделями, вдвое превышающими её размер.
* Пропускная способность: при тестировании на одном NVIDIA H100 с помощью vLLM она достигла 26,8 тыс. токенов в секунду при 1024 одновременных запросах, значительно опережая Snowflake gpt-oss-20b и Qwen3-30B-A3B.
* Длинный контекст: модель имеет окно контекста в 32 тыс. токенов, оптимизированное для чувствительных к конфиденциальности конвейеров RAG (Retrieval-Augmented Generation) и локального анализа документов.

Технические характеристики

* Общее количество параметров: 24 миллиарда.
* Активные параметры: 2,3 миллиарда.
* Архитектура: гибридная (Gated Conv + GQA).
* Слои: 40 (30 базовых / 10 внимательных).
* Длина контекста: 32 768 токенов.
* Объём обучающих данных: 17 триллионов токенов.
* Лицензия: LFM Open License v1.0.
* Встроенная поддержка: llama.cpp, vLLM, SGLang, MLX.

Ключевые выводы

* Гибридная архитектура «A2B»: модель использует соотношение 1:3 сгруппированного запросного внимания (GQA) и коротких свёрток с вентилями. Используя линейно-сложные «базовые» слои для 30 из 40 слоёв, модель достигает гораздо более высоких скоростей предварительной загрузки и декодирования со значительно меньшим объёмом памяти по сравнению с традиционными трансформерами со вниманием.
* Эффективность Sparse MoE: несмотря на наличие 24 миллиардов параметров, модель активирует только 2,3 миллиарда параметров на токен. Эта конструкция «Sparse Mixture of Experts» позволяет ей обеспечивать глубину рассуждений большой модели при сохранении задержки вывода и энергоэффективности модели с 2 миллиардами параметров.
* Истинная возможность работы на периферии: оптимизированная с помощью поиска архитектуры с аппаратными средствами модель предназначена для размещения в 32 ГБ ОЗУ. Это делает её полностью развёртываемой на потребительском оборудовании, включая ноутбуки со встроенными графическими процессорами и NPU, без необходимости дорогостоящей инфраструктуры дата-центра.
* Современное состояние производительности: LFM2-24B-A2B превосходит более крупных конкурентов, таких как Qwen3-30B-A3B и Snowflake gpt-oss-20b, по пропускной способности. Бенчмарки показывают, что она выдаёт примерно 26,8 тыс. токенов в секунду на одном H100, демонстрируя почти линейное масштабирование и высокую эффективность в задачах с длинным контекстом до своего окна в 32 тыс. токенов.

1. Какие проблемы решает новая гибридная архитектура LFM2-24B-A2B от Liquid AI?

Ответ: новая гибридная архитектура LFM2-24B-A2B от Liquid AI решает проблемы масштабирования современных больших языковых моделей (LLMs).

2. Как команда Liquid AI обошла проблему квадратичного масштабирования Softmax Attention в традиционных трансформерах?

Ответ: команда Liquid AI использовала гибридную структуру, где «базовые» слои представляют собой эффективные блоки коротких свёрток с вентилями, а «слои внимания» используют сгруппированное запросное внимание (GQA). Это позволяет сохранить высокую разрешающую способность и возможности рассуждений трансформера, одновременно поддерживая быструю предварительную загрузку и малый объём памяти модели с линейной сложностью.

3. Какие преимущества предоставляет конструкция «Mixture of Experts» (MoE) в модели LFM2-24B-A2B?

Ответ: конструкция «Mixture of Experts» (MoE) в модели LFM2-24B-A2B позволяет активировать только 2,3 миллиарда параметров на токен из общего количества 24 миллиардов параметров. Это делает модель более эффективной и позволяет ей работать на оборудовании с ограниченным объёмом оперативной памяти, таком как потребительские ноутбуки и настольные компьютеры со встроенными графическими процессорами (iGPUs) и выделенными NPU.

4. Какие результаты демонстрирует модель LFM2-24B-A2B в тестах на логику и рассуждения?

Ответ: в тестах на логику и рассуждения, таких как GSM8K и MATH-500, модель LFM2-24B-A2B конкурирует с плотными моделями, вдвое превышающими её размер. Это свидетельствует о её высокой эффективности и способности решать сложные задачи.

5. Какие технические характеристики имеет модель LFM2-24B-A2B?

Ответ: модель LFM2-24B-A2B имеет следующие технические характеристики:
* Общее количество параметров: 24 миллиарда.
* Активные параметры: 2,3 миллиарда.
* Архитектура: гибридная (Gated Conv + GQA).
* Слои: 40 (30 базовых / 10 внимательных).
* Длина контекста: 32 768 токенов.
* Объём обучающих данных: 17 триллионов токенов.
* Лицензия: LFM Open License v1.0.
* Встроенная поддержка: llama.cpp, vLLM, SGLang, MLX.

Источник