Компания Liquid AI внедрила LFM2-2.6B-Exp — экспериментальную контрольную точку своей языковой модели LFM2-2.6B. Она обучена с использованием чистого обучения с подкреплением (RL) поверх существующего стека LFM2. Цель проста: улучшить выполнение инструкций, решение задач, связанных со знаниями, и математические способности для небольшой модели класса 3B, которая по-прежнему ориентирована на использование на устройствах и периферийных устройствах.
Где LFM2-2.6B-Exp в семействе LFM2?
LFM2 — это второе поколение моделей Liquid Foundation. Оно предназначено для эффективного развёртывания на телефонах, ноутбуках и других периферийных устройствах. Liquid AI описывает LFM2 как гибридную модель, которая сочетает в себе блоки свёртки LIV с коротким радиусом действия и блоки сгруппированного запроса внимания, управляемые мультипликативными вентилями.
Семейство включает 4 модели разной плотности: LFM2-350M, LFM2-700M, LFM2-1.2B и LFM2-2.6B. Все они имеют одинаковую длину контекста — 32 768 токенов, размер словаря — 65 536 и точность bfloat16. Модель 2.6B использует 30 слоёв, включая 22 слоя свёртки и 8 слоёв внимания. Каждая модель обучена на бюджете в 10 триллионов токенов.
LFM2-2.6B уже позиционируется как высокоэффективная модель. Она достигает 82,41 % в GSM8K и 79,56 % в IFEval. Это ставит её впереди нескольких моделей класса 3B, таких как Llama 3.2 3B Instruct, Gemma 3 4B и SmolLM3 3B в этих тестах.
LFM2-2.6B-Exp использует ту же архитектуру. Она повторно использует ту же токенизацию, контекстное окно и аппаратный профиль. Контрольная точка сосредоточена только на изменении поведения на этапе обучения с подкреплением.
Обучение LFM2-2.6B-Exp
Эта контрольная точка построена на LFM2-2.6B с использованием чистого обучения с подкреплением. Она специально обучена на выполнении инструкций, работе со знаниями и математике.
Базовый обучающий стек LFM2 включает несколько этапов. Он включает крупномасштабную настройку под контролем учителя на основе различных задач и общих доменов, индивидуальную оптимизацию прямых предпочтений с нормализацией длины, итеративное объединение моделей и обучение с подкреплением с проверяемыми вознаграждениями.
Но что именно означает «чистое обучение с подкреплением»? LFM2-2.6B-Exp начинается с существующей контрольной точки LFM2-2.6B, а затем проходит последовательный график обучения RL. Сначала идёт выполнение инструкций, затем обучение RL расширяется на ориентированные на знания подсказки, математику и небольшое количество инструментов, без дополнительного прогрева SFT или этапа дистилляции на этом заключительном этапе.
Важно отметить, что LFM2-2.6B-Exp не меняет базовую архитектуру или предварительное обучение. Он изменяет политику на этапе RL, который использует проверяемые вознаграждения в целевом наборе доменов поверх модели, которая уже контролируется и согласована с предпочтениями.
Сигналы бенчмарка, особенно на IFBench
Команда Liquid AI выделяет IFBench в качестве основной метрики. IFBench — это бенчмарк для выполнения инструкций, который проверяет, насколько надёжно модель выполняет сложные, ограниченные инструкции. В этом бенчмарке LFM2-2.6B-Exp превосходит DeepSeek R1-0528, который, как сообщается, имеет в 263 раза больше параметров.
Модели LFM2 демонстрируют высокие результаты по стандартному набору тестов, таких как MMLU, GPQA, IFEval, GSM8K и связанные с ними наборы. Базовая модель 2.6B уже хорошо конкурирует в сегменте 3B. Контрольная точка RL дополнительно улучшает выполнение инструкций и математических операций, оставаясь в том же бюджете параметров 3B.
Архитектура и возможности, которые имеют значение
Архитектура использует 10 двойных вентильных блоков свёртки LIV с коротким радиусом действия и 6 блоков сгруппированного запроса внимания, расположенных в гибридном стеке. Такая конструкция снижает стоимость кэша KV и ускоряет вывод данных на потребительских графических процессорах и NPU.
Предварительная обучающая смесь использует примерно 75 % английского языка, 20 % многоязычных данных и 5 % кода. Поддерживаемые языки включают английский, арабский, китайский, французский, немецкий, японский, корейский и испанский.
Модели LFM2 используют шаблон, подобный ChatML, и собственные токены для использования инструментов. Инструменты описываются в формате JSON между выделенными маркерами списка инструментов. Модель затем выдаёт вызовы, похожие на Python, между маркерами вызова инструмента и считывает ответы инструментов между маркерами ответа инструмента. Эта структура делает модель подходящей в качестве ядра агента для стеков вызова инструментов без специального проектирования подсказок.
LFM2-2.6B, а также LFM2-2.6B-Exp — единственная модель в семействе, которая обеспечивает динамическое гибридное рассуждение через специальные токены мышления для сложных или многоязычных входных данных. Эта возможность остаётся доступной, поскольку контрольная точка RL не меняет токенизацию или архитектуру.
Ключевые выводы
LFM2-2.6B-Exp — это экспериментальная контрольная точка LFM2-2.6B, которая добавляет этап чистого обучения с подкреплением поверх предварительно обученной, контролируемой и согласованной с предпочтениями базы, ориентированной на выполнение инструкций, решение задач, связанных со знаниями, и математику.
LFM2-2.6B использует гибридную архитектуру, которая сочетает в себе двойные вентильные блоки свёртки LIV с коротким радиусом действия и блоки сгруппированного запроса внимания, с 30 слоями, 22 слоями свёртки и 8 слоями внимания, длиной контекста в 32 768 токенов и бюджетом обучения в 10 триллионов токенов при 2,6 миллиарда параметров.
LFM2-2.6B уже демонстрирует высокие результаты в классе 3B, достигая 82,41 % в GSM8K и 79,56 % в IFEval, а контрольная точка RL LFM2-2.6B-Exp дополнительно улучшает выполнение инструкций и математических операций без изменения архитектуры или профиля памяти.
Liquid AI сообщает, что в IFBench, бенчмарке для выполнения инструкций, LFM2-2.6B-Exp превосходит DeepSeek R1-0528, несмотря на то, что у последнего гораздо больше параметров, что свидетельствует о высокой производительности на параметр в условиях ограниченного развёртывания.
LFM2-2.6B-Exp выпущен на Hugging Face с открытыми весами под лицензией LFM Open License v1.0 и поддерживается через Transformers, vLLM, llama.cpp GGUF quantizations и ONNXRuntime, что делает его подходящим для агентских систем, извлечения структурированных данных, генерации с извлечением и помощников на устройствах, где требуется компактная модель 3B.
1. Какие преимущества предлагает модель LFM2-2.6B-Exp по сравнению с другими моделями класса 3B?
Ответ: LFM2-2.6B-Exp предлагает улучшенное выполнение инструкций, решение задач, связанных со знаниями, и математические способности по сравнению с другими моделями класса 3B, такими как Llama 3.2 3B Instruct, Gemma 3 4B и SmolLM3 3B. Это достигается за счёт использования чистого обучения с подкреплением поверх существующего стека LFM2.
2. Какие метрики используются для оценки производительности LFM2-2.6B-Exp?
Ответ: для оценки производительности LFM2-2.6B-Exp используются различные метрики, включая IFBench, который является бенчмарком для выполнения инструкций. LFM2-2.6B-Exp демонстрирует высокие результаты в этом бенчмарке, превосходя DeepSeek R1-0528, несмотря на то, что у последнего гораздо больше параметров.
3. Какие языки поддерживает модель LFM2-2.6B-Exp?
Ответ: модель LFM2-2.6B-Exp поддерживает английский, арабский, китайский, французский, немецкий, японский, корейский и испанский языки. Предварительная обучающая смесь использует примерно 75 % английского языка, 20 % многоязычных данных и 5 % кода.
4. Какие возможности предоставляет архитектура LFM2-2.6B-Exp?
Ответ: архитектура LFM2-2.6B-Exp использует 10 двойных вентильных блоков свёртки LIV с коротким радиусом действия и 6 блоков сгруппированного запроса внимания, расположенных в гибридном стеке. Такая конструкция снижает стоимость кэша KV и ускоряет вывод данных на потребительских графических процессорах и NPU. Модель также обеспечивает динамическое гибридное рассуждение через специальные токены мышления для сложных или многоязычных входных данных.
5. Какие инструменты и технологии поддерживают LFM2-2.6B-Exp?
Ответ: LFM2-2.6B-Exp поддерживается через Transformers, vLLM, llama.cpp GGUF quantizations и ONNXRuntime. Это делает его подходящим для агентских систем, извлечения структурированных данных, генерации с извлечением и помощников на устройствах, где требуется компактная модель 3B.