Компания Liquid AI представила модель LFM2.5-1.2B-Thinking — модель рассуждений с 1,2 миллиарда параметров, которая работает полностью на устройстве и занимает около 900 МБ на современном телефоне. То, что два года назад требовало дата-центра, теперь может работать в автономном режиме на потребительском оборудовании. Основное внимание уделено структурированным следам рассуждений, использованию инструментов и математике, а не общему общению.
Положение в семействе LFM2.5 и основные характеристики
LFM2.5-1.2B-Thinking является частью семейства Liquid Foundation Models (LFM2.5), которое расширяет архитектуру LFM2 за счёт дополнительного предварительного обучения и многоэтапного обучения с подкреплением для периферийного развёртывания.
Модель предназначена только для текста и общего назначения. Вот её конфигурация:
* 1,17 миллиарда параметров, заявленных как модель класса 1,2 миллиарда;
* 16 слоёв, с 10 двойными LIV-конволюционными блоками и 6 блоками GQA;
* бюджет на обучение — 28 терабайт токенов;
* длина контекста — 32 768 токенов;
* размер словаря — 65 536;
* 8 языков: английский, арабский, китайский, французский, немецкий, японский, корейский, испанский.
Рассуждения и следы мышления
Вариант «Thinking» специально обучен для рассуждений. Во время вывода он создаёт внутренние следы рассуждений перед окончательным ответом. Эти следы представляют собой цепочки промежуточных шагов, которые модель использует для планирования вызовов инструментов, проверки частичных результатов и выполнения многошаговых инструкций.
Команда Liquid AI рекомендует эту модель для агентских задач, конвейеров извлечения данных и потоков генерации с извлечением, где требуется явное рассуждение и проверяемые промежуточные шаги.
Сравнение с другими моделями класса 1 миллиард
Команда Liquid AI оценивает LFM2.5-1.2B-Thinking по сравнению с моделями около 1 миллиарда параметров по ряду тестов на рассуждения и инструкции.
По сравнению с LFM2.5-1.2B-Instruct три показателя значительно улучшились: математические рассуждения выросли с 63 до 88 в MATH 500, выполнение инструкций — с 61 до 69 в Multi IF, а использование инструментов — с 49 до 57 в BFCLv3.
LFM2.5-1.2B-Thinking конкурирует с Qwen3-1.7B в режиме мышления по большинству тестов на рассуждения, используя при этом примерно на 40 процентов меньше параметров и в среднем меньше выходных токенов.
Рецепт обучения и смягчение последствий «doom looping»
Модели рассуждений часто страдают от «doom looping», когда модель повторяет фрагменты своей цепочки мыслей вместо того, чтобы закончить ответ. LFM2.5-1.2B-Thinking использует многоэтапный конвейер обучения для снижения этого эффекта.
Производительность вывода и аппаратные требования
Ключевой целью разработки является быстрый вывод с небольшим объёмом памяти на процессорах и NPU. LFM2.5-1.2B-Thinking может декодировать около 239 токенов в секунду на процессоре AMD и около 82 токенов в секунду на мобильном NPU, при этом занимая менее 1 ГБ памяти.
Ключевые выводы
* LFM2.5-1.2B-Thinking — это модель рассуждений с 1,17 миллиарда параметров и длиной контекста 32 768, которая помещается в 1 ГБ на телефонах и ноутбуках.
* Модель оптимизирована для явных следов мышления, агентских рабочих процессов, извлечения данных и RAG.
* Она достигает высоких результатов для модели класса 1 миллиард, например, 87,96 в MATH 500, 85,60 в GSM8K и конкурентоспособную производительность с Qwen3 1.7B в режиме мышления с меньшим количеством параметров.
* Тренировочный конвейер использует промежуточное обучение со следами рассуждений, контролируемую тонкую настройку, выравнивание предпочтений с 5 выборками наряду с 1 жадным кандидатом и RLVR с n-грамм штрафами, что снижает «doom loops» с 15,74 процента до 0,36 процента.
* Модель эффективно работает на AMD и Qualcomm NPU и процессорах с такими средами выполнения, как llama.cpp, FastFlowLM и NexaML, доступна в форматах GGUF, ONNX и MLX и может быть легко загружена из Hugging Face для развёртывания на устройствах.
1. Какие основные характеристики модели LFM2.5-1.2B-Thinking и как они влияют на её применение?
Основные характеристики модели LFM2.5-1.2B-Thinking включают:
* 1,17 миллиарда параметров;
* 16 слоёв с 10 двойными LIV-конволюционными блоками и 6 блоками GQA;
* бюджет на обучение — 28 терабайт токенов;
* длина контекста — 32 768 токенов;
* размер словаря — 65 536;
* поддержка 8 языков.
Эти характеристики влияют на применение модели, делая её подходящей для агентских задач, конвейеров извлечения данных и потоков генерации с извлечением, где требуется явное рассуждение и проверяемые промежуточные шаги.
2. В чём заключается особенность варианта «Thinking» модели LFM2.5-1.2B-Thinking?
Вариант «Thinking» модели LFM2.5-1.2B-Thinking специально обучен для рассуждений. Во время вывода он создаёт внутренние следы рассуждений перед окончательным ответом. Эти следы представляют собой цепочки промежуточных шагов, которые модель использует для планирования вызовов инструментов, проверки частичных результатов и выполнения многошаговых инструкций.
3. Как модель LFM2.5-1.2B-Thinking сравнивается с другими моделями класса 1 миллиард?
Команда Liquid AI оценивает LFM2.5-1.2B-Thinking по сравнению с моделями около 1 миллиарда параметров по ряду тестов на рассуждения и инструкции. По сравнению с LFM2.5-1.2B-Instruct три показателя значительно улучшились: математические рассуждения выросли с 63 до 88 в MATH 500, выполнение инструкций — с 61 до 69 в Multi IF, а использование инструментов — с 49 до 57 в BFCLv3.
LFM2.5-1.2B-Thinking конкурирует с Qwen3-1.7B в режиме мышления по большинству тестов на рассуждения, используя при этом примерно на 40 процентов меньше параметров и в среднем меньше выходных токенов.
4. Какие проблемы решает модель LFM2.5-1.2B-Thinking и как она это делает?
Модель LFM2.5-1.2B-Thinking решает проблемы, связанные с рассуждениями и выполнением инструкций. Она создаёт внутренние следы рассуждений, которые помогают планировать вызовы инструментов, проверять частичные результаты и выполнять многошаговые инструкции. Это делает её подходящей для агентских задач, конвейеров извлечения данных и потоков генерации с извлечением.
5. Каковы аппаратные требования для работы модели LFM2.5-1.2B-Thinking?
Ключевой целью разработки является быстрый вывод с небольшим объёмом памяти на процессорах и NPU. LFM2.5-1.2B-Thinking может декодировать около 239 токенов в секунду на процессоре AMD и около 82 токенов в секунду на мобильном NPU, при этом занимая менее 1 ГБ памяти. Это делает модель подходящей для работы на современных телефонах и ноутбуках.