Liquid AI выпускает LFM2.5: компактное семейство моделей искусственного интеллекта для реальных агентов на устройствах

Компания Liquid AI представила LFM2.5 — новое поколение небольших базовых моделей, созданных на основе архитектуры LFM2 и ориентированных на использование на устройствах и в периферийных системах.

Семейство моделей включает:
* LFM2.5-1.2B-Base;
* LFM2.5-1.2B-Instruct;
* варианты для японского языка, обработки визуального и аудио языка.

Модели выпущены как открытые веса на Hugging Face и представлены через платформу LEAP.

Архитектура и рецепт обучения

LFM2.5 сохраняет гибридную архитектуру LFM2, разработанную для быстрого и эффективного использования памяти на процессорах и NPU, и масштабирует данные и конвейер после обучения.

Предварительное обучение для бэкбона с 1,2 миллиардами параметров увеличено с 10 Т до 28 Т токенов. Вариант Instruct затем получает тонкую настройку под контролем, выравнивание предпочтений и крупномасштабное многоэтапное обучение с подкреплением, ориентированное на выполнение инструкций, использование инструментов, математику и логическое мышление.

Производительность текстовой модели в масштабе одного миллиарда

LFM2.5-1.2B-Instruct — это основная текстовая модель общего назначения. Команда Liquid AI сообщает о результатах тестов на GPQA, MMLU Pro, IFEval, IFBench и нескольких наборах для вызова функций и кодирования. Модель достигает 38,89 на GPQA и 44,35 на MMLU Pro. Открытые модели класса 1B, такие как Llama-3.2-1B Instruct и Gemma-3-1B IT, показывают значительно более низкие результаты по этим метрикам.

На IFEval и IFBench, нацеленных на многоэтапное выполнение инструкций и качество вызова функций, LFM2.5-1.2B-Instruct сообщает о 86,23 и 47,33. Эти значения опережают другие базовые показатели класса 1B в таблице выше.

Японский оптимизированный вариант

LFM2.5-1.2B-JP — это японская оптимизированная текстовая модель, созданная на основе того же бэкбона. Она нацелена на такие задачи, как JMMLU, M-IFEval на японском языке и GSM8K на японском. Этот контрольный пункт улучшает общую модель инструкций на японских задачах и конкурирует или превосходит другие небольшие многоязычные модели, такие как Qwen3-1.7B, Llama 3.2-1B Instruct и Gemma 3-1B IT, в этих локализованных тестах.

Модель обработки визуального языка для мультимодальных периферийных рабочих нагрузок

LFM2.5-VL-1.6B — это обновлённая модель обработки визуального языка в серии. Она использует LFM2.5-1.2B-Base в качестве языковой основы и добавляет башню обработки изображений для понимания изображений. Модель настроена на ряде тестов визуального мышления и OCR, включая MMStar, MM IFEval, BLINK, InfoVQA, OCRBench v2, RealWorldQA, MMMU и многоязычный MMBench.

LFM2.5-VL-1.6B улучшает предыдущую модель LFM2-VL-1.6B по большинству показателей и предназначена для реальных задач, таких как понимание документов, чтение пользовательского интерфейса и многозадачное мышление в условиях ограничений.

Модель аудиоязыка с нативной генерацией речи

LFM2.5-Audio-1.5B — это нативная модель аудиоязыка, которая поддерживает как текстовые, так и аудиовходы и выходы. Она представлена как модель Audio to Audio и использует аудиодетокенизатор, который описан как в восемь раз более быстрый, чем предыдущий детектонизатор на основе Mimi при той же точности на ограниченном оборудовании.

Модель поддерживает два основных режима генерации. Чередующаяся генерация предназначена для агентов речевого общения в реальном времени, где доминирует задержка. Последовательная генерация нацелена на такие задачи, как автоматическое распознавание речи и преобразование текста в речь, и позволяет переключать генерируемый модальности без повторной инициализации модели.

Аудиостек обучен с учётом обучения с квантованием при низкой точности, что позволяет поддерживать такие показатели, как STOI и UTMOS, близкими к базовому уровню полной точности, одновременно обеспечивая развёртывание на устройствах с ограниченными вычислительными возможностями.

Ключевые выводы

LFM2.5 — это семейство гибридных моделей масштаба 1,2 миллиарда, созданных на основе оптимизированной для устройств архитектуры LFM2, с вариантами Base, Instruct, Japanese, Vision Language и Audio Language, все они выпущены как открытые веса на Hugging Face и LEAP.

Предварительное обучение для LFM2.5 увеличено с 10 Т до 28 Т токенов, а модель Instruct добавляет тонкую настройку под контролем, выравнивание предпочтений и крупномасштабное многоэтапное обучение с подкреплением, что выводит качество выполнения инструкций и использования инструментов за рамки других базовых показателей класса 1B.

LFM2.5-1.2B-Instruct демонстрирует высокие результаты в текстовых тестах в масштабе 1B, достигая 38,89 на GPQA и 44,35 на MMLU Pro и опережая такие модели, как Llama 3.2 1B Instruct, Gemma 3 1B IT и Granite 4.0 1B на IFEval и IFBench.

Семейство включает специализированные мультимодальные и региональные варианты, при этом LFM2.5-1.2B-JP достигает передовых результатов для японских тестов в своём масштабе, а LFM2.5-VL-1.6B и LFM2.5-Audio-1.5B охватывают визуальный язык и нативные аудиоязыковые рабочие нагрузки для периферийных агентов.

1. Какие модели входят в семейство LFM2.5 и для каких задач они предназначены?

Ответ: семейство LFM2.5 включает в себя модели LFM2.5-1.2B-Base, LFM2.5-1.2B-Instruct, LFM2.5-1.2B-JP, LFM2.5-VL-1.6B и LFM2.5-Audio-1.5B. Они предназначены для использования на устройствах и в периферийных системах, включая обработку текста, японского языка, визуального и аудио языка.

2. Какие результаты демонстрирует модель LFM2.5-1.2B-Instruct в текстовых тестах?

Ответ: модель LFM2.5-1.2B-Instruct достигает 38,89 на GPQA и 44,35 на MMLU Pro. Также она показывает результаты 86,23 на IFEval и 47,33 на IFBench.

3. Какие преимущества предлагает модель LFM2.5-Audio-1.5B по сравнению с предыдущими моделями аудиоязыка?

Ответ: модель LFM2.5-Audio-1.5B поддерживает как текстовые, так и аудиовходы и выходы, а также использует аудиодетокенизатор, который в восемь раз более быстрый, чем предыдущий детектонизатор на основе Mimi при той же точности на ограниченном оборудовании. Кроме того, модель поддерживает два основных режима генерации: чередующуюся генерацию для агентов речевого общения в реальном времени и последовательную генерацию для задач, таких как автоматическое распознавание речи и преобразование текста в речь.

4. Какие ключевые выводы можно сделать о семействе моделей LFM2.5?

Ответ: LFM2.5 — это семейство гибридных моделей масштаба 1,2 миллиарда, созданных на основе оптимизированной для устройств архитектуры LFM2. Модели включают варианты Base, Instruct, Japanese, Vision Language и Audio Language. Предварительное обучение для LFM2.5 увеличено с 10 Т до 28 Т токенов, а модель Instruct добавляет тонкую настройку под контролем, выравнивание предпочтений и крупномасштабное многоэтапное обучение с подкреплением. LFM2.5-1.2B-Instruct демонстрирует высокие результаты в текстовых тестах в масштабе 1B, достигая 38,89 на GPQA и 44,35 на MMLU Pro. Семейство включает специализированные мультимодальные и региональные варианты.

5. Где можно найти модели LFM2.5?

Ответ: модели LFM2.5 выпущены как открытые веса на Hugging Face и представлены через платформу LEAP.

Источник