Liquid AI представляет LFM2: новое поколение периферийных LLM

Компания Liquid AI выпустила LFM2 — второе поколение своих Liquid Foundation Models. Эта серия генеративных моделей искусственного интеллекта представляет собой сдвиг парадигмы в периферийных вычислениях, обеспечивая беспрецедентную оптимизацию производительности, специально разработанную для развёртывания на периферийных устройствах при сохранении конкурентоспособных стандартов качества.

Революционные достижения в производительности

LFM2 устанавливает новые стандарты в сфере периферийного ИИ, достигая значительного повышения эффективности по нескольким параметрам. Модели обеспечивают в 2 раза более быструю декодировку и предварительное заполнение по сравнению с Qwen3 на архитектурах CPU, что является важным достижением для приложений реального времени. Более того, процесс обучения оптимизирован в 3 раза по сравнению с предыдущим поколением LFM, что делает LFM2 наиболее экономически эффективным путём к созданию мощных систем ИИ общего назначения.

Эти улучшения производительности не просто постепенные, они представляют собой фундаментальный прорыв в обеспечении доступности мощного ИИ на устройствах с ограниченными ресурсами. Модели специально разработаны для обеспечения миллисекундной задержки, устойчивости в автономном режиме и обеспечения конфиденциальности данных — возможности, необходимые для телефонов, ноутбуков, автомобилей, роботов, носимых устройств, спутников и других конечных точек, которые должны работать в реальном времени.

Инновационная гибридная архитектура

Техническая основа LFM2 — это новая гибридная архитектура, сочетающая лучшие аспекты свёрточных механизмов и механизмов внимания. Модель использует сложную структуру из 16 блоков, состоящую из 10 сдвоенных короткоканальных свёрточных блоков и 6 блоков сгруппированного запроса внимания (GQA).

В основе этой архитектуры лежит фреймворк Linear Input-Varying (LIV), который позволяет генерировать веса на лету из входных данных, на которых они действуют. Это позволяет свёрткам, рекуррентам, вниманию и другим структурированным слоям подпадать под одну унифицированную систему, учитывающую входные данные.

Комплексная линейка моделей

LFM2 доступен в трёх конфигурациях с разным количеством параметров: 350M, 700M и 1,2B, каждая из которых оптимизирована для различных сценариев развёртывания при сохранении основных преимуществ в эффективности.

Превосходные результаты бенчмарков

Результаты оценки показывают, что LFM2 значительно превосходит модели аналогичного размера по нескольким категориям бенчмарков. Модель LFM2-1.2B демонстрирует конкурентоспособность с Qwen3-1.7B, несмотря на то, что имеет на 47% меньше параметров. Аналогично, LFM2-700M превосходит Gemma 3 1B IT, а наименьшая версия LFM2-350M остаётся конкурентоспособной с Qwen3-0.6B и Llama 3.2 1B Instruct.

Оптимизация для развёртывания на периферийных устройствах

Модели отлично подходят для сценариев развёртывания в реальных условиях, будучи экспортированными в несколько фреймворков логического вывода, включая PyTorch’s ExecuTorch и открытую библиотеку llama.cpp. Тестирование на целевом оборудовании, включая Samsung Galaxy S24 Ultra и платформы AMD Ryzen, демонстрирует, что LFM2 доминирует на границе Парето как по скорости предварительного заполнения и декодирования, так и по размеру модели.

Заключение

Выпуск LFM2 устраняет критический пробел в ландшафте развёртывания ИИ, где переход от облачных вычислений к периферийным ускоряется. LFM2 открывает новые возможности для интеграции ИИ в бытовую электронику, робототехнику, интеллектуальные приборы, финансы, электронную коммерцию и образование.

SDBench и MAI-DxO: продвижение реалистичного, экономичного клинического мышления с помощью ИИ

ИИ обладает потенциалом сделать экспертное медицинское мышление более доступным, но текущие оценки часто не соответствуют действительности, полагаясь на упрощённые статические сценарии. Реальная клиническая практика гораздо более динамична: врачи корректируют свой подход к диагностике шаг за шагом, задавая целевые вопросы и интерпретируя новую информацию по мере её поступления.

Потенциал ИИ в медицине

Исследователи из Microsoft AI разработали SDBench, бенчмарк, основанный на 304 реальных диагностических случаях из New England Journal of Medicine, где врачи или системы ИИ должны интерактивно задавать вопросы и назначать тесты перед постановкой окончательного диагноза. Языковая модель действует как привратник, раскрывая информацию только при её запросе.

Для повышения производительности они представили MAI-DxO, систему-оркестратор, совместно разработанную с врачами, которая имитирует виртуальную медицинскую панель для выбора высокоценных, экономически эффективных тестов. В сочетании с моделями, такими как OpenAI’s o3, она достигла точности до 85,5%, значительно снизив при этом затраты на диагностику.

Заключение

SDBench — это новый диагностический бенчмарк, который превращает случаи NEJM CPC в реалистичные интерактивные задачи, требующие от ИИ или врачей активного задавания вопросов, назначения тестов и постановки диагнозов, каждый из которых имеет связанные с ним затраты. В отличие от статических бенчмарков, он имитирует реальное клиническое принятие решений.

MMSearch-R1: фреймворк для эффективного поиска в LMM

Исследователи из ByteDance и S-Lab в Наньянском технологическом университете разработали MMSearch-R1, новый фреймворк, предназначенный для повышения производительности LMM с помощью обучения с подкреплением.

Проблема и решение

Одним из ключевых ограничений текущих LMM является их неспособность обрабатывать запросы, требующие актуальной или редкой информации. Когда сталкиваются с ранее невиденными визуальными входами или вновь появляющимися фактами, эти модели часто галлюцинируют в ответах вместо того, чтобы признать границы знаний или обратиться за внешней помощью.

MMSearch-R1 — это первый фреймворк обучения с подкреплением, который позволяет LMM выполнять поиск по запросу в реальных интернет-средах. Система включает инструменты как для поиска по изображениям, так и для поиска по тексту, причём каждый инструмент вызывается на основе оценки модели, а не по фиксированному конвейеру.

Результаты тестирования

В тестировании MMSearch-R1-7B превзошёл другие базовые модели с усилением поиска того же размера и почти сравнялся по производительности с более крупной моделью RAG на базе 32B. Наиболее значительным является то, что он добился этого, сократив количество поисковых запросов более чем на 30%. Это показывает, что модель не только выдаёт точные ответы, но и делает это более эффективно.

Набор данных

Исследователи также создали и поделились комплексным набором данных, FactualVQA (FVQA), который включал как образцы, требующие поиска, так и образцы, не требующие поиска. Этот сбалансированный набор данных имел решающее значение для обучения модели различать, когда необходимы внешние данные.

Заключение

Исследование устраняет практическую слабость в текущих LMM, обучая их быть избирательными и обдуманными в использовании внешнего поиска. Вместо пассивного извлечения информации MMSearch-R1 поощряет модели действовать целенаправленно, повышая как качество, так и эффективность ответов.

Вопросы по тексту и ответы на них:

1. Какие преимущества предлагает LFM2 по сравнению с предыдущими моделями в контексте периферийных вычислений?

Ответ: LFM2 обеспечивает беспрецедентную оптимизацию производительности, достигая в 2 раза более быструю декодировку и предварительное заполнение по сравнению с Qwen3 на архитектурах CPU. Кроме того, процесс обучения оптимизирован в 3 раза по сравнению с предыдущим поколением LFM.

2. Какие инновационные аспекты включает в себя архитектура LFM2?

Ответ: архитектура LFM2 основана на новой гибридной структуре, сочетающей лучшие аспекты свёрточных механизмов и механизмов внимания. Модель использует сложную структуру из 16 блоков, состоящую из 10 сдвоенных короткоканальных свёрточных блоков и 6 блоков сгруппированного запроса внимания (GQA). В основе этой архитектуры лежит фреймворк Linear Input-Varying (LIV), который позволяет генерировать веса на лету из входных данных.

3. Какие результаты демонстрируют модели LFM2 в сравнении с другими моделями аналогичного размера?

Ответ: результаты оценки показывают, что LFM2 значительно превосходит модели аналогичного размера по нескольким категориям бенчмарков. Модель LFM2-1.2B демонстрирует конкурентоспособность с Qwen3-1.7B, несмотря на то, что имеет на 47% меньше параметров. Аналогично, LFM2-700M превосходит Gemma 3 1B IT, а наименьшая версия LFM2-350M остаётся конкурентоспособной с Qwen3-0.6B и Llama 3.2 1B Instruct.

4. Какие возможности предоставляет MMSearch-R1 для повышения производительности LMM?

Ответ: MMSearch-R1 — это первый фреймворк обучения с подкреплением, который позволяет LMM выполнять поиск по запросу в реальных интернет-средах. Система включает инструменты как для поиска по изображениям, так и для поиска по тексту, причём каждый инструмент вызывается на основе оценки модели, а не по фиксированному конвейеру.

5. Какие результаты были достигнуты при тестировании MMSearch-R1 по сравнению с другими базовыми моделями?

Ответ: в тестировании MMSearch-R1-7B превзошёл другие базовые модели с усилением поиска того же размера и почти сравнялся по производительности с более крупной моделью RAG на базе 32B. Наиболее значительным является то, что он добился этого, сократив количество поисковых запросов более чем на 30%.

Источник

Оставьте комментарий