OpenBMB выпускает MiniCPM4: сверхэффективные языковые модели для периферийных устройств со sparse-вниманием и быстрым выводом

Необходимость в эффективных языковых моделях для устройств

Крупные языковые модели стали неотъемлемой частью систем искусственного интеллекта, позволяя выполнять такие задачи, как многоязычный перевод, виртуальная помощь и автоматизированное рассуждение на основе архитектур трансформеров. Несмотря на их высокие возможности, эти модели обычно большие, требуют мощной облачной инфраструктуры для обучения и вывода. Такая зависимость приводит к задержкам, высоким затратам и проблемам с конфиденциальностью, ограничивая их использование на периферийных устройствах с ограниченными ресурсами.

Модели вроде GPT и LLaMA с миллиардами параметров не могут эффективно работать на локальном оборудовании из-за своего размера и сложности процессов обучения и вывода. Более того, их зависимость от огромных наборов данных и высокопроизводительных GPU делает их непригодными для мобильных или встроенных сред. Чтобы преодолеть эти проблемы, существует растущая потребность в лёгких, эффективных моделях, которые могут хорошо работать локально, не жертвуя при этом возможностями рассуждения и обработки контекста.

Ограничения существующих решений

Для решения этих задач были изучены несколько методов. Механизмы sparse-внимания, такие как NSA и MoBA, направлены на снижение потребления памяти; однако они либо неэффективны в декодировании, либо вносят значительные архитектурные накладные расходы.

Для обработки данных предыдущие методы опирались на крупномасштабный веб-скрапинг, что приводило к появлению шумных и неструктурированных корпусов. Методы фильтрации включали классификаторы fastText и ручное курирование, которым не хватало глубины или масштабируемости.

На этапе обучения использовались такие фреймворки, как StepLaw, для оптимизации гиперпараметров на основе предсказуемых законов масштабирования; однако они часто требовали обширных экспериментов и циклов работы с GPU, что создавало барьер для входа.

Оптимизация вывода, такая как FlashAttention, снижает вычислительную сложность, но всё ещё не обеспечивает скорости, необходимой для приложений реального времени на периферийных устройствах.

Представляем MiniCPM4: эффективная архитектура, данные и вывод

Исследователи из OpenBMB представили MiniCPM4 — набор высокоэффективных языковых моделей, разработанных специально для развёртывания на устройствах. Разработка включает два варианта: один с 0,5 миллиарда параметров и другой с 8 миллиардами.

Модель была построена с улучшениями в четырёх основных направлениях: архитектура модели, тренировочные данные, алгоритм обучения и системы вывода.

Для архитектуры команда представила InfLLM v2 — механизм sparse-внимания, который ускоряет предварительное заполнение и декодирование без ущерба для понимания контекста.

На этапе данных был использован UltraClean для генерации и фильтрации обучающих наборов данных, что позволило использовать всего 8 триллионов обучающих токенов по сравнению с 36 триллионами, используемыми конкурентными моделями вроде Qwen3-8 B.

ModelTunnel v2 направлял процесс обучения с помощью эффективной настройки гиперпараметров, а CPM.cu обрабатывал вывод с помощью платформенно-независимой реализации на базе CUDA.

Технические инновации в MiniCPM4

Технический стек MiniCPM4 разработан так, чтобы обеспечить баланс между производительностью и использованием ресурсов. InfLLM v2 разделяет кэши значений ключей на блоки и выбирает K наиболее релевантных блоков с помощью семантических ядер для внимания, сокращая вычисления внимания на 60% по сравнению с NSA.

Его динамический выбор контекстных блоков и обработка групп запросов на уровне токенов позволяют поддерживать последовательности длиной до 128 тысяч токенов, сохраняя при этом скорость и согласованность.

UltraClean использует эффективную проверку данных, используя предварительно обученную LLM и отжиг для тонкой настройки на 10 миллиардах токенов. Это приводит к более качественным наборам данных, UltraFineWeb на английском языке и UltraFineWeb-zh на китайском, которые превосходят FineWeb на 3,61% и 1,98% соответственно по средним показателям бенчмарка.

UltraChat v2 дополнительно поддерживает постобработку, генерируя диалоги с интенсивным использованием рассуждений.

Показатели производительности и прирост скорости

С точки зрения производительности, версия 8B достигла показателей MMLU в 32,24%, превзойдя FineWeb (28,84%) и FineWeb-edu (31,80%). На ARC-C и ARC-E она набрала 35,67% и 70,62% соответственно, опередив конкурирующие наборы данных более чем на 10 процентных пунктов.

По сравнению с Qwen3-8B, MiniCPM4 использовал только 22% обучающих данных, но обеспечил семикратное увеличение скорости вывода на документах длиной 128 тысяч символов при тестировании на конечных GPU, таких как Jetson AGX Orin и RTX 4090.

Ключевые выводы из MiniCPM4

* MiniCPM4 доступен в размерах с 0,5 миллиарда и 8 миллиардами параметров, оптимизирован для периферийных устройств.
* Использовано всего 8 триллионов обучающих токенов по сравнению с 36 триллионами у Qwen3-8 B.
* Достигнута семикратная скорость обработки документов длиной 128 тысяч символов по сравнению с Qwen3-8 B.
* InfLLM v2 сократил затраты на вычисления внимания на 60% за счёт блочного внимания.
* UltraFineWeb превзошёл FineWeb на 3,61% (английский) и 1,98% (китайский) по бенчмаркам.
* Достигнуты результаты 35,67% на ARC-C, 70,62% на ARC-E и 32,24% на MMLU, превзойдя предыдущие наборы данных.
* BitCPM4 позволил использовать троичные LLM, подходящие для устройств с ещё более строгими ограничениями памяти без потери точности.
* Система вывода CPM.cu объединила оптимизацию CUDA со спекулятивной выборкой.
* UltraChat v2 позволил улучшить тонкую настройку с помощью генерации диалогов с интенсивным использованием рассуждений.
* ModelTunnel v2 использовал ScalingBench для точной настройки гиперпараметров, повысив эффективность обучения.

Заключение: эффективные LLM для периферийных приложений ИИ

В заключение, комплексный подход, применённый командой MiniCPM4, устранил все ключевые неэффективности, связанные с текущими LLM. Внедряя новые архитектурные, обучающие и развёртывающие стратегии, модель поддерживает высококачественные ответы, поддерживает понимание длинного контекста и хорошо работает в условиях периферийных ограничений.

Успех этой работы выходит за рамки сырых метрик, демонстрируя, что современный уровень производительности достижим вне облака. Это открывает новые области применения, такие как защищённые автономные помощники, мобильный ИИ в реальном времени и автономные встроенные системы, без традиционной вычислительной нагрузки.

Источник

Оставьте комментарий