Huawei CloudMatrix: архитектура дата-центра ИИ для масштабируемого и эффективного обслуживания больших языковых моделей

Большие языковые модели (LLM) стремительно развиваются: растёт количество параметров, широко используются смешанные архитектуры экспертов (MoE) и увеличивается длина контекста. Такие модели, как DeepSeek-R1, LLaMA-4 и Qwen-3, достигают триллионов параметров, требуя огромных вычислительных ресурсов, пропускной способности памяти и быстрой межчиповой коммуникации.

Проблемы и вызовы

MoE повышает эффективность, но создаёт проблемы с маршрутизацией экспертов. Контекстные окна, превышающие миллион токенов, нагружают внимание и хранилище KV, которое масштабируется в зависимости от количества одновременных пользователей. В реальных условиях непредсказуемые входные данные, неравномерная активация экспертов и всплески запросов ещё больше усложняют обслуживание.

Для решения этих проблем требуется переосмысление инфраструктуры ИИ с помощью аппаратно-программного проектирования, адаптивной оркестрации и эластичного управления ресурсами.

Основные тенденции развития LLM

1. Постоянно растущее количество параметров.
2. Разреженные архитектуры MoE.
3. Увеличенные контекстные окна.

Модели вроде Llama 4, DeepSeek-V3 и Google PaLM достигают масштабов в триллионы параметров. Архитектура MoE активирует только подмножества экспертов для каждого токена, балансируя эффективность с производительностью. Между тем контекстные окна охватывают сотни тысяч и миллионы токенов, что позволяет вести длинные рассуждения, но увеличивает нагрузку на вычисления и память через большие кэши ключей и значений.

Huawei CloudMatrix

Исследователи Huawei представили CloudMatrix — новую архитектуру дата-центра ИИ, предназначенную для удовлетворения растущих требований крупномасштабных LLM. Первая реализация, CloudMatrix384, объединяет 384 NPUs Ascend 910C и 192 процессора Kunpeng, соединённых единой шиной с высокой пропускной способностью и низкой задержкой, что обеспечивает полностью одноранговую связь.

Эта конструкция позволяет гибко распределять вычислительные ресурсы, память и сетевые ресурсы, что делает её идеальной для параллелизма MoE и распределённого доступа к кэшу KV. Кроме того, CloudMatrix-Infer предлагает оптимизированную среду обслуживания с одноранговыми пулами ресурсов, крупномасштабным параллелизмом экспертов и аппаратными оптимизациями, такими как конвейеризация и квантование INT8.

Оценка CloudMatrix-Infer

Исследователи оценивают CloudMatrix-Infer на модели DeepSeek-R1, используя суперузел CloudMatrix384. Система достигает пропускной способности предварительной загрузки 6 688 токенов в секунду на NPU и пропускной способности декодирования 1 943 токена в секунду с задержкой менее 50 мс, превосходя сопоставимые системы, такие как SGLang на NVIDIA H100 и DeepSeek на H800.

Даже при ограничении задержки до 15 мс система поддерживает 538 токенов в секунду при декодировании. Более того, квантование INT8 на Ascend 910C сохраняет точность по 16 тестам, показывая, что улучшения эффективности не ухудшают качество модели.

Заключение

Huawei CloudMatrix — это архитектура дата-центра ИИ нового поколения, разработанная для преодоления ограничений масштабируемости традиционных кластеров. Первая производственная система, CloudMatrix384, объединяет 384 NPUs Ascend 910C и 192 процессора Kunpeng в полностью одноранговом суперузле, подключённом через единую шину с высокой пропускной способностью и низкой задержкой.

Для использования этой конструкции предлагается CloudMatrix-Infer, который разделяет предварительную загрузку, декодирование и кэширование на независимые пулы, поддерживает крупномасштабный параллелизм экспертов и применяет аппаратные оптимизации, такие как конвейеризация и квантование INT8. Тестирование на DeepSeek-R1 показало превосходную производительность по пропускной способности и задержке по сравнению с системами на базе NVIDIA, при сохранении точности, что демонстрирует потенциал для крупномасштабного развёртывания ИИ.

1. Какие основные проблемы возникают при обслуживании больших языковых моделей (LLM) и как Huawei CloudMatrix решает эти проблемы?

В статье указано, что большие языковые модели сталкиваются с проблемами маршрутизации экспертов в смешанных архитектурах (MoE), нагрузкой на внимание и хранилище KV при увеличении контекстных окон. Huawei CloudMatrix решает эти проблемы путём гибкого распределения вычислительных ресурсов, памяти и сетевых ресурсов, что делает его идеальным для параллелизма MoE и распределённого доступа к кэшу KV.

2. Какие аппаратные и программные инновации используются в Huawei CloudMatrix для обеспечения масштабируемости и эффективности?

В Huawei CloudMatrix используются NPUs Ascend 910C и процессоры Kunpeng, соединённые единой шиной с высокой пропускной способностью и низкой задержкой. Это обеспечивает полностью одноранговую связь и гибкое распределение ресурсов. Кроме того, CloudMatrix-Infer предлагает оптимизированную среду обслуживания с одноранговыми пулами ресурсов, крупномасштабным параллелизмом экспертов и аппаратными оптимизациями, такими как конвейеризация и квантование INT8.

3. Какие преимущества предлагает Huawei CloudMatrix по сравнению с другими системами для обслуживания больших языковых моделей?

Huawei CloudMatrix предлагает преимущества в виде высокой пропускной способности предварительной загрузки и декодирования, низкой задержки и сохранения точности модели при использовании аппаратных оптимизаций. Система достигает пропускной способности предварительной загрузки 6 688 токенов в секунду на NPU и пропускной способности декодирования 1 943 токена в секунду с задержкой менее 50 мс, что превосходит сопоставимые системы, такие как SGLang на NVIDIA H100 и DeepSeek на H800.

4. Какие параметры используются для оценки производительности Huawei CloudMatrix и какие результаты были получены при тестировании на модели DeepSeek-R1?

Для оценки производительности Huawei CloudMatrix используются параметры пропускной способности предварительной загрузки, пропускной способности декодирования и задержки. При тестировании на модели DeepSeek-R1 система достигла пропускной способности предварительной загрузки 6 688 токенов в секунду на NPU и пропускной способности декодирования 1 943 токена в секунду с задержкой менее 50 мс. Даже при ограничении задержки до 15 мс система поддерживает 538 токенов в секунду при декодировании.

5. Какие перспективы открывает использование Huawei CloudMatrix для крупномасштабного развёртывания ИИ?

Использование Huawei CloudMatrix открывает перспективы для крупномасштабного развёртывания ИИ благодаря его высокой производительности, масштабируемости и эффективности. Тестирование на DeepSeek-R1 показало превосходную производительность по пропускной способности и задержке по сравнению с системами на базе NVIDIA, при сохранении точности, что демонстрирует потенциал для крупномасштабного развёртывания ИИ.

Источник