Как команды могут запускать языковые модели с триллионом параметров на существующих смешанных кластерах GPU без дорогостоящего нового оборудования или глубокой привязки к поставщику? Исследовательская группа Perplexity выпустила TransferEngine и сопутствующий инструментарий pplx garden в виде инфраструктуры с открытым исходным кодом для систем больших языковых моделей. Это позволяет запускать модели с до 1 триллиона параметров на смешанных кластерах GPU, не привязываясь к одному облачному провайдеру и не покупая новое оборудование класса GB200.
Основные проблемы и решения
Современные реализации моделей Mixture of Experts, таких как DeepSeek V3 с 671 миллиардом параметров и Kimi K2 с 1 триллионом параметров, больше не помещаются на одном сервере с 8 GPU. Они должны охватывать несколько узлов, поэтому основным ограничением становится сетевая структура между GPU.
TransferEngine решает эту проблему, ориентируясь только на пересечение гарантий сетевых контроллеров интерфейса. Он предполагает, что базовый транспорт RDMA надёжен, но не предполагает какого-либо порядка сообщений.
Компоненты и структура
- TransferEngine — портативный уровень RDMA для систем LLM.
- pplx garden — пакет с открытым исходным кодом. TransferEngine поставляется как часть репозитория pplx garden на GitHub под лицензией MIT.
TransferEngine использует allocuvmwatcher для отслеживания прогресса в модели. Во время предварительной загрузки модель увеличивает значение наблюдателя после проекции выходного внимания каждого слоя. Когда рабочий обнаруживает изменение, он выполняет постраничные записи для страниц KvCache этого слоя, а затем одну запись для оставшегося контекста.
Применение в производстве
Первый производственный вариант использования — это несогласованный вывод. Предварительная загрузка и декодирование выполняются на отдельных кластерах, поэтому система должна передавать KvCache с GPU предварительной загрузки на GPU декодирования на высокой скорости.
Второй системой является асинхронная тонкая настройка обучения с подкреплением, где обучение и вывод выполняются на отдельных пулах GPU. Традиционные конструкции собирают обновлённые параметры в один ранг, а затем транслируют их, что ограничивает пропускную способность одним сетевым интерфейсом.
Исследовательская группа Perplexity вместо этого использует TransferEngine для выполнения точечной передачи веса. Каждый обучающий GPU записывает свой фрагмент параметра непосредственно в соответствующий GPU вывода, используя односторонние записи.
Сравнение с другими системами
| Ключевой момент | TransferEngine (pplx garden) | DeepEP | NVSHMEM (generic MoE use) | Mooncake |
| — | — | — | — | — |
| Основная роль | Портативный RDMA для LLM систем | MoE all to all dispatch and combine | Общая GPU-память и коллективы | Распределённый KV-кэш для LLM вывода |
| Фокус на оборудовании | NVIDIA ConnectX 7 и AWS EFA | NVIDIA ConnectX с RDMA, инициированной GPU | NVIDIA GPU на RDMA-тканях, включая EFA | RDMA NICs в KV-ориентированных стеках обслуживания |
| Статус EFA | Полная поддержка, пик 400 Гбит/с | Нет поддержки, требуется IBGDA на ConnectX | API работает, но использование MoE показывает серьёзную деградацию на EFA | В отчёте о бумаге нет поддержки EFA в RDMA-движке |
| Переносимость для LLM систем | Кросс-вендор, единый API | Вендор-специфичный и ориентированный на ConnectX | NVIDIA-ориентированный, не подходит для EFA MoE маршрутизации | Фокусируется на обмене KV, нет кросс-провайдерской поддержки |
Ключевые выводы
- TransferEngine предоставляет единую RDMA-абстракцию, которая работает как на NVIDIA ConnectX 7, так и на AWS EFA, и прозрачно управляет несколькими сетевыми контроллерами интерфейса на GPU.
- Библиотека предоставляет одностороннюю запись WriteImm с ImmCounter и достигает пиковой пропускной способности 400 Гбит/с на обеих семействах сетевых интерфейсов.
- Исследовательская группа Perplexity использует TransferEngine в трёх производственных системах: несогласованный предварительный декодирование с потоковой передачей KvCache, передача веса для обучения с подкреплением, которая обновляет модели с триллионом параметров примерно за 1,3 секунды, и маршрутизация Mixture of Experts для больших моделей, таких как Kimi K2.
На ConnectX 7 ядра pplx garden обеспечивают современную задержку декодирования, которая конкурирует с DeepEP. На AWS EFA то же ядро обеспечивает первые практические задержки декодирования MoE для рабочих нагрузок с триллионом параметров.
Поскольку TransferEngine является открытым исходным кодом в pplx garden под лицензией MIT, команды могут запускать очень большие Mixture of Experts и плотные модели на гетерогенных кластерах H100 или H200 в облаке провайдеров, не переписывая код для каждого сетевого стека конкретного поставщика.
1. Какие проблемы решает TransferEngine в контексте запуска языковых моделей с триллионом параметров на существующих смешанных кластерах GPU?
Ответ: TransferEngine решает проблему запуска моделей с до 1 триллиона параметров на смешанных кластерах GPU, ориентируясь только на пересечение гарантий сетевых контроллеров интерфейса и не привязываясь к одному облачному провайдеру или новому оборудованию класса GB200.
2. Какие ключевые компоненты включает в себя инфраструктура pplx garden, разработанная исследовательской группой Perplexity?
Ответ: Инфраструктура pplx garden включает в себя TransferEngine — портативный уровень RDMA для систем LLM, и пакет с открытым исходным кодом pplx garden.
3. Какие производственные системы использует TransferEngine для обновления моделей с триллионом параметров?
Ответ: TransferEngine используется в трёх производственных системах: несогласованный предварительный декодирование с потоковой передачей KvCache, передача веса для обучения с подкреплением, которая обновляет модели с триллионом параметров примерно за 1,3 секунды, и маршрутизация Mixture of Experts для больших моделей, таких как Kimi K2.
4. Какие преимущества предоставляет TransferEngine по сравнению с другими системами для запуска языковых моделей?
Ответ: TransferEngine предоставляет единую RDMA-абстракцию, которая работает как на NVIDIA ConnectX 7, так и на AWS EFA, и прозрачно управляет несколькими сетевыми контроллерами интерфейса на GPU. Библиотека обеспечивает одностороннюю запись WriteImm с ImmCounter и достигает пиковой пропускной способности 400 Гбит/с на обеих семействах сетевых интерфейсов.
5. Какие выводы можно сделать о производительности TransferEngine на основе сравнения с другими системами?
Ответ: На ConnectX 7 ядра pplx garden обеспечивают современную задержку декодирования, которая конкурирует с DeepEP. На AWS EFA то же ядро обеспечивает первые практические задержки декодирования MoE для рабочих нагрузок с триллионом параметров. Это свидетельствует о высокой производительности TransferEngine по сравнению с другими системами.