ZenFlow: новое расширение DeepSpeed для бесперебойной разгрузки при обучении больших языковых моделей (LLM)
Команда DeepSpeed представила ZenFlow — новый механизм разгрузки, призванный преодолеть серьёзное узкое место в обучении больших языковых моделей (LLM): задержки GPU, вызванные работой CPU. Традиционные фреймворки, такие как ZeRO-Offload и ZeRO-Infinity, хоть и снижают нагрузку на память GPU за счёт переноса оптимизаторов и градиентов в память CPU, но всё равно оставляют дорогостоящие GPU большую часть … Читать далее