Знакомьтесь: kvcached — библиотека машинного обучения для виртуализации и эластичного KV-кэша при обслуживании больших языковых моделей на общих GPU
Большие языковые модели часто тратят впустую память GPU, поскольку механизмы предварительно резервируют большие статические области KV-кэша для каждой модели, даже когда запросы поступают всплесками или модель простаивает. kvcached — это библиотека, разработанная исследователями из Berkeley’s Sky Computing Lab (Университет Калифорнии, Беркли) в тесном сотрудничестве с Rice University и UCLA, а также при участии коллег из … Читать далее