Microsoft предлагает BitNet Distillation (BitDistill): упрощённый алгоритм, который экономит до 10 раз объём памяти и ускоряет работу процессора примерно в 2,65 раза
Исследователи из Microsoft Research предлагают BitNet Distillation — алгоритм, который преобразует существующие модели с полной точностью (LLMs) в модели BitNet с 1,58 битами для конкретных задач, сохраняя при этом точность, близкую к учителю FP16, и повышая эффективность работы процессора. Метод включает в себя:* архитектурное усовершенствование на основе SubLN;* продолжение предварительного обучения;* дистилляцию с двумя сигналами … Читать далее