Microsoft предлагает BitNet Distillation (BitDistill): упрощённый алгоритм, который экономит до 10 раз объём памяти и ускоряет работу процессора примерно в 2,65 раза

Исследователи из Microsoft Research предлагают BitNet Distillation — алгоритм, который преобразует существующие модели с полной точностью (LLMs) в модели BitNet с 1,58 битами для конкретных задач, сохраняя при этом точность, близкую к учителю FP16, и повышая эффективность работы процессора.

Метод включает в себя:
* архитектурное усовершенствование на основе SubLN;
* продолжение предварительного обучения;
* дистилляцию с двумя сигналами из логитов и отношений многоголового внимания.

Отчётные результаты показывают экономию памяти до 10 раз и ускорение работы процессора примерно в 2,65 раза при сопоставимых с FP16 показателях выполнения задач в различных размерах.

Что меняет BitNet Distillation?

Сообщество уже показало, что BitNet b1.58 может соответствовать качеству с полной точностью при обучении с нуля, но преобразование предварительно обученной модели FP16 напрямую в 1,58 бит часто приводит к потере точности, и этот разрыв увеличивается с ростом размера модели. BitNet Distillation нацелена на решение этой проблемы преобразования для практического использования. Она предназначена для сохранения точности при использовании удобных для процессора троичных весов с активациями INT8.

Этап 1: усовершенствование моделирования с помощью SubLN

Модели с низким количеством бит страдают от большой дисперсии активации. Исследовательская группа вставляет нормализацию SubLN внутрь каждого блока Transformer, особенно перед выходной проекцией модуля MHSA и перед выходной проекцией FFN. Это стабилизирует масштабы скрытого состояния, которые поступают в квантованные проекции, что улучшает оптимизацию и сходимость после того, как веса становятся троичными.

Этап 2: продолжение предварительного обучения для адаптации распределений весов

Прямое тонкое настраивание задачи в 1,58 бит даёт ученику лишь небольшое количество токенов задачи, чего недостаточно для изменения распределения весов FP16 для троичных ограничений. BitNet Distillation выполняет короткое продолжение предварительного обучения на общем корпусе. Исследовательская группа использует 10 миллиардов токенов из корпуса FALCON, чтобы подтолкнуть веса к BitNet-подобным распределениям.

Этап 3: тонкая настройка на основе дистилляции с двумя сигналами

Ученик обучается у учителя FP16 с помощью дистилляции логитов и дистилляции отношений многоголового самовнимания. Путь логитов использует смягчённое KL между учителем и распределением токенов ученика. Путь внимания следует формулировкам MiniLM и MiniLMv2, которые передают отношения между Q, K, V, не требуя одинакового количества голов, и позволяют выбрать один слой для дистилляции.

Понимание результатов

Исследовательская группа оценивает классификацию, MNLI, QNLI, SST 2 и обобщение на наборе данных CNN/DailyMail. Она сравнивает три настройки: FP16-тонкая настройка задачи, прямая 1,58-битная тонкая настройка задачи и BitNet Distillation.

Рисунок 1 показывает, что BitNet Distillation соответствует точности FP16 для бэкбонов Qwen3 при 0,6 млрд, 1,7 млрд и 4 млрд параметров, в то время как прямая 1,58-битная базовая линия отстаёт больше по мере увеличения размера модели. На процессоре количество токенов в секунду увеличивается примерно в 2,65 раза, а объём памяти снижается примерно в 10 раз для ученика.

Исследовательская группа квантует активации до INT8 и использует прямой сквозной оценщик для градиентов через квантозатор.

Ключевые выводы

* BitNet Distillation — это трёхэтапный алгоритм: вставка SubLN, продолжение предварительного обучения и двойная дистилляция из логитов и отношений многоголового внимания.
* Исследование сообщает о точности, близкой к FP16, с примерно в 10 раз меньшим объёмом памяти и примерно в 2,65 раза более быстрой работой процессора для 1,58-битных учеников.
* Метод передаёт отношения внимания, используя цели в стиле MiniLM и MiniLMv2, которые не требуют соответствия подсчёту голов.
* Оценки охватывают MNLI, QNLI, SST 2 и CNN/DailyMail и включают бэкбоны Qwen3 с параметрами 0,6 млрд, 1,7 млрд и 4 млрд.
* Развёртывание нацелено на троичные веса с активациями INT8, с оптимизированными ядрами для процессора и GPU, доступными в официальном репозитории BitNet.

Редакционные комментарии

BitNet Distillation — это прагматичный шаг к развёртыванию с 1,58 битами без полного переобучения. Трёхэтапная конструкция, SubLN, непрерывное предварительное обучение и дистилляция внимания в стиле MiniLM чётко соответствуют известным режимам отказа при экстремальном квантовании.

Сообщаемое снижение объёма памяти в 10 раз и ускорение работы процессора примерно в 2,65 раза при сохранении точности, близкой к FP16, указывают на значительную инженерную ценность для локальных и периферийных целей. Опора на дистилляцию отношений внимания хорошо обоснована в предшествующей работе с MiniLM, что помогает объяснить стабильность результатов. Присутствие bitnet.cpp с оптимизированными ядрами для процессора и GPU снижает риск интеграции для производственных команд.

1. Какие проблемы решает алгоритм BitNet Distillation и как он это делает?

Ответ: алгоритм BitNet Distillation решает проблему преобразования предварительно обученных моделей FP16 напрямую в 1,58-битные модели, которая приводит к потере точности. Для решения этой проблемы BitNet Distillation использует трёхэтапный подход: архитектурное усовершенствование на основе SubLN, продолжение предварительного обучения и дистилляцию с двумя сигналами из логитов и отношений многоголового внимания.

2. Какие этапы включает в себя метод BitNet Distillation?

Ответ: метод BitNet Distillation включает в себя три этапа:
* архитектурное усовершенствование с помощью SubLN;
* продолжение предварительного обучения для адаптации распределений весов;
* тонкую настройку на основе дистилляции с двумя сигналами.

3. Какие результаты показывает BitNet Distillation по сравнению с другими методами?

Ответ: BitNet Distillation показывает результаты, сопоставимые с FP16, при экономии памяти до 10 раз и ускорении работы процессора примерно в 2,65 раза. Это делает метод BitNet Distillation ценным для локальных и периферийных целей.

4. Какие ключевые выводы можно сделать из исследования BitNet Distillation?

Ответ: ключевые выводы исследования BitNet Distillation включают:
* BitNet Distillation — это трёхэтапный алгоритм, который позволяет сохранить точность при использовании удобных для процессора троичных весов с активациями INT8.
* Исследование сообщает о точности, близкой к FP16, с примерно в 10 раз меньшим объёмом памяти и примерно в 2,65 раза более быстрой работой процессора для 1,58-битных учеников.
* Метод передаёт отношения внимания, используя цели в стиле MiniLM и MiniLMv2, которые не требуют соответствия подсчёту голов.

5. Какие цели стоят перед развёртыванием BitNet Distillation?

Ответ: развёртывание BitNet Distillation нацелено на использование троичных весов с активациями INT8, с оптимизированными ядрами для процессора и GPU, доступными в официальном репозитории BitNet. Это снижает риск интеграции для производственных команд и делает метод BitNet Distillation ценным для практического использования.

Источник