Большие языковые модели (БЯМ) с миллиардами параметров лежат в основе многих сервисов, управляемых искусственным интеллектом, в различных отраслях. Однако их огромный размер и сложная архитектура делают вычислительные затраты во время логического вывода (inference) существенной проблемой. Оптимизация баланса между вычислительной эффективностью и качеством вывода стала важнейшей областью исследований.
Основная проблема заключается в том, как БЯМ обрабатывают логический вывод. Каждый раз при обработке входных данных активируется вся модель, что требует значительных вычислительных ресурсов. Однако для большинства задач достаточно активировать лишь небольшое количество нейронов.
Существующие методы разрежённой активации пытаются решить эту проблему, выборочно деактивируя менее важные нейроны. Однако эти подходы часто фокусируются только на величине скрытых состояний, игнорируя критическую роль весовых матриц в распространении ошибок по сети. Это приводит к высоким ошибкам аппроксимации и ухудшению производительности модели, особенно при более высоких уровнях разрежённости.
WINA: решение от Microsoft
Исследователи из Microsoft, Народного университета Китая, Нью-Йоркского университета и Южно-Китайского технологического университета предложили новый метод под названием WINA (Weight Informed Neuron Activation). WINA представляет собой систему активации без обучения, которая использует как скрытые состояния, так и ℓ2-нормы весовых матриц для определения того, какие нейроны активировать во время логического вывода.
Метод WINA основан на простой, но мощной идее: нейроны, которые имеют сильные активации и большие весовые значения, с большей вероятностью повлияют на последующие вычисления. Для реализации этого WINA вычисляет поэлементное произведение скрытых состояний и весовых норм, выбирая K компонентов на основе этой комбинированной метрики.
Этот подход позволяет WINA создать разрежённую подсеть, которая сохраняет наиболее важные сигналы, игнорируя при этом избыточные активации. Метод также включает этап преобразования тензора, который обеспечивает столбцовую ортогональность весовых матриц, гарантируя, что теоретические границы ошибок эффективно переводятся в реальную производительность.
Результаты исследования
Исследовательская группа оценила WINA на нескольких больших языковых моделях, включая Qwen-2.5-7B, LLaMA-2-7B, LLaMA-3-8B и Phi-4-14B, в различных задачах и уровнях разрежённости. WINA превзошла TEAL и CATS во всех протестированных моделях и настройках разрежённости.
Например, на Qwen-2.5-7B при разрежённости 65% WINA достигла на 2,94% более высокого среднего показателя производительности, чем TEAL, и на 1,41% лучше, чем TEAL-Transform. На LLaMA-3-8B WINA показала прирост на 1,06% при 50% разрежённости и на 2,41% при 65% разрежённости. Даже при высоких уровнях разрежённости WINA сохранила более высокую производительность в задачах, требующих рассуждений, таких как GSM8K и ARC Challenge.
WINA также обеспечила значительную экономию вычислительных ресурсов, сократив количество операций с плавающей запятой до 63,7% на LLaMA-2-7B и 62,7% на Phi-4-14B.
В заключение, WINA предлагает надёжное решение без обучения для разрежённой активации в больших языковых моделях, сочетая скрытые состояния с нормами весовых матриц. Этот подход устраняет ограничения предыдущих методов, таких как TEAL, что приводит к снижению ошибок аппроксимации, повышению точности и значительной экономии вычислительных ресурсов.