Исследователи DeepSeek применяют алгоритм нормализации матриц 1967 года для устранения нестабильности в гиперсоединениях

Исследователи из DeepSeek пытаются решить конкретную проблему при обучении больших языковых моделей. Остаточные соединения сделали возможным обучение очень глубоких сетей, а гиперсоединения расширили этот остаточный поток, но при масштабировании обучение стало нестабильным.

Новый метод mHC (Manifold Constrained Hyper Connections) сохраняет более богатую топологию гиперсоединений, но ограничивает поведение смешивания на чётко определённом многообразии, чтобы сигналы оставались численно стабильными в очень глубоких стеках.

Остаточные и гиперсоединения

Стандартные остаточные соединения, как в ResNets и Transformers, распространяют активации с помощью формулы:

$x{l+1} = xl + F(xl, Wl)$

Путь идентичности сохраняет величину и делает градиенты пригодными для использования даже при многослойной укладке.

Гиперсоединения обобщают эту структуру. Вместо одного остаточного вектора размером C модель сохраняет буфер потока n: $x_l ∈ R^{n×C}$. Три изученных отображения контролируют, как каждый слой читает и записывает этот буфер:

* $H_{lpre}$ выбирает смесь потоков в качестве входных данных слоя;
* $F$ — это обычный подслой внимания или прямой передачи;
* $H_{lpost}$ записывает результаты обратно в буфер n-потоков;
* $H_{lres} ∈ R^{n×n}$ смешивает потоки между слоями.

Обновление имеет вид:

$x{l+1} = H{lres} xl + H{lpost}^⊤ F(H{lpre} xl, W_l)$

При n, равном 4, эта конструкция увеличивает выразительность без значительного увеличения стоимости в плавающей запятой, поэтому гиперсоединения улучшают производительность языковых моделей.

Почему гиперсоединения становятся нестабильными

Проблема возникает, когда вы смотрите на произведение остаточных смесителей во многих слоях. В модели со смесью экспертов на 27 миллиардов (27B) команда DeepSeek изучает составное отображение и определяет величину усиления Amax на основе максимальных сумм строк и столбцов. Этот показатель измеряет наихудшее усиление в прямом и обратном сигнальных путях. В модели гиперсоединений это усиление достигает пика около 3000, что далеко от идеального значения 1, которое вы ожидаете от стабильного остаточного пути.

Это означает, что небольшие отклонения на слой складываются в очень большие коэффициенты усиления по глубине. Журналы обучения показывают всплески потерь и нестабильные нормы градиентов относительно базовой остаточной модели. В то же время сохранение многопоточного буфера увеличивает трафик памяти для каждого токена, что делает наивное масштабирование гиперсоединений непривлекательным для производственных больших языковых моделей.

Гиперсоединения с ограничениями на многообразии (mHC)

mHC сохраняет идею многопоточного остатка, но ограничивает опасную часть. Матрица остаточного смешивания $H_{lres}$ больше не находится в полном пространстве n на n. Вместо этого она проецируется на многообразие дважды стохастических матриц, также называемое многогранником Биркгофа. В этом наборе все элементы неотрицательны, а сумма каждой строки и каждого столбца равна 1.

Команда DeepSeek применяет это ограничение с помощью классического алгоритма нормализации Синхорна-Кноппа 1967 года, который чередует нормализацию строк и столбцов для аппроксимации дважды стохастической матрицы. Исследовательская группа использует 20 итераций на слой во время обучения, что достаточно для того, чтобы сохранить отображение близким к целевому многообразию, сохраняя при этом управляемую стоимость.

При этих ограничениях $H{lres} xl$ ведёт себя как выпуклая комбинация остаточных потоков. Общая масса признаков сохраняется, а норма строго регуляризована, что устраняет взрывной рост, наблюдаемый в обычных гиперсоединениях. Исследовательская группа также параметризует входные и выходные отображения так, чтобы коэффициенты были неотрицательными, что позволяет избежать отмены между потоками и сохраняет чёткость интерпретации как усреднения.

С mHC составная величина усиления Amax остаётся ограниченной и достигает пика примерно в 1,6 в модели на 27 миллиардов, по сравнению с пиками около 3000 для нерегулируемого варианта. Это сокращение примерно на три порядка величины в наихудшем случае усиления, и оно достигается за счёт прямого математического ограничения, а не за счёт настроенных приёмов.

Результаты экспериментов

Исследовательская группа обучает модели со смесью экспертов на 3 миллиарда, 9 миллиардов и 27 миллиардов и оценивает их на стандартном наборе тестов для языковых моделей, включая такие задачи, как BBH, DROP, GSM8K, HellaSwag, MMLU, PIQA и TriviaQA.

Для модели на 27 миллиардов отчётные показатели по подмножеству задач чётко демонстрируют закономерность:

* Базовая модель: BBH 43,8, DROP F1 47,0.
* С гиперсоединениями: BBH 48,9, DROP 51,6.
* С mHC: BBH 51,0, DROP 53,9.

Таким образом, гиперсоединения уже обеспечивают прирост по сравнению с базовой остаточной конструкцией, а гиперсоединения с ограничениями на многообразии ещё больше повышают производительность, восстанавливая стабильность. Подобные тенденции проявляются на других тестах и в моделях разных размеров, а кривые масштабирования показывают, что преимущество сохраняется в рамках бюджетов вычислений и на протяжении всей траектории обучения, а не только при сходимости.

Ключевые выводы

* mHC стабилизирует расширенные остаточные потоки.
* Взрывное усиление снижается с ≈3000 до ≈1,6.
* Синхорна-Кнопп обеспечивает дважды стохастическое остаточное смешивание.
* Небольшие накладные расходы на обучение, измеримые улучшения в работе.
* Введение новой оси масштабирования для проектирования LLM.

1. Какие проблемы возникают при обучении больших языковых моделей с использованием гиперсоединений?

При обучении больших языковых моделей с использованием гиперсоединений возникает проблема нестабильности при масштабировании. Это связано с тем, что произведение остаточных смесителей во многих слоях приводит к большим коэффициентам усиления по глубине, что вызывает всплески потерь и нестабильные нормы градиентов.

2. Как работает алгоритм mHC (Manifold Constrained Hyper Connections) для устранения нестабильности в гиперсоединениях?

Алгоритм mHC работает путём ограничения матрицы остаточного смешивания $H{lres}$ на многообразие дважды стохастических матриц. Это достигается с помощью классического алгоритма нормализации Синхорна-Кноппа 1967 года, который чередует нормализацию строк и столбцов для аппроксимации дважды стохастической матрицы. Таким образом, $H{lres} x_l$ ведёт себя как выпуклая комбинация остаточных потоков, сохраняя общую массу признаков и устраняя взрывной рост.

3. Какие результаты были получены исследовательской группой при использовании mHC для обучения моделей на 3 миллиарда, 9 миллиардов и 27 миллиардов параметров?

Исследовательская группа обучила модели со смесью экспертов на 3 миллиарда, 9 миллиардов и 27 миллиардов параметров и оценила их на стандартном наборе тестов для языковых моделей. Результаты показали, что гиперсоединения уже обеспечивают прирост по сравнению с базовой остаточной конструкцией, а гиперсоединения с ограничениями на многообразии ещё больше повышают производительность, восстанавливая стабильность.

4. Какие ключевые выводы можно сделать из статьи о применении алгоритма mHC для стабилизации расширенных остаточных потоков?

Ключевые выводы из статьи включают:
* mHC стабилизирует расширенные остаточные потоки.
* Взрывное усиление снижается с ≈3000 до ≈1,6.
* Синхорна-Кнопп обеспечивает дважды стохастическое остаточное смешивание.
* Небольшие накладные расходы на обучение, измеримые улучшения в работе.
* Введение новой оси масштабирования для проектирования LLM.

5. Какие преимущества предоставляет использование алгоритма mHC для проектирования больших языковых моделей (LLM)?

Использование алгоритма mHC предоставляет следующие преимущества для проектирования больших языковых моделей:
* стабилизация расширенных остаточных потоков;
* снижение взрывного усиления;
* обеспечение дважды стохастического остаточного смешивания;
* измеримые улучшения в работе при небольших накладных расходах на обучение;
* введение новой оси масштабирования для проектирования LLM.

Источник