Исследователи из DeepSeek AI представили Engram — модуль, который добавляет ось условной памяти в разреженные LLM (большие языковые модели). Он позволяет моделям более эффективно использовать память для хранения статических шаблонов, таких как общие фразы и сущности.
Как Engram вписывается в DeepSeek Transformer
Для предложенного подхода используется токенизатор DeepSeek V3 со словарём в 128 тысяч слов и предварительным обучением на 262 миллиардах токенов. Основная часть — это 30-блочный Transformer со скрытым размером 2560.
Engram подключается к этой основной части как модуль разреженного встраивания. Он построен из хешированных N-граммных таблиц с многоголовым хешированием в сегменты размером с простое число, небольшой глубинной свёрткой по контексту N-грамм и скаляром управления доступом к контексту в диапазоне от 0 до 1, который контролирует, сколько извлечённого встраивания вводится в каждую ветвь.
В масштабных моделях Engram-27B и Engram-40B используется та же основная часть Transformer, что и в MoE-27B. MoE-27B заменяет плотную прямую связь с DeepSeekMoE, используя 72 маршрутизируемых эксперта и 2 общих эксперта. Engram-27B сокращает количество маршрутизируемых экспертов с 72 до 55 и перераспределяет эти параметры в память Engram объёмом 5,7 миллиарда параметров, сохраняя общее количество параметров на уровне 26,7 миллиарда.
Распределение разреженности: вторая регуляторная ручка рядом с MoE
Основной конструктивный вопрос заключается в том, как разделить бюджет разреженных параметров между маршрутизируемыми экспертами и условной памятью. Команда исследователей формализует это как задачу распределения разреженности, с коэффициентом распределения ρ, определённым как доля неактивных параметров, назначенных экспертам MoE.
Чистая модель MoE имеет ρ, равное 1. Уменьшение ρ перераспределяет параметры от экспертов в слоты Engram. В моделях среднего масштаба на 5,7 миллиарда и 9,9 миллиарда параметров прогон ρ даёт чёткую U-образную кривую потерь при проверке в зависимости от коэффициента распределения. Модели Engram соответствуют базовой линии MoE даже при снижении ρ примерно до 0,25, что соответствует примерно половине количества маршрутизируемых экспертов.
Результаты крупномасштабного предварительного обучения
Основное сравнение включает четыре модели, обученные на одном и том же наборе из 262 миллиардов токенов, с 3,8 миллиарда активированных параметров во всех случаях. Это Dense 4B с 4,1 миллиарда общих параметров, MoE 27B и Engram 27B с 26,7 миллиарда общих параметров и Engram 40B с 39,5 миллиарда общих параметров.
На тестовом наборе The Pile потери при языковом моделировании составляют 2,091 для MoE 27B, 1,960 для Engram 27B, 1,950 для варианта Engram 27B и 1,942 для Engram 40B. Потери при проверке на внутреннем выделенном наборе снижаются с 1,768 для MoE 27B до 1,634 для Engram 27B и до 1,622 и 1,610 для вариантов Engram.
Поведение в длинном контексте и механистические эффекты
После предварительного обучения команда исследователей расширяет окно контекста, используя YaRN, до 32 768 токенов в течение 5 000 шагов, используя 30 миллиардов высококачественных токенов с длинным контекстом. Они сравнивают MoE-27B и Engram-27B на контрольных точках, соответствующих 41 тысяче, 46 тысячам и 50 тысячам шагов предварительного обучения.
На LongPPL и RULER при 32 тысячах контекста Engram-27B соответствует или превосходит MoE-27B при трёх условиях. Приблизительно с 82 процентами предварительного обучения FLOPs Engram-27B на 41 тысяче шагов соответствует LongPPL, улучшая при этом точность RULER.
Ключевые выводы
Engram добавляет ось условной памяти в разреженные LLM, так что частые N-граммные шаблоны и сущности извлекаются через хешированный поиск O(1), в то время как основная часть Transformer и эксперты MoE фокусируются на динамическом рассуждении и зависимостях на большом расстоянии.
При фиксированном бюджете параметров и FLOPs перераспределение примерно 20–25 процентов разрежённой ёмкости от экспертов MoE в память Engram снижает потери при проверке, показывая, что условная память и условные вычисления дополняют друг друга, а не конкурируют.
В крупномасштабном предварительном обучении на 262 миллиардах токенов Engram-27B и Engram-40B с теми же 3,8 миллиарда активированных параметров превосходят базовую линию MoE-27B в языковом моделировании, знаниях, рассуждениях, коде и математических тестах, сохраняя архитектуру основной части Transformer без изменений.
Расширение длинного контекста до 32 768 токенов с помощью YaRN показывает, что Engram-27B соответствует или улучшает LongPPL и явно улучшает показатели RULER, особенно Multi-Query-Needle in a Haystack и отслеживание переменных, даже при обучении с меньшими или равными вычислительными ресурсами по сравнению с MoE-27B.
1. Что такое Engram и какова его основная функция в контексте больших языковых моделей (LLM)?
Engram — это модуль, который добавляет ось условной памяти в разреженные LLM. Он позволяет моделям более эффективно использовать память для хранения статических шаблонов, таких как общие фразы и сущности.
2. Как Engram интегрирован в архитектуру DeepSeek Transformer?
Engram подключается к основной части DeepSeek Transformer как модуль разреженного встраивания. Он построен из хешированных N-граммных таблиц с многоголовым хешированием в сегменты размером с простое число, небольшой глубинной свёрткой по контексту N-грамм и скаляром управления доступом к контексту в диапазоне от 0 до 1.
3. Какие результаты были получены при крупномасштабном предварительном обучении моделей с использованием Engram?
На тестовом наборе The Pile потери при языковом моделировании составляют 1,960 для Engram 27B, 1,950 для варианта Engram 27B и 1,942 для Engram 40B. Потери при проверке на внутреннем выделенном наборе снижаются с 1,768 для MoE 27B до 1,634 для Engram 27B и до 1,622 и 1,610 для вариантов Engram. Это показывает, что модели с Engram превосходят базовую линию MoE-27B в языковом моделировании, знаниях, рассуждениях, коде и математических тестах.
4. Как влияет перераспределение параметров между маршрутизируемыми экспертами и условной памятью на производительность модели?
Уменьшение коэффициента распределения ρ перераспределяет параметры от экспертов в слоты Engram. Модели среднего масштаба на 5,7 миллиарда и 9,9 миллиарда параметров прогон ρ даёт чёткую U-образную кривую потерь при проверке в зависимости от коэффициента распределения. Модели Engram соответствуют базовой линии MoE даже при снижении ρ примерно до 0,25, что соответствует примерно половине количества маршрутизируемых экспертов. Это показывает, что условная память и условные вычисления дополняют друг друга, а не конкурируют.
5. Какие преимущества предоставляет Engram при работе с длинным контекстом?
Расширение длинного контекста до 32 768 токенов с помощью YaRN показывает, что Engram-27B соответствует или улучшает LongPPL и явно улучшает показатели RULER, особенно Multi-Query-Needle in a Haystack и отслеживание переменных, даже при обучении с меньшими или равными вычислительными ресурсами по сравнению с MoE-27B. Это указывает на то, что Engram может быть эффективным инструментом для работы с длинными текстами и сложными задачами.