Cerebras выпустила MiniMax-M2-REAP-162B-A10B: эффективную по памяти версию MiniMax-M2 для агентов кодирования с длинным контекстом

Компания Cerebras выпустила MiniMax-M2-REAP-162B-A10B — сжатую причинно-следственную языковую модель Sparse Mixture-of-Experts (SMoE), полученную из MiniMax-M2, с использованием нового метода Router weighted Expert Activation Pruning (REAP).

Модель сохраняет поведение оригинальной MiniMax-M2 с 230 миллиардами параметров в общем и 10 миллиардами активных параметров, одновременно сокращая объём памяти для рабочих нагрузок, ориентированных на развёртывание, таких как агенты кодирования и вызов инструментов.

Архитектура и основные характеристики

  • Базовая модель: MiniMax-M2.

  • Метод сжатия: REAP, Router weighted Expert Activation Pruning.

  • Общие параметры: 162 миллиарда.

  • Активные параметры на токен: 10 миллиардов.

  • Слои: 62 блока трансформатора.

  • Голов внимания на слой: 48.

  • Эксперты: 180 экспертов, полученных путём сокращения конфигурации из 256 экспертов.

  • Активированные эксперты на токен: 8.

  • Длина контекста: 196 608 токенов.

  • Лицензия: модифицированная MIT, получена из MiniMaxAI MiniMax M2.

Дизайн SMoE означает, что модель хранит 162 миллиарда параметров, но каждый токен проходит через небольшой набор экспертов, поэтому эффективная вычислительная стоимость на токен аналогична плотной модели на 10 миллиардов.

Как REAP сжимает MiniMax-M2?

MiniMax-M2-REAP-162B-A10B создаётся путём применения REAP равномерно ко всем блокам MoE MiniMax-M2 со скоростью сокращения экспертов в 30%.

Метод REAP определяет показатель значимости для каждого эксперта, который объединяет:

  • Значения ворот маршрутизатора: как часто и насколько сильно маршрутизатор выбирает этого эксперта.

  • Нормы активации экспертов: величину выходных данных эксперта при его активации.

Эксперты, которые минимально влияют на выходные данные слоя по этому комбинированному критерию, удаляются. Оставшиеся эксперты сохраняют свои исходные веса, а маршрутизатор сохраняет отдельные ворота для каждого из них. Это однократное сжатие, после обрезки дополнительная тонкая настройка в определении метода не проводится.

Основные теоретические результаты исследования REAP

Основной теоретический результат исследования REAP заключается в том, что слияние экспертов с суммированными воротами вызывает коллапс функционального подпространства. Когда эксперты объединяются, маршрутизатор теряет независимый, зависящий от входных данных контроль над этими экспертами, поэтому один объединённый эксперт должен аппроксимировать входную зависимую смесь, которая изначально была выражена через нескольких экспертов.

Исследовательская группа доказывает, что всякий раз, когда политика маршрутизатора зависит от входных данных, а эксперты не идентичны, это вносит необратимую ошибку. Напротив, обрезка удаляет некоторых экспертов, но сохраняет независимый контроль над выжившими, поэтому ошибка масштабируется с весом ворот удалённых экспертов.

Точность при 30%-й обрезке экспертов

Модель MiniMax-M2-REAP-162B-A10B сравнивается на трёх контрольных точках со стандартными тестами кодирования, рассуждений и агентских задач:

  • MiniMax-M2 (230 миллиардов, базовая модель).

  • MiniMax-M2-REAP-172B-A10B, 25% обрезка.

  • MiniMax-M2-REAP-162B-A10B, 30% обрезка.

На тестах кодирования, таких как HumanEval, HumanEval Plus, MBPP и MBPP Plus, модель 162B REAP остаётся очень близкой к базовой модели. HumanEval находится в диапазоне около 90%, а MBPP — в диапазоне 80%, причём модели 172B и 162B практически отслеживают исходный MiniMax-M2 с разницей в несколько баллов.

На тестах рассуждений, таких как AIME 25 и MATH 500, наблюдаются небольшие сдвиги между тремя моделями, но коллапса при 30%-й обрезке не происходит, и контрольная точка 162B остаётся конкурентоспособной с базовой моделью.

На вызовах инструментов и агентской оценке, представленной τ2 bench в телекоммуникационной среде, модель 162B REAP снова соответствует базовой модели с небольшой дисперсией.

Развёртывание, использование памяти и наблюдаемая пропускная способность

Cerebras предоставляет прямой пример vLLM serve и позиционирует MiniMax-M2-REAP-162B-A10B как модель, заменяющую MiniMax M2.

Ключевые выводы

  • Эффективный по вычислениям SMoE-архитектура: MiniMax-M2-REAP-162B-A10B — это модель Sparse Mixture of Experts с 162 миллиардами общих параметров и 10 миллиардами активных параметров на токен, поэтому вычислительная стоимость на токен близка к плотной модели на 10 миллиардов, сохраняя при этом масштабную ёмкость.

  • Обрезка экспертов REAP сохраняет поведение MiniMax-M2: модель получена путём применения REAP Router weighted Expert Activation Pruning к MiniMax-M2 примерно при 30%-й обрезке экспертов, обрезке экспертов на основе значений ворот маршрутизатора и норм активации экспертов, сохраняя при этом структуру выживших экспертов и маршрутизатора.

  • Почти без потерь точности при 30%-м сжатии: на тестах кодирования, таких как HumanEval и MBPP, и на тестах рассуждений, таких как AIME25 и MATH 500, вариант 162B REAP отслеживает 230B MiniMax-M2 и вариант 172B REAP в пределах нескольких баллов, показывая почти без потерь сжатие для кода, рассуждений и использования инструментов.

  • Обрезка превосходит слияние экспертов для генеративных SMoE: исследование REAP показывает, что обрезка экспертов с использованием критерия значимости позволяет избежать коллапса функционального подпространства, наблюдаемого при слиянии экспертов в генеративных задачах, и работает лучше на больших моделях SMoE в диапазоне от 22 миллиардов до примерно 1 триллиона параметров.

1. В чём заключается основная идея и цель разработки модели MiniMax-M2-REAP-162B-A10B?

Ответ: основная идея и цель разработки модели MiniMax-M2-REAP-162B-A10B заключается в создании эффективной по памяти версии модели MiniMax-M2 с использованием метода Router weighted Expert Activation Pruning (REAP). Это позволяет сохранить поведение оригинальной модели MiniMax-M2, одновременно сокращая объём памяти для рабочих нагрузок, ориентированных на развёртывание, таких как агенты кодирования и вызов инструментов.

2. Какие основные характеристики и параметры имеет модель MiniMax-M2-REAP-162B-A10B?

Ответ: модель MiniMax-M2-REAP-162B-A10B имеет следующие основные характеристики и параметры: базовая модель — MiniMax-M2; метод сжатия — REAP; общие параметры — 162 миллиарда; активные параметры на токен — 10 миллиардов; слои — 62 блока трансформатора; голов внимания на слой — 48; эксперты — 180 экспертов, полученных путём сокращения конфигурации из 256 экспертов; активированные эксперты на токен — 8; длина контекста — 196 608 токенов.

3. Как метод REAP влияет на сжатие модели MiniMax-M2?

Ответ: метод REAP определяет показатель значимости для каждого эксперта, который объединяет значения ворот маршрутизатора и нормы активации экспертов. Эксперты, которые минимально влияют на выходные данные слоя по этому комбинированному критерию, удаляются. Оставшиеся эксперты сохраняют свои исходные веса, а маршрутизатор сохраняет отдельные ворота для каждого из них. Это однократное сжатие, после обрезки дополнительная тонкая настройка в определении метода не проводится.

4. Какие результаты были получены при сравнении модели MiniMax-M2-REAP-162B-A10B с другими моделями на контрольных точках?

Ответ: модель MiniMax-M2-REAP-162B-A10B сравнивалась на трёх контрольных точках со стандартными тестами кодирования, рассуждений и агентских задач. На тестах кодирования, таких как HumanEval, HumanEval Plus, MBPP и MBPP Plus, модель 162B REAP остаётся очень близкой к базовой модели. На тестах рассуждений, таких как AIME 25 и MATH 500, наблюдаются небольшие сдвиги между тремя моделями, но коллапса при 30%-й обрезке не происходит. На вызовах инструментов и агентской оценке модель 162B REAP снова соответствует базовой модели с небольшой дисперсией.

5. Какие ключевые выводы можно сделать из исследования модели MiniMax-M2-REAP-162B-A10B?

Ответ: ключевые выводы из исследования модели MiniMax-M2-REAP-162B-A10B включают: эффективный по вычислениям SMoE-архитектура; обрезка экспертов REAP сохраняет поведение MiniMax-M2; почти без потерь точности при 30%-м сжатии; обрезка превосходит слияние экспертов для генеративных SMoE.

Источник