Проблема рассуждений в длинном контексте в моделях ИИ
Модели для рассуждений не только понимают язык, но и структурированы так, чтобы обдумывать многошаговые процессы, требующие длительной концентрации внимания и понимания контекста. Поскольку ожидания от ИИ растут, особенно в условиях реального мира и при разработке программного обеспечения, исследователи ищут архитектуры, которые могут обрабатывать более длинные входные данные и поддерживать глубокие, согласованные цепочки рассуждений без чрезмерных вычислительных затрат.
Вычислительные ограничения традиционных трансформеров
Основная трудность в расширении этих возможностей заключается в чрезмерной вычислительной нагрузке, которая возникает при увеличении длины генерации. Традиционные модели на основе трансформеров используют механизм внимания softmax, который масштабируется квадратично с размером входных данных. Это ограничивает их способность эффективно обрабатывать длинные входные последовательности или расширенные цепочки мыслей.
Эта проблема становится ещё более актуальной в областях, требующих взаимодействия в реальном времени или в приложениях, чувствительных к стоимости, где расходы на вывод значительны.
Существующие альтернативы и их ограничения
Для решения этой проблемы были разработаны различные методы, включая разрежённое внимание и варианты линейного внимания. Некоторые команды экспериментировали с моделями пространства состояний и рекуррентными сетями в качестве альтернативы традиционным структурам внимания. Однако эти инновации получили ограниченное распространение в наиболее конкурентоспособных моделях рассуждений из-за сложности архитектуры или отсутствия масштабируемости в реальных условиях.
Даже крупномасштабные системы, такие как Tencent’s Hunyuan-T1, использующие новую архитектуру Mamba, остаются закрытыми, что ограничивает возможности более широких исследований и валидации.
Введение MiniMax-M1: масштабируемая модель с открытыми весами
Исследователи из MiniMax AI представили MiniMax-M1 — новую крупномасштабную модель рассуждений с открытыми весами, которая сочетает в себе архитектуру смеси экспертов со сверхбыстрым вниманием. MiniMax-M1 содержит 456 миллиардов параметров, из которых 45,9 миллиарда активируются на каждый токен. Он поддерживает длину контекста до 1 миллиона токенов — в восемь раз больше, чем DeepSeek R1.
Эта модель решает проблему масштабируемости вычислений во время вывода, потребляя всего 25% FLOPs, необходимых DeepSeek R1 при длине генерации 100 000 токенов. Она была обучена с использованием крупномасштабного обучения с подкреплением на широком спектре задач: от математики и кодирования до разработки программного обеспечения.
Гибридное внимание с молниеносным вниманием и блоками softmax
Для оптимизации архитектуры MiniMax-M1 использует гибридную схему внимания, где каждый седьмой блок трансформера использует традиционное внимание softmax, за которым следуют шесть блоков, использующих молниеносное внимание. Это значительно снижает вычислительную сложность, сохраняя при этом производительность.
Само молниеносное внимание адаптировано для ввода-вывода, основано на линейном внимании и особенно эффективно при масштабировании длины рассуждений до сотен тысяч токенов. Для повышения эффективности обучения с подкреплением исследователи представили новый алгоритм под названием CISPO.
Алгоритм CISPO и эффективность обучения с подкреплением
Алгоритм CISPO оказался незаменимым в преодолении нестабильности обучения, с которой сталкиваются гибридные архитектуры. В сравнительных исследованиях с использованием базового уровня Qwen2.5-32B алгоритм CISPO достиг 2-кратного ускорения по сравнению с DAPO.
Используя это, полный цикл обучения с подкреплением для MiniMax-M1 был завершён всего за три недели с использованием 512 H800 GPU, с арендной платой примерно в 534 700 долларов. Модель была обучена на разнообразном наборе данных, включающем 41 логическую задачу, сгенерированную с помощью фреймворка SynLogic, и реальные среды разработки программного обеспечения, полученные из SWE bench.
Результаты тестирования и сравнительная производительность
MiniMax-M1 продемонстрировал впечатляющие результаты тестирования. По сравнению с DeepSeek-R1 и Qwen3-235B он превосходил в разработке программного обеспечения, обработке длинного контекста и использовании инструментов. Хотя он и уступил новейшему DeepSeek-R1-0528 в математических и кодировочных конкурсах, он превзошёл OpenAI o3 и Claude 4 Opus в тестах на понимание длинного контекста. Кроме того, он превзошёл Gemini 2.5 Pro в оценке использования инструментов агента в TAU-Bench.
Заключение: масштабируемая и прозрачная модель для длинного контекста ИИ
MiniMax-M1 представляет собой значительный шаг вперёд, предлагая прозрачность и масштабируемость. Решая двойную задачу эффективности вывода и сложности обучения, исследовательская группа MiniMax AI задала прецедент для моделей рассуждений с открытыми весами. Эта работа не только приносит решение вычислительных ограничений, но и представляет практические методы масштабирования интеллекта языковых моделей для реальных приложений.
Ознакомьтесь с [статьёй](), [моделью](), [страницей на GitHub](). Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также подписывайтесь на нас в [Twitter]() и присоединяйтесь к нашему [ML SubReddit]() с более чем 100 тысячами участников и подписывайтесь на [наш Newsletter]().