Как спроектировать системы ИИ, которые могут планировать, рассуждать и действовать в течение длительных последовательностей решений без постоянного руководства человека?
Компания Moonshot AI выпустила модель мышления Kimi K2 Thinking — модель-агент с открытым исходным кодом, которая демонстрирует полный поток рассуждений архитектуры Kimi K2 Mixture of Experts. Она предназначена для рабочих нагрузок, требующих глубокого анализа, длительного использования инструментов и стабильного поведения агента на протяжении многих шагов.
Что такое Kimi K2 Thinking?
Kimi K2 Thinking — это новейшая и наиболее функциональная версия модели мышления с открытым исходным кодом от Moonshot. Она построена как агент-рассуждающий, который шаг за шагом рассуждает и динамически вызывает инструменты во время логического вывода. Модель предназначена для чередования цепочки мыслей с вызовами функций, чтобы она могла читать, думать, вызывать инструмент, снова думать и повторять это сотни шагов.
Модель устанавливает новый уровень в Humanity’s Last Exam и BrowseComp, сохраняя при этом согласованное поведение примерно при 200–300 последовательных вызовах инструментов без вмешательства человека.
В то же время K2 Thinking выпущена как модель с открытыми весами с контекстным окном в 256 тысяч токенов и нативным выводом INT4, что снижает задержку и использование памяти GPU, сохраняя при этом производительность на уровне тестов.
K2 Thinking уже доступна в режиме чата на kimi.com и через API платформы Moonshot. Планируется запуск специального агентского режима, который продемонстрирует полное использование инструментов.
Архитектура, дизайн MoE и длина контекста
Kimi K2 Thinking наследует дизайн Kimi K2 Mixture of Experts. Модель использует архитектуру MoE с общим количеством параметров 1 триллион и 32 миллиарда активированных параметров на токен. Она имеет 61 слой, включая 1 плотный слой, 384 эксперта с 8 экспертами, выбранными на токен, 1 общий эксперт, 64 головы внимания и скрытое измерение внимания 7168. Скрытое измерение MoE составляет 2048 на эксперта.
Размер словаря составляет 160 тысяч токенов, а длина контекста — 256 тысяч. Механизм внимания — Multi head Latent Attention, а функция активации — SwiGLU.
Масштабирование времени тестирования и долгосрочное мышление
Kimi K2 Thinking явно оптимизирована для масштабирования времени тестирования. Модель обучена расширять длину рассуждений и глубину вызова инструментов при решении более сложных задач, а не полагаться на фиксированную короткую цепочку мыслей.
Тестирование
На Humanity’s Last Exam в настройках без инструментов K2 Thinking набирает 23,9 балла. С инструментами — 44,9, а в тяжёлых условиях — 51,0. На AIME25 с Python — 99,1, на HMMT25 с Python — 95,1. На IMO AnswerBench — 78,6, а на GPQA — 84,5.
Протокол тестирования ограничивает бюджет токенов мышления на уровне 96 тысяч для HLE, AIME25, HMMT25 и GPQA. Для IMO AnswerBench, LiveCodeBench и OJ Bench используется 128 тысяч токенов мышления, а для Longform Writing — 32 тысячи токенов завершения. На HLE максимальный лимит шагов составляет 120 с бюджетом на рассуждения 48 тысяч на шаг. В задачах агентского поиска лимит составляет 300 шагов с бюджетом на рассуждения 24 тысячи на шаг.
Бенчмарки в агентском поиске и кодировании
В задачах агентского поиска с инструментами K2 Thinking набирает 60,2 балла в BrowseComp, 62,3 в BrowseComp ZH, 56,3 в Seal 0, 47,4 в FinSearchComp T3 и 87,0 в Frames.
На общих тестах знаний модель набирает 84,6 балла в MMLU Pro, 94,4 в MMLU Redux, 73,8 в Longform Writing и 58,0 в HealthBench.
Для кодирования K2 Thinking достигает 71,3 балла на SWE bench Verified с инструментами, 61,1 на SWE bench Multilingual с инструментами, 41,9 на Multi SWE bench с инструментами, 44,8 на SciCode, 83,1 на LiveCodeBenchV6, 48,7 на OJ Bench в настройках C++ и 47,1 на Terminal Bench с моделируемыми инструментами.
Команда Moonshot также определяет тяжёлый режим, который запускает восемь траекторий параллельно, а затем объединяет их для получения окончательного ответа. Это используется в некоторых тестах на рассуждения, чтобы повысить точность той же базовой модели.
Нативное квантование INT4 и развёртывание
K2 Thinking обучена как нативная модель INT4. Исследовательская группа применяет Quantization Aware Training на этапе постобработки и использует только квантование весов INT4 в компонентах MoE. Это поддерживает вывод INT4 примерно с двухкратным улучшением скорости генерации в режиме низкой задержки при сохранении стабильной производительности на уровне тестов.
Все результаты тестов получены при точности INT4. Контрольные точки сохраняются в формате сжатых тензоров и могут быть распакованы в форматы более высокой точности, такие как FP8 или BF16, с помощью официальных инструментов сжатых тензоров. Рекомендуемые механизмы вывода включают vLLM, SGLang и KTransformers.
Ключевые выводы
Kimi K2 Thinking — это агент мышления с открытыми весами, который расширяет архитектуру Kimi K2 Mixture of Experts за счёт явного долгосрочного рассуждения и использования инструментов, а не просто коротких ответов в стиле чата.
Модель использует триллион параметров MoE с примерно десятками миллиардов активных параметров на токен, контекстным окном в 256 тысяч токенов и обучена как нативная модель INT4 с Quantization Aware Training, что обеспечивает примерно в 2 раза более быстрый вывод при сохранении стабильной производительности на уровне тестов.
K2 Thinking оптимизирована для масштабирования времени тестирования, она может выполнять сотни последовательных вызовов инструментов в рамках одной задачи и оценивается при больших бюджетах токенов мышления и строгих ограничениях по количеству шагов, что важно при попытке воспроизвести её рассуждения и результаты работы агента.
В публичных бенчмарках модель лидирует или конкурирует в задачах рассуждения, агентского поиска и кодирования, таких как HLE с инструментами, BrowseComp и SWE bench Verified с инструментами, показывая, что ориентированный на мышление вариант обеспечивает явные преимущества по сравнению с базовой моделью K2 без мышления.
Редакционные комментарии
Kimi K2 Thinking — это чёткий сигнал о том, что масштабирование времени тестирования теперь является основной целью проектирования для моделей рассуждения с открытым исходным кодом. Moonshot AI не только представляет систему Mixture of Experts с 1 триллионом параметров и 32 миллиардами активных параметров и контекстным окном в 256 тысяч токенов, но и делает это с нативным квантованием INT4, Quantization Aware Training и оркестровкой инструментов, которая работает в течение сотен шагов в производственных настройках.
В целом, Kimi K2 Thinking показывает, что агенты рассуждения с открытыми весами, обладающие долгосрочным планированием и использованием инструментов, становятся практической инфраструктурой, а не просто демонстрациями исследований.
1. Какие ключевые особенности модели Kimi K2 Thinking выделяют её среди других моделей ИИ?
Модель Kimi K2 Thinking отличается от других моделей ИИ благодаря своей способности выполнять до 200–300 последовательных вызовов инструментов без вмешательства человека. Она также имеет архитектуру MoE с общим количеством параметров 1 триллион и 32 миллиарда активированных параметров на токен. Кроме того, модель использует контекстное окно в 256 тысяч токенов и нативный вывод INT4, что снижает задержку и использование памяти GPU.
2. Какие параметры и характеристики модели Kimi K2 Thinking обеспечивают её высокую производительность в задачах рассуждения и использования инструментов?
Высокая производительность модели Kimi K2 Thinking обеспечивается за счёт использования архитектуры MoE с 1 триллионом параметров и 32 миллиардами активированных параметров на токен. Контекстное окно в 256 тысяч токенов позволяет модели обрабатывать большие объёмы информации, а нативный вывод INT4 ускоряет генерацию ответов при сохранении стабильной производительности.
3. Какие преимущества предоставляет модель Kimi K2 Thinking в сравнении с базовой моделью K2 без мышления?
Модель Kimi K2 Thinking демонстрирует явные преимущества по сравнению с базовой моделью K2 без мышления. Она оптимизирована для масштабирования времени тестирования и может выполнять сотни последовательных вызовов инструментов в рамках одной задачи. Это позволяет модели более эффективно решать сложные задачи, требующие глубокого анализа и длительного использования инструментов.
4. Какие тесты и бенчмарки использовались для оценки производительности модели Kimi K2 Thinking?
Для оценки производительности модели Kimi K2 Thinking использовались различные тесты и бенчмарки, включая Humanity’s Last Exam, AIME25, HMMT25, IMO AnswerBench, GPQA, BrowseComp, MMLU Pro, MMLU Redux, Longform Writing и HealthBench. Эти тесты позволяют оценить модель в различных задачах рассуждения, агентского поиска и кодирования.
5. Какие перспективы открывает использование модели Kimi K2 Thinking в практических приложениях?
Использование модели Kimi K2 Thinking открывает перспективы для создания практических систем ИИ, способных планировать, рассуждать и действовать в течение длительных последовательностей решений без постоянного руководства человека. Это может быть полезно в различных областях, таких как медицина, финансы, производство и другие, где требуется высокая точность и эффективность при решении сложных задач.