Moonshot AI выпускает Kimi K2.5: модель визуального агентского интеллекта с открытым исходным кодом и встроенной реализацией роевого выполнения

Компания Moonshot AI выпустила модель визуального агентского интеллекта с открытым исходным кодом — Kimi K2.5. Она объединяет в себе:
* языковую основу Large Mixture of Experts;
* собственный энкодер для обработки изображений;
* параллельную мультиагентную систему под названием Agent Swarm.

Модель ориентирована на кодирование, мультимодальные рассуждения и исследования в глубоком интернете, демонстрируя высокие результаты по соответствующим наборам тестов.

Архитектура и обучение модели

Kimi K2.5 — это модель Mixture of Experts с общим количеством параметров 1 триллион и примерно 32 миллиардами активированных параметров на токен. Сеть состоит из 61 слоя. Она использует 384 эксперта, из которых на каждый токен выбирается по 8 экспертов плюс 1 общий эксперт. Размер скрытого слоя внимания составляет 7168, и имеется 64 головы внимания.

Модель использует внимание MLA и функцию активации SwiGLU. Размер словаря токенизатора — 160 тысяч. Максимальная длина контекста во время обучения и вывода составляет 256 тысяч токенов, что поддерживает длительные трассировки инструментов, длинные документы и многошаговые рабочие процессы исследований.

Визуальная составляющая обрабатывается энкодером MoonViT с примерно 400 миллионами параметров. Визуальные токены обучаются вместе с текстовыми токенами в единой мультимодальной основе. Kimi K2.5 получена путём последовательного предварительного обучения на примерно 15 триллионах токенов смешанных визуальных и текстовых данных поверх Kimi K2 Base.

Кодирование и мультимодальные возможности

Kimi K2.5 позиционируется как мощная модель кодирования с открытым исходным кодом, особенно когда генерация кода зависит от визуального контекста. Модель может считывать макеты пользовательского интерфейса, скриншоты дизайна или даже видео, а затем выдавать структурированный фронтенд-код с макетом, стилизацией и логикой взаимодействия.

Агентский рой и параллельное обучение агентов

Ключевой особенностью Kimi K2.5 является Agent Swarm — мультиагентная система, обученная с помощью параллельного обучения агентов (PARL). В этой настройке агент-оркестратор разбивает сложную цель на множество подзадач. Затем он запускает доменных специфических субагентов для параллельной работы.

Команда Kimi сообщает, что K2.5 может управлять до 100 субагентов в рамках одной задачи. Она поддерживает до 1500 скоординированных шагов или вызовов инструментов за один запуск. Такой параллелизм обеспечивает примерно в 4,5 раза более быстрое выполнение по сравнению с конвейером с одним агентом при решении задач широкого поиска.

Бенчмарк производительности

На агентских бенчмарках Kimi K2.5 демонстрирует высокие результаты. На HLE Full with tools показатель составляет 50,2. На BrowseComp с управлением контекстом — 74,9. В режиме Agent Swarm показатель BrowseComp увеличивается до 78,4, а показатели WideSearch также улучшаются.

По визуальным и видео-бенчмаркам K2.5 также демонстрирует высокие результаты. MMMU Pro — 78,5, VideoMMMU — 86,6. Модель хорошо справляется с OmniDocBench, OCRBench, WorldVQA и другими задачами по пониманию документов и сцен.

Основные выводы

* Mixture of Experts в триллионном масштабе: Kimi K2.5 использует архитектуру Mixture of Experts с общим количеством параметров 1 триллион и примерно 32 миллиардами активных параметров на токен, 61 слоем, 384 экспертами и длиной контекста 256 тысяч, оптимизированную для длительных мультимодальных и инструментальных рабочих процессов.
* Нативная мультимодальная подготовка с MoonViT: модель объединяет энкодер для обработки изображений MoonViT с примерно 400 миллионами параметров и обучается на примерно 15 триллионах смешанных визуальных и текстовых токенов, поэтому изображения, документы и язык обрабатываются в единой унифицированной основе.
* Параллельный агентский рой с PARL: Agent Swarm, обученный с помощью параллельного обучения агентов, может координировать до 100 субагентов и около 1500 вызовов инструментов на задачу, обеспечивая примерно в 4,5 раза более быстрое выполнение по сравнению с одним агентом при решении задач широкого исследования.
* Высокие результаты по кодированию, видению и агентам: K2.5 демонстрирует результаты 76,8 на SWE Bench Verified, 78,5 на MMMU Pro, 86,6 на VideoMMMU, 50,2 на HLE Full with tools и 74,9 на BrowseComp, соответствуя или превосходя перечисленные закрытые модели по нескольким агентским и мультимодальным наборам тестов.

1. Какие ключевые особенности и архитектурные компоненты отличают модель Kimi K2.5 от других моделей визуального агентского интеллекта?

Ответ: Kimi K2.5 отличается использованием архитектуры Mixture of Experts с общим количеством параметров 1 триллион, включает собственный энкодер для обработки изображений MoonViT и мультиагентную систему Agent Swarm, обученную с помощью параллельного обучения агентов (PARL).

2. Какие бенчмарки производительности демонстрирует модель Kimi K2.5 и как она сравнивается с другими моделями?

Ответ: На агентских бенчмарках Kimi K2.5 демонстрирует высокие результаты: на HLE Full with tools показатель составляет 50,2, на BrowseComp с управлением контекстом — 74,9, в режиме Agent Swarm показатель BrowseComp увеличивается до 78,4. По визуальным и видео-бенчмаркам K2.5 также демонстрирует высокие результаты: MMMU Pro — 78,5, VideoMMMU — 86,6. Модель хорошо справляется с OmniDocBench, OCRBench, WorldVQA и другими задачами по пониманию документов и сцен.

3. Какие преимущества предоставляет использование мультиагентной системы Agent Swarm в модели Kimi K2.5?

Ответ: Agent Swarm может координировать до 100 субагентов и около 1500 вызовов инструментов на задачу, обеспечивая примерно в 4,5 раза более быстрое выполнение по сравнению с одним агентом при решении задач широкого исследования. Это позволяет модели более эффективно решать сложные задачи и обеспечивает значительное ускорение выполнения по сравнению с традиционными подходами.

4. Какие параметры и характеристики модели Kimi K2.5 способствуют её высокой производительности в мультимодальных задачах?

Ответ: Высокая производительность Kimi K2.5 обусловлена использованием архитектуры Mixture of Experts с общим количеством параметров 1 триллион, наличием 61 слоя, 384 экспертами и длиной контекста 256 тысяч. Кроме того, модель использует энкодер MoonViT для обработки изображений и обучается на примерно 15 триллионах смешанных визуальных и текстовых токенов, что позволяет эффективно обрабатывать изображения, документы и язык в единой унифицированной основе.

5. Какие возможности предоставляет модель Kimi K2.5 для кодирования и работы с визуальным контекстом?

Ответ: Kimi K2.5 позиционируется как мощная модель кодирования с открытым исходным кодом, особенно когда генерация кода зависит от визуального контекста. Модель может считывать макеты пользовательского интерфейса, скриншоты дизайна или даже видео, а затем выдавать структурированный фронтенд-код с макетом, стилизацией и логикой взаимодействия.

Источник