Мультимодальный искусственный интеллект позволяет машинам обрабатывать и анализировать различные форматы входных данных, такие как изображения, текст, видео и сложные документы. Этот подход привлекает всё больше внимания, поскольку традиционные языковые модели, несмотря на свою мощь, оказываются недостаточными при работе с визуальными данными или при интерпретации контекста, охватывающего несколько типов входных данных. Реальный мир по своей природе мультимодален, поэтому системы, нацеленные на выполнение задач в реальном времени, анализ пользовательских интерфейсов, понимание академических материалов или интерпретацию сложных сцен, требуют интеллекта, функционирующего за пределами текстового анализа.
Новые модели разрабатываются для одновременного декодирования языковых и визуальных сигналов, что позволяет им выполнять задачи с улучшенным контекстуальным пониманием, глубиной рассуждений и адаптивностью к различным формам ввода данных.
Сегодняшнее ограничение мультимодальных систем заключается в их неспособности эффективно обрабатывать длинные контексты и обобщать данные с высоким разрешением или разнообразные структуры ввода без ущерба для производительности. Многие модели с открытым исходным кодом ограничивают ввод несколькими тысячами токенов или требуют чрезмерных вычислительных ресурсов для поддержания производительности в больших масштабах. Эти ограничения приводят к тому, что модели, возможно, хорошо справляются со стандартными тестами, но испытывают трудности с реальными приложениями, которые включают сложные многоизображения, расширенные диалоги или академические задачи, такие как анализ документов на основе OCR и решение математических задач. Также существует пробел в способности к рассуждению, особенно в долгосрочном планировании, что мешает текущим системам выполнять задачи, требующие пошаговой логики или глубокого контекстуального согласования между различными модальностями данных.
Исследователи из Moonshot AI представили Kimi-VL — новую модель для работы с текстом и изображениями, использующую архитектуру MoE. Эта система активирует только 2,8 миллиарда параметров в своём декодере, что значительно легче многих конкурентов, при этом сохраняя мощные мультимодальные возможности. Два выпущенных на Hugging Face модели на основе этой архитектуры — Kimi-VL-A3B-Thinking и Kimi-VL-A3B-Instruct — включают визуальный кодер MoonViT с нативным разрешением и поддерживают контекстные окна до 128 тысяч токенов. Модель состоит из трёх интегрированных компонентов: кодера MoonViT, MLP-проектора для перехода визуальных характеристик в языковые эмбеддинги и декодера Moonlight MoE. Исследователи также разработали усовершенствованную версию Kimi-VL-Thinking, предназначенную специально для задач долгосрочного планирования с использованием контролируемой тонкой настройки цепочки рассуждений и обучения с подкреплением. Вместе эти модели призваны переопределить стандарты эффективности в области визуального и языкового рассуждений.
Архитектурная инновация Kimi-VL заключается в её адаптируемости и способности к обработке. MoonViT обрабатывает изображения высокого разрешения в их исходном виде, устраняя необходимость фрагментации на подизображения. Для обеспечения пространственной согласованности при различных разрешениях изображений модель использует интерполированные абсолютные позиционные эмбеддинги в сочетании с двумерными ротационными позиционными эмбеддингами по высоте и ширине. Эти конструктивные решения позволяют MoonViT сохранять мелкие детали даже в крупномасштабных входных изображениях. Выходы визуального кодера проходят через двухслойный MLP, который использует операции пиксельного перемешивания для понижения дискретизации пространственных измерений и преобразования характеристик в совместимые с LLM эмбеддинги. Со стороны языка декодер MoE с активированными 2,8 миллиарда параметрами поддерживает общее количество параметров 16 миллиардов и органично интегрируется с визуальными представлениями, обеспечивая высокоэффективное обучение и логический вывод для различных типов ввода. Весь процесс обучения использовал усовершенствованный оптимизатор Muon с затуханием веса и оптимизацией памяти на основе ZeRO-1 для обработки большого количества параметров.
Состав обучающих данных отражает внимание к разнообразному мультимодальному обучению. Начиная с 2 Ттокенов для обучения ViT с использованием пар «изображение-подпись», команда добавила ещё 0,1 Т для согласования кодера с декодером. Совместное предварительное обучение использовало 1,4 Ттокенов, затем последовали этапы охлаждения на 0,6 Т и активации длинного контекста на 0,3 Т, в общей сложности 4,4 Ттокенов. Эти этапы включали академические визуальные наборы данных, образцы OCR, длинные видеоданные и синтетические математические и кодовые пары «вопрос-ответ». Для обучения на длинном контексте модель постепенно обучалась обрабатывать последовательности от 8 тысяч до 128 тысяч токенов, используя эмбеддинги RoPE, расширенные с базовой частоты 50 тысяч до 800 тысяч. Это позволило модели поддерживать точность запоминания токенов 100 % до 64 тысяч токенов, с небольшим снижением до 87 % при 128 тысячах, что всё равно превосходит большинство альтернатив.
Kimi-VL продемонстрировала высокие результаты в ряде тестов. На LongVideoBench она набрала 64,5 балла; на MMLongBench-Doc — 35,1; на бенчмарке InfoVQA лидировала с результатом 83,2. На ScreenSpot-Pro, который проверяет понимание пользовательских интерфейсов, она набрала 34,5 балла. Вариант Kimi-VL-Thinking показал отличные результаты в тестах, требующих интенсивного рассуждения, таких как MMMU (61,7), MathVision (36,8) и MathVista (71,3). Для агентских задач, таких как OSWorld, модель соответствовала или превосходила производительность более крупных моделей, таких как GPT-4o, активируя при этом значительно меньше параметров. Её компактная конструкция и сильные способности к рассуждению делают её ведущим кандидатом среди мультимодальных решений с открытым исходным кодом.
**Основные выводы из исследования Kimi-VL:**
* Kimi-VL активирует только 2,8 миллиарда параметров во время логического вывода, что обеспечивает эффективность без ущерба для возможностей.
* MoonViT, визуальный кодер модели, изначально обрабатывает изображения высокого разрешения, улучшая чёткость в таких задачах, как OCR и интерпретация пользовательских интерфейсов.
* Модель поддерживает до 128 тысяч контекстных токенов, достигая 100 % запоминания до 64 тысяч и 87 % точности при 128 тысячах на задачах с текстом и видео.
* Kimi-VL-Thinking набрала 61,7 балла на MMMU, 36,8 балла на MathVision и 71,3 балла на MathVista, превосходя многие более крупные VLM.
* Модель набрала 83,2 балла на InfoVQA и 34,5 балла на визуальных задачах на ScreenSpot-Pro, демонстрируя свою точность в оценках, основанных на восприятии.
* Общее предварительное обучение включало 4,4 Т токенов на текстах, видео, документах и синтетических мультимодальных данных.
* Оптимизация проводилась с использованием настроенного оптимизатора Muon с эффективными по памяти стратегиями, такими как ZeRO-1.
* Совместное обучение обеспечило органичную интеграцию визуальных и языковых характеристик при сохранении основных языковых возможностей.
Добавить комментарий