Alibaba выпустила новую версию мультимодальной языковой модели Ovis 2.5

Команда Alibaba AIDC-AI выпустила Ovis2.5 — новейшую большую мультимодальную языковую модель (MLLM). Она стала настоящим прорывом в сообществе разработчиков открытого ИИ благодаря своим вариантам с 9 миллиардами и 2 миллиардами параметров.

Новые возможности Ovis2.5

Ovis2.5 устанавливает новые стандарты производительности и эффективности, предлагая технические усовершенствования, направленные на восприятие изображений в исходном разрешении, глубокое мультимодальное рассуждение и надёжное распознавание текста (OCR). Модель решает давние проблемы, с которыми сталкивались большинство MLLM при обработке визуальной информации с высоким уровнем детализации и сложных рассуждений.

Восприятие изображений в исходном разрешении и глубокое рассуждение

Ключевым нововведением в Ovis2.5 является интеграция трансформера восприятия изображений в исходном разрешении (NaViT). Он обрабатывает изображения в их оригинальном, переменном разрешении. В отличие от предыдущих моделей, которые полагались на разделение на плитки или принудительное изменение размера, часто приводящее к потере важного глобального контекста и мелких деталей, NaViT сохраняет полную целостность как сложных диаграмм, так и натуральных изображений.

Это обновление позволяет модели превосходно справляться с задачами, требующими высокой визуальной плотности, такими как научные диаграммы, сложная инфографика и формы.

Для решения задач рассуждения Ovis2.5 реализует учебную программу, выходящую за рамки стандартного контроля цепочки мыслей (CoT). Её обучающие данные включают образцы «стиля мышления» для самокоррекции и рефлексии, что приводит к появлению дополнительного «режима мышления» во время логического вывода. Пользователи могут включить этот режим (как с энтузиазмом обсуждается в ветке Reddit LocalLLaMA), чтобы обменять более быстрое время отклика на повышенную пошаговую точность и самоанализ модели. Это особенно полезно для задач, требующих глубокого мультимодального анализа, таких как ответы на научные вопросы или решение математических задач.

Результаты тестирования производительности

Ovis2.5-9B достигает среднего балла 78,3 в мультимодальном рейтинге OpenCompass, опережая все открытые MLLM менее чем с 40 миллиардами параметров; Ovis2.5-2B набирает 73,9, устанавливая новый стандарт для лёгких моделей, идеально подходящих для вывода данных на устройстве или в условиях ограниченных ресурсов.

Обе модели демонстрируют исключительные результаты в специализированных областях, опережая конкурентов с открытым исходным кодом в следующих задачах:
* STEM-рассуждения (MathVista, MMMU, WeMath);
* OCR и анализ диаграмм (OCRBench v2, ChartQA Pro);
* Визуальная привязка (RefCOCO, RefCOCOg);
* Понимание видео и нескольких изображений (BLINK, VideoMME).

Высокая эффективность обучения и масштабируемое развёртывание

Ovis2.5 оптимизирует сквозную эффективность обучения, используя упаковку мультимодальных данных и передовой гибридный параллелизм, обеспечивая ускорение общей пропускной способности в 3–4 раза. Его облегчённый вариант на 2 миллиарда параметров продолжает философию серии «маленькая модель — большая производительность», обеспечивая высококачественное мультимодальное понимание на мобильном оборудовании и периферийных устройствах.

Заключение

Недавно выпущенные Alibaba модели Ovis2.5 (9 миллиардов и 2 миллиарда параметров) знаменуют прорыв в области открытого мультимодального ИИ, демонстрируя самые современные результаты в рейтинге OpenCompass для моделей менее чем с 40 миллиардами параметров. Ключевые инновации включают трансформер восприятия изображений в исходном разрешении, который умело обрабатывает визуальные данные с высоким уровнем детализации без разделения на плитки, и дополнительный «режим мышления», который позволяет глубже рассуждать над сложными задачами.

Ovis2.5 превосходит в STEM, OCR, анализе диаграмм и понимании видео, опережая предыдущие открытые модели и сокращая разрыв с проприетарным ИИ. Её ориентированная на эффективность тренировка и облегчённый вариант на 2 миллиарда параметров делают передовые мультимодальные возможности доступными как для исследователей, так и для приложений с ограниченными ресурсами.

Ознакомьтесь с технической документацией и моделями на Hugging Face. Не стесняйтесь посетить нашу страницу GitHub, чтобы найти учебные пособия, коды и блокноты. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.

1. Какие ключевые инновации были внедрены в модель Ovis2.5, и как они способствуют улучшению её производительности по сравнению с предыдущими моделями?

Ответ: в модель Ovis2.5 внедрён трансформер восприятия изображений в исходном разрешении (NaViT), который обрабатывает изображения в их оригинальном, переменном разрешении. Это позволяет модели превосходно справляться с задачами, требующими высокой визуальной плотности, такими как научные диаграммы, сложная инфографика и формы. Также Ovis2.5 реализует учебную программу, выходящую за рамки стандартного контроля цепочки мыслей (CoT), что включает образцы «стиля мышления» для самокоррекции и рефлексии.

2. Какие результаты тестирования производительности были достигнуты моделями Ovis2.5-9B и Ovis2.5-2B, и как они сравниваются с другими открытыми MLLM?

Ответ: Ovis2.5-9B достигает среднего балла 78,3 в мультимодальном рейтинге OpenCompass, опережая все открытые MLLM менее чем с 40 миллиардами параметров. Ovis2.5-2B набирает 73,9, устанавливая новый стандарт для лёгких моделей, идеально подходящих для вывода данных на устройстве или в условиях ограниченных ресурсов. Обе модели демонстрируют исключительные результаты в специализированных областях, опережая конкурентов с открытым исходным кодом.

3. Какие задачи и области применения особенно хорошо удаётся решать модели Ovis2.5, и почему это важно для разработчиков и исследователей?

Ответ: Ovis2.5 особенно хорошо справляется с задачами STEM-рассуждений (MathVista, MMMU, WeMath), OCR и анализом диаграмм (OCRBench v2, ChartQA Pro), визуальной привязкой (RefCOCO, RefCOCOg), пониманием видео и нескольких изображений (BLINK, VideoMME). Это важно для разработчиков и исследователей, поскольку позволяет им решать сложные задачи, требующие высокой точности и глубокого анализа.

4. Какие преимущества предлагает облегчённый вариант модели Ovis2.5 на 2 миллиарда параметров, и для каких устройств или приложений он может быть особенно полезен?

Ответ: облегчённый вариант модели Ovis2.5 на 2 миллиарда параметров обеспечивает высококачественное мультимодальное понимание на мобильном оборудовании и периферийных устройствах. Это делает передовые мультимодальные возможности доступными для приложений с ограниченными ресурсами, таких как мобильные устройства или системы с ограниченными вычислительными мощностями.

5. Какие дополнительные ресурсы и материалы предлагаются для ознакомления с моделью Ovis2.5, и как они могут быть полезны для исследователей и разработчиков?

Ответ: для ознакомления с моделью Ovis2.5 предлагается техническая документация и модели на Hugging Face, учебные пособия, коды и блокноты на GitHub, а также возможность подписаться на рассылку и присоединиться к сообществу в SubReddit (более 100 тысяч участников машинного обучения) и Twitter. Эти ресурсы могут быть полезны для исследователей и разработчиков, предоставляя им доступ к необходимым инструментам и материалам для работы с моделью.

Источник