GPT-4o понимает текст, но чётко ли он видит? Исследование эталонных показателей MFM в задачах, связанных со зрением

Мультимодальные базовые модели (MFM), такие как GPT-4o, Gemini и Claude, в последнее время демонстрируют быстрый прогресс, особенно в публичных демонстрациях. Хотя их языковые навыки хорошо изучены, их истинная способность понимать визуальную информацию остаётся неясной.

Большинство используемых сегодня тестов сосредоточены в основном на текстовых задачах, таких как VQA (вопросы и ответы на основе изображений) или классификация, которые часто отражают скорее сильные стороны языка, чем визуальные возможности. Эти тесты также требуют текстовых ответов, что затрудняет объективную оценку визуальных навыков или сравнение MFM с моделями, ориентированными исключительно на зрение.

Более того, такие важные аспекты, как восприятие трёхмерного пространства, сегментация и группировка, которые являются основой визуального понимания, до сих пор в значительной степени игнорируются в текущих оценках.

MFM демонстрируют хорошие результаты в задачах, сочетающих визуальное и языковое понимание, таких как создание подписей и ответы на визуальные вопросы. Однако их эффективность в задачах, требующих детального визуального понимания, остаётся неясной.

Исследователи из Федеральной политехнической школы Лозанны (EPFL) оценили несколько популярных мультимодальных базовых моделей, таких как GPT-4o, Gemini 2.0 Flash и Claude 3.5 Sonnet, в основных задачах компьютерного зрения, включая сегментацию, обнаружение объектов и прогнозирование глубины, используя наборы данных, такие как COCO и ImageNet.

Поскольку большинство MFM предназначены для вывода текста и доступны только через API, исследователи разработали систему последовательности запросов (prompt-chaining framework), чтобы перевести эти визуальные задачи в форматы, совместимые с текстом. Их выводы показывают, что, хотя MFM являются компетентными универсалами, они уступают специализированным моделям зрения, особенно в геометрических задачах. GPT-4o выделялся, показав лучшие результаты в 4 из 6 задач.

Для оценки MFM в задачах, связанных со зрением, в исследовании разработана стратегия последовательности запросов, разбивающая сложные задачи на более простые, удобные для языка подзадачи.

Например, вместо прямого прогнозирования ограничивающих рамок модель сначала идентифицирует присутствующие объекты, затем находит их с помощью рекурсивного кадрирования изображений. Для сегментации и группировки изображения делятся на суперпиксели, которые легче маркировать и сравнивать. Глубина и нормали поверхности оцениваются с помощью попарного ранжирования суперпиксельных областей.

Этот модульный дизайн использует сильные стороны MFM в классификации и сходстве, а калибровка обеспечивает справедливое сравнение. Метод является гибким, и производительность улучшается с более детализированными запросами.

Исследование оценивает различные MFM, включая GPT-4, Gemini Flash и Claude 3.5, по множеству задач, таких как классификация изображений, обнаружение объектов и сегментация. Результаты показывают, что GPT-4o достигает 77,2% на ImageNet и 60,62 AP50 для обнаружения объектов, уступая специализированным моделям, таким как ViT-G (90,94%) и Co-DETR (91,30%).

В заключение, исследование представляет собой систему оценки эталонных показателей для оценки визуальных возможностей MFM, таких как GPT-4o, Gemini и Claude, путём преобразования стандартных задач зрения в форматы, основанные на запросах.

Выводы показывают, что MFM лучше справляются с семантическими задачами, чем с геометрическими, причём GPT-4o лидирует в целом. Однако все MFM значительно отстают от специализированных моделей зрения. Несмотря на то что они обучены в основном на данных с изображениями и текстом, они демонстрируют многообещающий прогресс, особенно новые модели рассуждений, такие как o3, в трёхмерных задачах.

Ограничения включают высокую стоимость вывода и чувствительность к запросам. Тем не менее, этот фреймворк обеспечивает унифицированный подход к оценке визуального понимания MFM, закладывая основу для будущих достижений.

1. Какие аспекты визуального понимания до сих пор игнорируются в текущих оценках мультимодальных базовых моделей (MFM)?

В тексте указано, что такие важные аспекты, как восприятие трёхмерного пространства, сегментация и группировка, которые являются основой визуального понимания, до сих пор в значительной степени игнорируются в текущих оценках.

2. Какие мультимодальные базовые модели были оценены в исследовании, и какие результаты они показали?

В исследовании были оценены несколько популярных мультимодальных базовых моделей, таких как GPT-4o, Gemini 2.0 Flash и Claude 3.5 Sonnet. Результаты показали, что GPT-4o достигает 77,2% на ImageNet и 60,62 AP50 для обнаружения объектов, уступая специализированным моделям, таким как ViT-G (90,94%) и Co-DETR (91,30%).

3. Какие методы использовались для оценки MFM в задачах, связанных со зрением?

Для оценки MFM в задачах, связанных со зрением, в исследовании разработана стратегия последовательности запросов, разбивающая сложные задачи на более простые, удобные для языка подзадачи. Например, вместо прямого прогнозирования ограничивающих рамок модель сначала идентифицирует присутствующие объекты, затем находит их с помощью рекурсивного кадрирования изображений. Для сегментации и группировки изображения делятся на суперпиксели, которые легче маркировать и сравнивать.

4. Какие выводы можно сделать из результатов исследования о сравнении MFM с специализированными моделями зрения?

Результаты исследования показывают, что MFM лучше справляются с семантическими задачами, чем с геометрическими, причём GPT-4o лидирует в целом. Однако все MFM значительно отстают от специализированных моделей зрения. Несмотря на то что они обучены в основном на данных с изображениями и текстом, они демонстрируют многообещающий прогресс, особенно новые модели рассуждений, такие как o3, в трёхмерных задачах.

5. Какие ограничения существуют при использовании MFM для задач, связанных со зрением?

Ограничения включают высокую стоимость вывода и чувствительность к запросам. Тем не менее, этот фреймворк обеспечивает унифицированный подход к оценке визуального понимания MFM, закладывая основу для будущих достижений.

Источник

Оставьте комментарий