Современные модели показывают точность, сравнимую с человеческой, на AIME, GPQA, MATH-500 и OlympiadBench, решая задачи олимпиадного уровня. Недавние мультимодальные модели фундаментального обучения продвинули тесты на предметное знание и математическое рассуждение. Однако эти оценки упускают важнейший аспект машинного интеллекта: физическое обоснование, требующее интеграции предметных знаний, символьных операций и ограничений реального мира.
Решение физических задач принципиально отличается от чисто математических рассуждений, поскольку требует от моделей декодирования неявных условий в вопросах. Например, интерпретировать «гладкая поверхность» как нулевой коэффициент трения и поддерживать физическую согласованность в цепочках рассуждений, поскольку физические законы остаются неизменными независимо от траекторий рассуждений.
MLLM демонстрирует отличное визуальное понимание, интегрируя визуальные и текстовые данные в различных задачах, что мотивирует исследование его способностей к рассуждению. Однако остаётся неясным, обладают ли эти модели подлинными продвинутыми возможностями рассуждения для визуальных задач, особенно в физических областях, близких к реальным сценариям.
Появилось несколько бенчмарков для оценки способностей к рассуждению, причём PHYBench наиболее актуален для физического обоснования. Научные бенчмарки MLLM, такие как PhysReason и EMMA, содержат мультимодальные физические задачи с рисунками, однако они включают только небольшие подмножества физики, что неадекватно оценивает возможности MLLM для рассуждения и решения сложных физических задач.
Исследователи из Университета Гонконга, Мичиганского университета, Университета Торонто, Университета Ватерлоо и Университета штата Огайо предложили PHYX, новый тест для оценки способностей моделей к физическому обоснованию. Он включает 3000 вопросов по физике с визуальной основой, тщательно отобранных по шести различным областям физики: механике, электромагнетизму, термодинамике, волнам/акустике, оптике и современной физике.
PHYX оценивает обоснование на основе физики посредством мультимодального решения задач с тремя основными инновациями:
* 3000 недавно собранных вопросов с реалистичными физическими сценариями, требующими интегрированного визуального анализа и причинно-следственных рассуждений;
* Дизайн данных, проверенный экспертами и охватывающий шесть фундаментальных областей физики;
* Строгий унифицированный трёхэтапный протокол оценки.
Исследователи разработали четырёхэтапный процесс сбора данных для обеспечения высокого качества. Процесс начинается с углублённого обзора основных физических дисциплин для определения охвата различных областей и поддисциплин, за которым следует набор аспирантов STEM в качестве экспертов-аннотаторов. Они соблюдают ограничения авторских прав и избегают загрязнения данных, выбирая вопросы без ответов, которые доступны немедленно.
Кроме того, контроль качества включает трёхэтапный процесс очистки, включая обнаружение дубликатов с помощью анализа лексического перекрытия с ручным просмотром аспирантами-физиками, а затем фильтрацию 10% самых коротких вопросов на основе их текстовой длины, в результате чего из первоначальной коллекции в 3300 вопросов было получено 3000 высококачественных вопросов.
PHYX представляет значительные трудности для современных моделей, при этом даже эксперты-люди с наихудшими показателями достигают точности 75,6%, превосходя все оценённые модели и демонстрируя разрыв между человеческим опытом и возможностями современных моделей.
Тест показывает, что форматы с несколькими вариантами ответов сужают разрыв в производительности, позволяя более слабым моделям полагаться на поверхностные сигналы, но открытые вопросы требуют настоящего рассуждения и точного генерирования ответов.
Сравнение производительности GPT-4o на PHYX с ранее опубликованными результатами на MathVista и MATH-V (оба 63,8%) показывает, что физическое обоснование требует более глубокой интеграции абстрактных понятий и знаний реального мира, представляя более сложные задачи, чем чисто математический контекст.
В заключение исследователи представили PHYX, первый крупномасштабный тест для оценки физического обоснования в мультимодальных сценариях с визуальной основой. Тщательная оценка показывает, что современные модели имеют ограничения в физическом обосновании, полагаясь преимущественно на заученные знания, математические формулы и поверхностные визуальные закономерности, а не на подлинное понимание физических принципов.
Тест фокусируется исключительно на англоязычных подсказках и аннотациях, ограничивая оценку мультилингвальных способностей к рассуждению. Кроме того, хотя изображения изображают физически реалистичные сценарии, они часто схематичны или в стиле учебников, а не фотографий из реального мира, что может не полностью отражать сложность восприятия в естественных условиях.