В последние годы стремительный прогресс больших языковых моделей (LLM) создаёт впечатление, что мы близки к созданию искусственного общего интеллекта (ИОИ). Модели кажутся способными решать всё более сложные задачи. Однако остаётся фундаментальный вопрос: действительно ли LLM рассуждают как люди или просто повторяют шаблоны, выученные во время обучения?
С момента выпуска таких моделей, как GPT-3 и ChatGPT, LLM произвели революцию в исследовательской сфере, раздвигая границы в области искусственного интеллекта и науки. Повышение качества данных, масштабирование моделей и улучшение многоэтапного рассуждения приблизили LLM к прохождению высоких уровней тестов на ИОИ. Тем не менее их истинные способности к рассуждению до конца не изучены.
Примеры, когда продвинутые модели не могут решить простые математические задачи, несмотря на их кажущуюся простоту, вызывают опасения по поводу того, действительно ли они рассуждают или просто имитируют знакомые шаблоны решений. Хотя существуют различные тесты для оценки LLM в таких областях, как общие знания, программирование, математика и логическое мышление, многие из них основаны на задачах, решаемых с помощью заученных шаблонов. В результате фактический интеллект и надёжность LLM остаются спорными.
Исследования показывают, что LLM испытывают трудности с тонкими изменениями контекста, простыми вычислениями, символическим мышлением и нестандартными подсказками. Эти слабые стороны усиливаются в условиях помех или вводящих в заблуждение сигналов. Аналогично мультимодальные LLM, включая модели компьютерного зрения и языка, такие как GPT-4v и LLaVA, демонстрируют ту же тенденцию к воспроизведению, а не к рассуждению при тестировании с незначительно изменёнными визуальными или текстовыми входными данными. Это говорит о том, что такие проблемы, как ложные корреляции, запоминание и неэффективное декодирование, могут лежать в основе этих неудач, указывая на разрыв между наблюдаемой производительностью и истинным пониманием.
Исследователи из ByteDance Seed и Университета Иллинойса в Урбане-Шампейне представили RoR-Bench — новый мультимодальный тест, предназначенный для выявления того, полагаются ли LLM на воспроизведение, а не на истинное логическое мышление при решении простых задач с незначительно изменёнными условиями. Тест включает в себя 158 текстовых и 57 графических пар задач, каждая из которых представляет собой задание на базовое логическое мышление наряду с немного изменённой версией.
Эксперименты показывают, что ведущие модели, такие как OpenAI-o1 и DeepSeek-R1, испытывают резкое падение производительности — часто более чем на 60% при внесении незначительных изменений. Тревожно то, что большинство моделей не могут распознать неразрешимые задачи — предварительные исправления, такие как изменение подсказок, предлагают ограниченное улучшение, подчёркивая необходимость более глубоких решений.
RoR-Bench — это китайский мультимодальный тест, созданный для оценки того, полагаются ли LLM на запомненные шаблоны решений, а не на истинное логическое мышление. Он содержит 215 пар задач — 158 текстовых и 57 графических, где каждая пара включает в себя оригинальную и слегка изменённую версию. Оригинальные задачи просты, часто взяты из детских сборников головоломок, а изменённые вводят незначительные изменения, требующие совершенно иного подхода к решению. Аннотаторы позаботились о минимальных изменениях в формулировке и отсутствии двусмысленности. Примечательно, что некоторые задачи разработаны так, чтобы не иметь решения или содержать несвязанную информацию, проверяя способность LLM распознавать нелогичные условия и противостоять ответам, основанным на воспроизведении.
Исследование эмпирически оценивает ведущие LLM и VLM на основе теста RoR-Bench, сосредотачиваясь на их способности рассуждать при незначительных изменениях в задачах, а не просто вспоминать заученные шаблоны. Результаты показывают, что у большинства моделей значительно снижается производительность — часто более чем на 50% при тестировании на слегка изменённых задачах, что указывает на зависимость от запоминания, а не от истинного логического мышления. Даже такие приёмы, как Chain-of-Thought или «Forced Correct», обеспечивают ограниченное улучшение. Обучение с небольшим количеством примеров в контексте показывает некоторый прогресс, особенно при увеличении количества примеров или добавлении инструкций, но всё равно не устраняет разрыв. В целом, эти результаты подчёркивают ограничения текущих моделей в адаптивном рассуждении.
В заключение, исследование представляет RoR-Bench — китайский мультимодальный тест, предназначенный для выявления критического недостатка текущих больших языковых моделей: их неспособности справляться с простыми задачами на логическое мышление при незначительном изменении условий. Значительное снижение производительности — часто более чем на 50% — указывает на то, что эти модели полагаются на запоминание, а не на истинное логическое мышление. Даже с дополнительными подсказками или примерами проблема остаётся в значительной степени нерешённой. Хотя тест ограничен китайским языком, первоначальные результаты на английском языке указывают на аналогичные слабости. Полученные данные ставят под сомнение предположения об интеллекте LLM и призывают к дальнейшим исследованиям для разработки моделей, которые действительно способны рассуждать, а не просто воспроизводить заученные шаблоны из обучающих данных.
Добавить комментарий