Исследователи Apple обнаружили структурные сбои в больших моделях рассуждений с помощью оценки на основе головоломок

Искусственный интеллект претерпел значительный переход от базовых языковых моделей к продвинутым моделям, ориентированным на задачи рассуждения. Эти новые системы, известные как большие модели рассуждений (LRMs), представляют собой класс инструментов, предназначенных для имитации человеческого мышления путём выработки промежуточных шагов рассуждения перед тем, как прийти к выводам.

Фокус сместился с генерации точных результатов на понимание процесса, который приводит к этим ответам. Этот сдвиг поднял вопросы о том, как эти модели справляются с задачами многоуровневой сложности и действительно ли они обладают способностями к рассуждению или просто используют шаблоны обучения для угадывания результатов.

Переосмысление оценки: выход за рамки точности окончательного ответа

Традиционные тесты в основном оценивают конечный ответ, не рассматривая шаги, с помощью которых он был получен. Точность конечного ответа сама по себе не раскрывает качество внутреннего рассуждения, а многие тесты загрязнены данными, которые могли быть замечены во время обучения. Это создаёт искажённое представление об истинных возможностях модели.

Для исследования фактического рассуждения исследователям требуются среды, в которых сложность задачи можно точно контролировать и анализировать промежуточные шаги. Без таких настроек трудно определить, могут ли эти модели обобщать решения или просто запоминают шаблоны.

Методика оценки

Исследовательская группа Apple разработала установку с использованием четырёх сред головоломок: «Башня Ханоя», «Переправа через реку», «Шашки», «Мир блоков». Эти головоломки позволяют точно манипулировать сложностью, изменяя такие элементы, как количество дисков, шашек или задействованных агентов. Каждая задача требует различных способностей к рассуждению, таких как удовлетворение ограничений и последовательное планирование.

Важно, что эти среды свободны от типичного загрязнения данных, что позволяет тщательно проверять как результаты, так и промежуточные этапы рассуждения. Этот метод обеспечивает детальное исследование того, как модели ведут себя при различных требованиях к задачам.

Исследование представило сравнительный анализ с использованием двух наборов моделей: Claude 3.7 Sonnet и DeepSeek-R1, а также их «думающих» вариантов и стандартных аналогов LLM. Эти модели были протестированы на головоломках в одинаковых условиях для измерения точности и эффективности рассуждений. Это помогло выявить сдвиги в производительности при низкой, средней и высокой сложности задач.

Одним из наиболее показательных наблюдений стало формирование трёх зон производительности. В простых задачах нерассуждающие модели превосходили варианты с рассуждениями. При средней сложности модели с рассуждениями получили преимущество, в то время как оба типа полностью потерпели неудачу при максимальной сложности.

Сравнительный анализ: модели с рассуждениями и без них в условиях стресса

Углублённый анализ показал, что усилия по рассуждению увеличивались с усложнением задачи до определённого момента, но затем снижались, несмотря на наличие ресурсов. Например, в «Башне Ханоя» Claude 3.7 Sonnet (думающий) поддерживал высокую точность до тех пор, пока сложность не достигла определённого порога, после чего производительность упала до нуля.

Даже когда этим моделям были предоставлены явные алгоритмы решения, они не смогли выполнить шаги за пределами определённых уровней сложности. В одном случае Claude 3.7 смог правильно выполнить около 100 шагов для «Башни Ханоя», но не смог выполнить более простые задачи «Переправы через реку», требующие всего 11 ходов при $N = 3$. Эта несогласованность обнажила серьёзные ограничения в символической манипуляции и точных вычислениях.

Ограничения масштабирования и коллапс рассуждений

Это исследование представляет трезвую оценку того, как работают современные системы управления учебными ресурсами (LRMs). Исследование Apple показывает, что, несмотря на некоторый прогресс, сегодняшние модели рассуждений всё ещё далеки от достижения обобщённого рассуждения. Работа определяет, как масштабируется производительность, где она падает и почему чрезмерная зависимость от точности тестов не позволяет уловить более глубокое поведение в процессе рассуждения.

Контролируемые среды с головоломками оказались мощным инструментом для выявления скрытых слабостей в этих системах и подчёркивания необходимости более надёжных разработок в будущем.

Источник

Оставьте комментарий