Почему критика Apple в отношении рассуждений ИИ преждевременна

Дебаты о способности больших моделей рассуждений (LRMs) к логическим выводам недавно активизировались благодаря двум противоречивым статьям: «Иллюзия мышления» от Apple и ответная статья Anthropic под названием «Иллюзия иллюзии мышления».

В статье Apple утверждается, что у LRMs есть фундаментальные ограничения в способности к логическим рассуждениям. В то же время Anthropic утверждает, что эти выводы обусловлены скорее недостатками оценки, чем сбоями в работе моделей.

Исследование Apple

Исследование Apple систематически тестировало LRMs в контролируемой среде с головоломками, обнаружив «крах точности» за пределами определённых порогов сложности. Такие модели, как Claude-3.7 Sonnet и DeepSeek-R1, не смогли решить такие головоломки, как «Башня Ханоя» и «Переправа через реку», при увеличении сложности. При этом наблюдалось снижение усилий по рассуждению (использования токенов) при более высокой сложности.

Apple определила три различных режима сложности:
* стандартные LLMs превосходят LRMs при низкой сложности;
* LRMs превосходят при средней сложности;
* обе модели терпят неудачу при высокой сложности.

Критически важно, что в своих оценках Apple пришла к выводу: ограничения LRMs связаны с их неспособностью применять точные вычисления и последовательные алгоритмические рассуждения при решении головоломок.

Критика Anthropic

Однако Anthropic резко оспаривает выводы Apple, указывая на критические недостатки в экспериментальном дизайне, а не в самих моделях. Они выделяют три основные проблемы:

1. Ограничения по токенам против логических сбоев. Anthropic подчёркивает, что сбои, наблюдаемые в экспериментах Apple с «Башней Ханоя», были в основном связаны с ограничениями по выходным токенам, а не с недостатками в рассуждениях. Модели явно указали на свои ограничения по токенам, намеренно усекая свои выходные данные. Таким образом, то, что выглядело как «крах рассуждений», было по сути практическим ограничением, а не когнитивным сбоем.

2. Неправильная классификация сбоев в рассуждениях. Anthropic отмечает, что автоматизированная система оценки Apple неверно интерпретировала намеренные усечения как сбои в рассуждениях. Этот жёсткий метод оценки не учитывал осознание моделями и принятие решений относительно длины выходных данных, что приводило к несправедливому наказанию LRMs.

3. Неразрешимые проблемы, неверно интерпретированные. Возможно, наиболее существенно то, что Anthropic демонстрирует: некоторые из тестов Apple на «Переправу через реку» математически невозможно было решить (например, случаи с шестью или более людьми при вместимости лодки в три человека). Оценка этих неразрешимых задач как неудач резко исказила результаты, создав впечатление, что модели не способны решать принципиально неразрешимые головоломки.

Anthropic также протестировал альтернативный метод представления — попросил модели предоставить краткие решения (например, функции Lua) — и обнаружил высокую точность даже для сложных головоломок, ранее обозначенных как неудачи. Этот результат ясно указывает на то, что проблема заключалась в методах оценки, а не в способности к рассуждениям.

Выводы

Обе статьи вносят значительный вклад в понимание LRMs, но напряжённость между их выводами подчёркивает критический пробел в текущих практиках оценки ИИ. Заключение Apple о том, что LRMs по своей природе не обладают надёжным, обобщаемым мышлением, существенно ослаблено критикой Anthropic. Вместо этого выводы Anthropic предполагают, что LRMs ограничены их тестовыми средами и системами оценки, а не их внутренними способностями к рассуждению.

Учитывая эти выводы, будущие исследования и практические оценки LRMs должны:
* чётко различать рассуждения и практические ограничения;
* проверять решаемость задач;
* совершенствовать метрики сложности;
* исследовать различные форматы решений.

В конечном счёте, утверждение Apple о том, что LRMs «не могут рассуждать», кажется преждевременным. Ответ Anthropic демонстрирует, что LRMs действительно обладают сложными способностями к рассуждению, которые могут справиться со значительными когнитивными задачами при правильной оценке. Однако это также подчёркивает важность тщательных, детальных методов оценки, чтобы по-настоящему понять возможности и ограничения новых моделей ИИ.

Источник

Оставьте комментарий