Оптимизация логического вывода в системах искусственного интеллекта: как модели рассуждений учатся понимать свою правоту

Системы искусственного интеллекта добились значительных успехов в имитации рассуждений, характерных для человека, особенно в области математики и логики. Эти модели не просто генерируют ответы — они проходят через серию логических шагов для достижения выводов, предлагая понимание того, как и почему получаются эти ответы. Такое пошаговое рассуждение, часто называемое цепочкой мыслей (Chain-of-Thought, CoT), стало жизненно важным для того, как машины справляются со сложными задачами по решению проблем.

Одна из распространённых проблем, с которой сталкиваются исследователи при работе с этими моделями, — это неэффективность во время логического вывода. Модели, основанные на рассуждениях, часто продолжают обработку даже после достижения правильного заключения. Это чрезмерное обдумывание приводит к ненужному генерированию токенов, увеличивая вычислительные затраты. Остаётся неясным, есть ли у этих моделей внутреннее чувство правильности — понимают ли они, когда промежуточный ответ верный? Если бы они могли идентифицировать это внутренне, модели могли бы останавливать обработку раньше, становясь более эффективными без потери точности.

Многие современные подходы измеряют уверенность модели с помощью вербальных подсказок или анализа множества выходных данных. Эти методы «чёрного ящика» просят модель сообщить, насколько она уверена в своём ответе. Однако они часто неточны и требуют значительных вычислительных ресурсов. С другой стороны, методы «белого ящика» исследуют внутренние скрытые состояния моделей, чтобы извлечь сигналы, которые могут коррелировать с правильностью ответа. Предыдущие работы показывают, что внутреннее состояние модели может указывать на достоверность окончательных ответов, но применение этого к промежуточным шагам в длинных цепочках рассуждений всё ещё недостаточно изучено.

Исследование, представленное командой из Нью-Йоркского университета и NYU Shanghai, восполнило этот пробел, разработав лёгкуюProbe — простую двухслойную нейронную сеть — для проверки скрытых состояний модели на промежуточных этапах рассуждений. В экспериментах использовались модели серии DeepSeek-R1-Distill и QwQ-32B, известные своими возможностями пошагового рассуждения. Эти модели были протестированы на различных наборах данных, включающих математические и логические задачи. Исследователи обучили свою Probe читать внутреннее состояние, связанное с каждым фрагментом рассуждения, и предсказывать, правильный ли текущий промежуточный ответ.

Для построения своего подхода исследователи сначала разделили каждый длинный вывод CoT на более мелкие части или фрагменты, используя маркеры вроде «wait» («подожди») или «verify» («проверь»), чтобы определить перерывы в рассуждениях. Они использовали скрытое состояние последнего токена в каждом фрагменте как представление и сопоставили его с меткой правильности, которую оценивали с помощью другой модели. Эти представления затем использовались для обучения Probe задачам бинарной классификации. Probe была настроена с помощью поиска по сетке с такими гиперпараметрами, как скорость обучения и размер скрытого слоя. Большинство моделей пришли к линейным Probe, что указывает на то, что информация о правильности часто линейно встроена в скрытые состояния. Probe работала для полностью сформированных ответов и продемонстрировала способность предсказывать правильность ещё до того, как ответ был завершён, намекая на возможность прогнозирования.

Результаты работы были чёткими и количественными. Пробы достигли показателей ROC-AUC, превышающих 0,9 для некоторых наборов данных, таких как AIME, при использовании моделей вроде R1-Distill-Qwen-32B. Ожидаемая ошибка калибровки (ECE) оставалась ниже 0,1, показывая высокую надёжность. Например, у R1-Distill-Qwen-32B ECE составила всего 0,01 на наборе данных GSM8K и 0,06 на MATH. На практике Probe использовалась для реализации стратегии раннего выхода на основе уверенности во время логического вывода. Процесс рассуждения останавливался, когда уверенность Probe в ответе превышала пороговое значение. При пороге уверенности 0,85 точность оставалась на уровне 88,2%, а количество токенов логического вывода сократилось на 24%. Даже при пороге 0,9 точность сохранялась на уровне 88,6% при сокращении количества токенов на 19%. По сравнению со статическими методами выхода эта динамическая стратегия достигла точности на 5% выше, используя такое же или меньшее количество токенов.

Это исследование предлагает эффективный интегрированный способ самопроверки для моделей рассуждений во время логического вывода. Подход исследователей выявляет пробел — хотя модели интуитивно понимают, когда они правы, они не действуют соответственно. Исследование указывает путь к более умным и эффективным системам рассуждений, используя внутренние представления с помощью зондирования. Оно показывает, что использование того, что модель уже «знает», может привести к значимому повышению производительности и эффективности использования ресурсов.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *