Как на самом деле рассуждают большие языковые модели? Система для отделения логики от знаний

Разбор рассуждений в современных больших языковых моделях: почему одних конечных ответов недостаточно

Недавние достижения в области больших языковых моделей (LLM), ориентированных на рассуждения, таких как OpenAI’s o1/3 и DeepSeek-R1, привели к заметным улучшениям в решении сложных задач. Однако пошаговые рассуждения, лежащие в основе этих моделей, остаются неясными.

Большинство оценок фокусируется на точности конечных ответов, что скрывает процесс рассуждения и не показывает, как модели сочетают знания и логику. Некоторые ранние методы пытаются измерить рассуждения путём сравнения ответов с исходным вопросом, но этот подход несовершенен, поскольку модели часто полагаются на предыдущие выводы или внутренние знания.

Недостатки оценки по конечным ответам в математике и медицине

Современные LLM добились впечатляющих успехов в задачах, требующих рассуждений, особенно в математике и медицине, благодаря улучшению обучающих данных и стратегиям вознаграждения. Однако большая часть этого прогресса сосредоточена на повышении точности конечных ответов, а не на понимании того, как модель рассуждает шаг за шагом.

Прошлые работы выявляли фактические ошибки в цепочках рассуждений или измеряли сходство между шагами рассуждений и исходным вопросом. Но такое сходство не гарантирует логической обоснованности или фактической правильности, поскольку LLM часто опираются на внутренние знания или предыдущие рассуждения.

Новая система для разделения знаний и логики в рассуждениях LLM

Исследователи из Калифорнийского университета в Санта-Крузе, Стэнфорда и университета Тунцзи выходят за рамки оценки по конечным ответам, разбивая рассуждения LLM на две ключевые части: фактические знания и логические шаги. Они вводят подробную систему, использующую две метрики: индекс знаний (KI) для фактической точности и прирост информации (InfoGain) для качества рассуждений.

Их анализ моделей Qwen в математике и медицинских задачах показывает, что навыки рассуждения нелегко переносятся между областями. Хотя контролируемая тонкая настройка улучшает точность, она часто вредит глубине рассуждений. Обучение с подкреплением, однако, помогает усовершенствовать рассуждения, удаляя нерелевантную информацию.

Оценка рассуждений с моделями Qwen2.5-7B и DeepSeek-R1

Исследователи оценивают рассуждения в LLM, анализируя Qwen2.5-7B и его дистиллированную версию DeepSeek-R1, обученную с помощью SFT и RL. Используя задачи из области математики и медицины, они разбивают ответы на логические шаги и оценивают их по двум ключевым метрикам: прирост информации (сколько неопределённости устраняется с каждым шагом рассуждения) и индекс знаний (насколько фактические данные каждого шага точны, проверено по экспертным источникам).

Контролируемая тонкая настройка против обучения с подкреплением в задачах, специфичных для предметной области

Исследование оценивает два варианта Qwen-2.5-7B — Qwen-Base и дистиллированный Qwen-R1 — на медицинских задачах. Результаты показывают, что Qwen-Base последовательно превосходит Qwen-R1 по точности, сохранению знаний и рассуждениям, особенно после SFT и RL. Дистиллированная модель, вероятно, испытывает трудности из-за предшествующего обучения, ориентированного на математику и код, что приводит к несоответствию предметной области.

Заключение: на пути к более интерпретируемым и заслуживающим доверия LLM

В заключение, исследование представляет систему, которая отделяет знания от рассуждений, чтобы лучше оценить, как LLM мыслят, особенно в таких важных областях, как медицина и математика. Используя модели Qwen, обученные с помощью SFT и RL, исследователи обнаружили, что, хотя SFT улучшает фактическую точность, важную в медицине, она часто ослабляет рассуждения. RL, однако, улучшает рассуждения, удаляя неверную информацию.

Систему можно расширить на такие области, как право или финансы, где структурированное мышление имеет решающее значение. В целом, такой подход помогает прояснить, как LLM принимают решения, и предлагает способы адаптации их обучения для конкретных областей.

Источник

Оставьте комментарий