Рефлексивное мышление в больших языковых моделях: как формируется и измеряется способность к самоанализу

Что отличает большие языковые модели (LLMs) от традиционных методов, так это их зарождающаяся способность к рефлексии — распознаванию ситуаций, когда что-то в их ответе не соответствует логике или фактам, и попытке это исправить. Эта способность, называемая рефлексией, отражает форму метапознания на машинном уровне. Её наличие свидетельствует о переходе от поверхностной обработки к более глубокому оценочному мышлению, что становится всё более важным в сложных многоэтапных задачах, таких как синтез кода и математическое рассуждение.

Центральная проблема языковых моделей заключается в определении момента их обучения, когда они демонстрируют способность размышлять о своём мышлении. Многие считают, что рефлексия возникает только после применения обучения с подкреплением после предварительного обучения. Однако рефлексия может появиться и раньше, во время самого предварительного обучения. Это поднимает проблему того, как последовательно и воспроизводимо обнаружить и измерить такие рефлексивные тенденции. Традиционные тесты часто не выявляют этого, поскольку не включают цепочки рассуждений с тонкими ошибками, требующими исправления. В результате модели редко оцениваются на предмет того, как они адаптируют свои выходные данные при столкновении с неверными или вводящими в заблуждение шаблонами рассуждений.

Для решения этой задачи было разработано несколько инструментов для оценки рассуждений, включая такие фреймворки для составления подсказок, как Chain of Thought («Цепочка мыслей») и Tree of Thought («Дерево мыслей»). Они основаны на наблюдении за конечными результатами или исследовании путей активации в архитектуре модели. Хотя эти методы полезны, они обычно исследуют модели после тонкой настройки или дополнительной оптимизации. Они упускают из виду, как рефлексивное поведение формируется органически на ранних этапах обучения модели. В большинстве оценок рефлексия рассматривается как явление, возникающее после обучения, и мало внимания уделяется её появлению на обширном и формирующем этапе предварительного обучения.

Исследователи из Essential AI в Сан-Франциско предложили уникальное решение для изучения этого пробела. Они разработали фреймворк, который измеряет ситуативную рефлексию и саморефлексию, используя намеренно повреждённые цепочки мыслей. Эти состязательные наборы данных охватывают шесть областей: кодирование, математические рассуждения, логический анализ и извлечение знаний. Наборы данных сконструированы таким образом, чтобы включать ошибки, имитирующие реалистичные ошибки, такие как ошибочная логика или неправильные расчёты, которые модель должна обнаружить и исправить. В проекте использовались модели из семейств OLMo-2 и Qwen2.5 с размером параметров от 0,5 миллиарда до 72 миллиардов. В подсказки были вставлены триггерные фразы типа «Подождите», чтобы побудить модель критически рассмотреть предоставленные рассуждения и ответить соответствующим образом.

Углубляясь в то, как работает механизм рефлексии, исследователи разделили его на явный и неявный. Явная рефлексия происходит, когда модель озвучивает своё осознание ошибки. Неявная рефлексия предполагается, когда модель приходит к правильному ответу, не признавая открыто об ошибке. Алгоритмы генерации наборов данных взяли правильные цепочки рассуждений из установленных тестов и внедрили небольшие, но критические ошибки. Для ситуативной рефлексии ошибки исходили от разных моделей. Для саморефлексии они возникали из-за неверных выходных данных модели. Затем для обнаружения признаков явной рефлексии в выходных данных использовался классификатор, обученный с помощью DeepSeek-V3, что позволяло точно различать два типа рефлексии.

Результаты моделей дали чёткое представление. Из 240 оценённых комбинаций контрольных точек набора данных в 231 имелись свидетельства ситуативной рефлексии, а в 154 был обнаружен хотя бы один пример саморефлексии. Пирсон-корреляция между точностью и предварительным вычислением достигла 0,76, что сигнализирует о тесной связи между интенсивностью вычислений и рефлексивным мышлением. В таких задачах, как GSM8K-Platinum, использование триггера «Подождите» значительно улучшило производительность, показывая, что даже простая подсказка может повысить точность модели, поощряя самоанализ. Во всех контрольных точках частота явной рефлексии увеличивалась с увеличением объёма обучения, что подтверждает утверждение о том, что рефлексия может быть развита во время предварительного обучения без необходимости дальнейшей тонкой настройки или обучения с подкреплением.

Из этой работы становится очевидным, что рефлексивное мышление — это не просто результат продвинутой оптимизации. Это способность, которая начинает формироваться во время фундаментального обучения языковых моделей. Разработав систему для измерения и поощрения этой способности, исследователи эффективно выделили новое измерение обучения моделей, которое может существенно повлиять на будущие разработки в области рассуждений и принятия решений ИИ.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *