Большие модели рассуждений, часто основанные на больших языковых моделях, всё чаще используются для решения сложных задач в математике, научном анализе и генерации кода. Основная идея заключается в имитации двух типов мышления: быстрых ответов для простых рассуждений и обдуманных, более медленных размышлений для более сложных задач. Это двоякое мышление отражает то, как люди переходят от интуитивных реакций к аналитическому мышлению в зависимости от сложности задачи, и является принципом, лежащим в основе инноваций в области когнитивного моделирования и фреймворков рассуждений в ИИ.
Однако существует постоянная проблема, связанная с неспособностью модели саморегулировать переходы между быстрым и медленным мышлением. Вместо того чтобы соответствовать требованиям задачи, модели склонны придерживаться фиксированных шаблонов, что приводит либо к преждевременным выводам, либо к избыточной обработке данных. Эта неэффективность особенно заметна при выполнении задач, требующих тонкого баланса между обдумыванием и быстротой. Неспособность оптимизировать этот переход ограничивает точность рассуждений этих моделей, часто приводя к ошибкам или ненужным вычислениям, особенно в приложениях с высокими ставками, таких как решение конкурсных математических задач или анализ кода в реальном времени.
Для решения этой проблемы были предложены подходы масштабирования во время тестирования. Стратегии параллельного масштабирования используют несколько выходов модели и затем выбирают лучший с помощью таких показателей, как самосогласованность или перплексия. В отличие от этого, последовательное масштабирование изменяет способ рассуждений модели с течением времени, ограничивая или поощряя формирование длительных цепочек мыслей.
Исследователи из Университета Иллинойса в Урбане-Шампейне и Калифорнийского университета в Беркли представили ALPHAONE, который предлагает новую систему модуляции для управления динамикой рассуждений во время тестирования. ALPHAONE вводит понятие «альфа-момента», управляемого универсальным параметром α, который определяет, когда модель переходит от медленного к быстрому мышлению. Этот фреймворк модифицирует процесс рассуждений, регулируя как продолжительность, так и структуру мышления, позволяя унифицировать и расширить предыдущие методы с помощью более адаптируемой стратегии для решения сложных задач.
Механизм разделён на две основные фазы. В пред-альфа-фазе ALPHAONE инициирует медленное мышление, используя вероятностный график, который вставляет токен «wait» после структурных разрывов, таких как «\n\n», управляемый процессом Бернулли. Эта вставка не является статичной, а основана на пользовательской функции, которая корректируется со временем — например, с использованием линейного шаблона отжига для постепенного снижения медленного мышления. Как только модель достигает альфа-момента, начинается пост-альфа-фаза, в которой токены «wait» заменяются явным токеном конца мышления «». Это обеспечивает решительный переход к быстрому мышлению, смягчая инерцию, вызванную продолжительным медленным мышлением, и позволяя эффективно генерировать ответы.
Результаты
ALPHAONE продемонстрировал превосходные результаты на шести бенчмарках в математике, науке и генерации кода. Например, используя модель DeepSeek-R1-Distill-Qwen-1.5B, ALPHAONE повысил точность в AMC23 с 57,5 % до 70,0 %, одновременно сократив среднюю длину токена с 5339 до 4952. Аналогичные результаты были отмечены и с более крупными моделями: с моделью 7B производительность на OlympiadBench выросла с 50,4 % до 55,7 %, а с моделью 32B Qwen QwQ производительность в AIME24 подскочила с 40,0 % до 53,3 %. В среднем по всем моделям и задачам ALPHAONE повысил точность на +6,15 % и использовал меньше токенов по сравнению со стандартными моделями и другими базовыми моделями, такими как S1 и Chain of Draft.
Эти результаты подтверждают, что управление потоком между медленным и быстрым мышлением имеет решающее значение для достижения более высокой производительности при решении сложных задач. ALPHAONE открывает масштабируемый и эффективный путь вперёд для моделей рассуждений, позволяя структурированно модулировать рассуждения с помощью универсальной системы. Подход демонстрирует, как продуманное планирование когнитивного поведения в ИИ может принести практическую, измеримую пользу в производительности и эффективности использования ресурсов.