Управление рассуждениями в LLM с помощью энтропии: чередование скрытого и явного цепочек рассуждений

SwiReasoning — это механизм, который позволяет LLM (large language model) решать, когда рассуждать в скрытом пространстве, а когда формировать явную цепочку рассуждений (explicit chain-of-thought), используя блочную уверенность, оценённую по тенденциям энтропии в распределениях следующих токенов. Метод не требует обучения, не зависит от модели и нацелен на достижение Парето-оптимального компромисса между точностью и эффективностью в задачах по математике и STEM.

Отчёты показывают улучшение точности в среднем на 1,5–2,8 % при неограниченном количестве токенов и повышение эффективности использования токенов в среднем на 56–79 % при ограниченном бюджете. На AIME’24/’25 метод достигает максимальной точности рассуждений раньше, чем стандартная цепочка рассуждений (CoT).

Что меняет SwiReasoning во время вывода?

Контроллер отслеживает энтропию следующего токена декодера, чтобы сформировать сигнал блочной уверенности. Когда уверенность низкая (энтропия имеет тенденцию к росту), включается скрытое рассуждение — модель продолжает рассуждать, не выдавая токены. Когда уверенность восстанавливается (энтропия имеет тенденцию к снижению), происходит переключение обратно на явное рассуждение, выдавая токены CoT для консолидации и выбора единственного пути.

Счётчик переключений ограничивает максимальное количество переходов между блоками рассуждений, чтобы подавить чрезмерные размышления перед окончательным ответом. Эта динамическая смена является основным механизмом, обеспечивающим заявленный прирост точности на токен.

Результаты: точность и эффективность на стандартных наборах

Отчёты об улучшениях в задачах по математике и STEM:
* Pass@1 (неограниченный бюджет): повышение точности до +2,8 % (математика) и +2,0 % (STEM) на рисунке 1 и в таблице 1, со средним повышением на 2,17 % по сравнению с базовыми показателями (CoT с выборкой, жадный CoT и Soft Thinking).
* Эффективность использования токенов (ограниченные бюджеты): среднее улучшение до +79 % (рисунок 2). Комплексное сравнение показывает, что SwiReasoning достигает наивысшей эффективности использования токенов в 13 из 15 оценок, со средним улучшением на 84 % по сравнению с CoT в этих настройках (рисунок 4).
* Динамика Pass@k: с Qwen3-8B на AIME 2024/2025 максимальные точности рассуждений достигаются в среднем на 50 % раньше, чем у CoT (рисунок 5), что указывает на более быструю сходимость к потолку с меньшим количеством выбранных траекторий.

Почему переключение помогает?

Явное CoT дискретно и читабельно, но преждевременно фиксирует единственный путь, что может отбросить полезные альтернативы. Скрытое рассуждение непрерывно и информационно ёмко на каждом шаге, но чисто скрытые стратегии могут рассеивать вероятностную массу и препятствовать сходимости.

SwiReasoning добавляет чередование, управляемое уверенностью: скрытые фазы расширяют исследование, когда модель не уверена; явные фазы используют растущую уверенность для закрепления решения и фиксируют токены только тогда, когда это выгодно.

Позиционирование по сравнению с базовыми показателями

Проект сравнивается с CoT с выборкой, жадным CoT и Soft Thinking, сообщая о среднем повышении точности на 2,17 % при неограниченных бюджетах (таблица 1) и о последовательных преимуществах по эффективности на токен при бюджетных ограничениях. Визуализированная Парето-граница смещается наружу — либо более высокая точность при том же бюджете, либо аналогичная точность с меньшим количеством токенов — в разных семействах моделей и масштабах.

Ключевые выводы

* Контроллер без обучения: SwiReasoning чередуется между скрытым рассуждением и явной цепочкой рассуждений, используя блочную уверенность, основанную на тенденциях энтропии в распределениях следующих токенов.
* Повышение эффективности: отчёты об улучшении эффективности использования токенов в среднем на 56–79 % при ограниченном бюджете по сравнению с CoT, с более значительными улучшениями по мере сокращения бюджета.
* Повышение точности: достижение повышения точности Pass@1 в среднем на 1,5–2,8 % на математических/STEM-тестах при неограниченном бюджете.
* Более быстрая сходимость: на AIME 2024/2025 достигает максимальной точности рассуждений раньше, чем CoT (улучшенная динамика Pass@k).

Редакционные комментарии

SwiReasoning — это полезный шаг к прагматическому контролю «политики рассуждений» во время декодирования: он не требует обучения, размещается за токенизатором и демонстрирует измеримые преимущества в математических/STEM-наборах, переключаясь между скрытым и явным CoT с использованием сигнала уверенности на основе тренда энтропии с ограниченным количеством переключений.

Реализация с открытым исходным кодом BSD и понятные флаги (—maxswitchcount, —alpha) упрощают репликацию и снижают барьер для объединения с ортогональными слоями эффективности (например, квантование, спекулятивное декодирование, трюки с KV-кэшем).

Ценность метода заключается в «точности на токен», а не в абсолютной точности, что важно для вывода в рамках бюджета и пакетной обработки.

1. Как работает механизм SwiReasoning и какие задачи он решает?

Механизм SwiReasoning позволяет LLM решать, когда рассуждать в скрытом пространстве, а когда формировать явную цепочку рассуждений. Контроллер отслеживает энтропию следующего токена декодера, чтобы сформировать сигнал блочной уверенности. Когда уверенность низкая (энтропия имеет тенденцию к росту), включается скрытое рассуждение. Когда уверенность восстанавливается (энтропия имеет тенденцию к снижению), происходит переключение обратно на явное рассуждение.

2. Какие преимущества даёт использование SwiReasoning по сравнению с другими методами рассуждений?

SwiReasoning демонстрирует измеримые преимущества в математических и STEM-наборах, достигая повышения точности Pass@1 в среднем на 1,5–2,8% при неограниченном бюджете и улучшая эффективность использования токенов в среднем на 56–79% при ограниченном бюджете по сравнению с CoT. Кроме того, метод обеспечивает более быструю сходимость к максимальной точности рассуждений.

3. Какие параметры используются для настройки работы SwiReasoning?

Для настройки работы SwiReasoning используются параметры, такие как счётчик переключений, который ограничивает максимальное количество переходов между блоками рассуждений. Это помогает подавить чрезмерные размышления перед окончательным ответом. Также используются флаги, например, —maxswitchcount и —alpha, для упрощения репликации и объединения с другими методами повышения эффективности.

4. В чём заключается ценность метода SwiReasoning для практических задач?

Ценность метода заключается в «точности на токен», а не в абсолютной точности. Это важно для вывода в рамках бюджета и пакетной обработки, что делает SwiReasoning полезным инструментом для решения практических задач.

5. Какие перспективы открывает использование SwiReasoning в будущем?

Использование SwiReasoning открывает перспективы для прагматического контроля «политики рассуждений» во время декодирования. Это может упростить интеграцию с другими методами повышения эффективности, такими как квантование, спекулятивное декодирование и трюки с KV-кэшем.

Источник