Большие языковые модели (LLMs) генерируют пошаговые ответы, известные как «цепочка мыслей» (CoT), где каждый токен способствует созданию связного и логического повествования. Для повышения качества рассуждений применяются различные методы обучения с подкреплением. Эти методы позволяют модели учиться на основе механизмов обратной связи, сопоставляя сгенерированные выходные данные с критериями корректности.
Проблема равномерного отношения ко всем выходным токенам
По мере усложнения и увеличения возможностей LLM исследователи начали изучать внутреннюю структуру генерации токенов, чтобы выявить закономерности, которые улучшают или ограничивают производительность. Одной из областей, привлекающих внимание, является распределение энтропии токенов — измерение неопределённости в прогнозировании токенов, которое теперь связывают со способностью модели принимать осмысленные логические решения во время рассуждений.
Ключевой проблемой при обучении моделей рассуждений с помощью RLVR является одинаковое отношение ко всем выходным токенам. Когда модели оптимизируются с помощью RLVR, процесс обновления традиционно включает каждый токен в сгенерированной последовательности, независимо от его функциональной роли. Это равномерное отношение не позволяет отличить токены, которые приводят к значительным изменениям в рассуждениях, от тех, которые просто расширяют существующие лингвистические структуры.
В результате значительная часть ресурсов на обучение может быть направлена на токены, которые вносят минимальный вклад в возможности модели к рассуждению. Не уделяя приоритетного внимания нескольким токенам, которые играют решающую роль в навигации по различным логическим путям, эти методы упускают возможности для целенаправленной и эффективной оптимизации.
Методология Alibaba Inc. и Университета Цинхуа
Исследователи из Alibaba Inc. и Университета Цинхуа представили новую методологию, ориентированную на закономерности энтропии токенов. Они обнаружили, что в последовательностях CoT, генерируемых моделями Qwen3, примерно 20% токенов демонстрируют значительно более высокую энтропию. Эти токены, названные «разветвляющимися токенами», часто соответствуют моментам, когда модель должна выбрать между несколькими путями рассуждений. Остальные 80% токенов обычно демонстрируют низкую энтропию и действуют как расширения предыдущих утверждений.
Для количественной оценки энтропии токенов исследователи использовали формулу энтропии, основанную на распределении вероятностей по возможным вариантам выбора токенов на каждом шаге. Они обнаружили, что более половины всех сгенерированных токенов имели значения энтропии ниже 0,01, что указывает на почти детерминированное поведение. Только 20% превысили энтропию 0,672, что сделало их центрами принятия решений в рамках CoT.
Эксперименты с моделями Qwen3
Исследовательская группа провела обширные эксперименты на трёх моделях: Qwen3-8B, Qwen3-14B и Qwen3-32B. При обучении только 20% токенов с высокой энтропией модель Qwen3-32B достигла результата 63,5 в AIME’24 и 56,7 в AIME’25, установив новые эталоны производительности для моделей с менее чем 600 миллиардами параметров. Увеличение максимальной длины ответа с 20 тыс. до 29 тыс. повысило результат AIME’24 до 68,1.
В сравнении обучение на 80% токенов с низкой энтропией привело к значительному падению производительности. Модель Qwen3-14B показала прирост +4,79 в AIME’25 и +5,21 в AIME’24, в то время как Qwen3-8B сохранила конкурентоспособные результаты относительно обучения на всех токенах.
Основные выводы
- Около 20% токенов демонстрируют высокую энтропию и служат разветвляющимися точками, направляющими пути рассуждений.
- Обучение только на этих токенах с высокой энтропией обеспечивает производительность, равную или лучшую, чем обучение на полном наборе токенов.
- Qwen3-32B достигла результатов 63,5 в AIME’24 и 56,7 в AIME’25, превзойдя более крупные модели, обученные традиционным способом.
- Увеличение длины ответа с 20 тыс. до 29 тыс. дополнительно повысило результат AIME’24 до 68,1.
- Обучение на оставшихся 80% токенов с низкой энтропией привело к резкому снижению производительности.
- Сохранение 20% порога для токенов с высокой энтропией оптимально балансирует исследование и производительность.
- Более крупные модели выигрывают от этой стратегии из-за их способности извлекать выгоду из расширенного исследования.
- Стратегия хорошо масштабируется и может служить руководством для более эффективного обучения моделей рассуждения следующего поколения.
В заключение, это исследование эффективно переосмысливает применение обучения с подкреплением к языковым моделям, вводя акцент на энтропии на уровне токенов. Оптимизируя только меньшинство, влияющее на пути рассуждений, метод повышает производительность при одновременном снижении вычислительных затрат. Это обеспечивает практическую дорожную карту для будущих усилий по улучшению рассуждений в LLMs без излишней сложности.