В последние несколько лет в мире ИИ действовало простое правило: если вы хотите, чтобы большая языковая модель (LLM) решала более сложную задачу, сделайте её цепочку рассуждений (CoT) длиннее. Однако новое исследование Университета Вирджинии и Google доказывает, что «долгое размышление» — это не то же самое, что «серьёзное размышление».
Провал «максимизации токенов»
Инженеры часто используют количество токенов как косвенный показатель усилий, которые ИИ прикладывает к задаче. Однако исследователи обнаружили, что количество токенов в среднем имеет корреляцию r = -0,59 с точностью.
Это отрицательное число означает, что чем больше текста генерирует модель, тем выше вероятность ошибки. Это происходит из-за «переосмысления», когда модель застревает в циклах, повторяет избыточные шаги или усиливает свои собственные ошибки. Опора только на длину приводит к напрасной трате вычислительных ресурсов на малоинформативные токены.
Что такое токены глубокого мышления?
Исследовательская группа утверждает, что настоящее «размышление» происходит внутри слоёв модели, а не только в окончательном выводе. Когда модель предсказывает токен, она обрабатывает данные через серию слоёв-трансформеров (L).
- Поверхностные токены: для простых слов прогноз модели стабилизируется на ранней стадии. «Угадать» не сильно меняется от слоя 5 к слою 36.
- Токены глубокого мышления: для сложных логических или математических символов прогноз значительно меняется в более глубоких слоях.
Как измерить глубину
Чтобы определить эти токены, исследовательская группа использует технику, позволяющую заглянуть во внутренние «черновики» модели на каждом слое. Они проецируют промежуточные скрытые состояния (htl) в пространство словаря, используя матрицу неупаковки модели (WU). Это создаёт вероятностное распределение (pt,l) для каждого слоя.
Затем они вычисляют дивергенцию Дженсена — Шеннона (JSD) между распределением промежуточного слоя и распределением конечного слоя (pt,L):
$D{t,l} := JSD(p{t,L} || p_{t,l})$
Токен является токеном глубокого мышления, если его прогноз стабилизируется только в «позднем режиме», определяемом долей глубины (⍴). В своих тестах они установили ⍴ = 0,85, что означает, что токен стабилизировался только в последних 15% слоёв.
Коэффициент глубокого мышления (DTR) — это процент этих «сложных» токенов в полной последовательности. В моделях, таких как DeepSeek-R1-70B, Qwen3-30B-Thinking и GPT-OSS-120B, DTR показал сильную среднюю положительную корреляцию r = 0,683 с точностью.
Think@n: более высокая точность при сокращении затрат на 50%
Исследовательская группа использовала этот инновационный подход для создания Think@n — нового способа масштабирования производительности ИИ во время логического вывода.
Большинство разработчиков используют самосогласованность (Cons@n), когда они выбирают лучший ответ из 48 различных ответов путём голосования. Это очень дорого, потому что вам нужно сгенерировать каждый токен для каждого ответа.
Think@n меняет правила игры, используя «раннее прекращение»:
1. Модель начинает генерировать несколько вариантов ответов.
2. После всего лишь 50 префиксных токенов система вычисляет DTR для каждого кандидата.
3. Она немедленно прекращает генерацию «бесперспективных» кандидатов с низким DTR.
4. Она завершает только кандидатов с высокими показателями глубокого мышления.
Результаты на AIME 2025
| Метод | Точность | Средняя стоимость (тыс. токенов) |
| — | — | — |
| Cons@n (голосование большинства) | 92,7% | 307,6 |
| Think@n (выбор на основе DTR) | 94,7% | 155,4 |
На математическом бенчмарке AIME 25 Think@n достиг более высокой точности, чем стандартное голосование, при одновременном сокращении затрат на вывод на 49%.
Ключевые выводы
- Количество токенов — плохой предиктор точности: сырая длина вывода имеет среднюю отрицательную корреляцию (r = -0,59) с производительностью, что означает, что более длинные цепочки рассуждений часто сигнализируют о «переосмыслении», а не о более высоком качестве.
- Токены глубокого мышления определяют настоящие усилия: в отличие от простых токенов, которые стабилизируются в ранних слоях, токены глубокого мышления — это те, чьи внутренние прогнозы претерпевают значительные изменения в более глубоких слоях модели перед сходимостью.
- Коэффициент глубокого мышления (DTR) — это превосходный показатель: DTR измеряет долю токенов глубокого мышления в последовательности и демонстрирует устойчивую положительную корреляцию с точностью (средняя r = 0,683), последовательно превосходя показатели, основанные на длине или уверенности.
- Think@n обеспечивает эффективное масштабирование во время тестирования: отдавая приоритет и завершая только выборки с высокими показателями глубокого мышления, стратегия Think@n соответствует или превосходит производительность стандартного голосования большинства (Cons@n).
- Значительное сокращение затрат за счёт раннего прекращения: поскольку DTR можно оценить по короткому префиксу всего из 50 токенов, малоперспективные генерации могут быть отклонены на ранней стадии, что снижает общие затраты на вывод примерно на 50%.
1. Почему количество токенов не всегда является надёжным показателем точности работы большой языковой модели?
Ответ: количество токенов имеет среднюю отрицательную корреляцию (r = -0,59) с производительностью, что означает, что более длинные цепочки рассуждений часто сигнализируют о «переосмыслении», а не о более высоком качестве. Это происходит из-за «переосмысления», когда модель застревает в циклах, повторяет избыточные шаги или усиливает свои собственные ошибки.
2. Что такое токены глубокого мышления и как они отличаются от поверхностных токенов?
Ответ: токены глубокого мышления — это те, чьи внутренние прогнозы претерпевают значительные изменения в более глубоких слоях модели перед сходимостью. В отличие от них, поверхностные токены для простых слов прогноз модели стабилизируется на ранней стадии.
3. Как коэффициент глубокого мышления (DTR) помогает повысить точность работы больших языковых моделей?
Ответ: коэффициент глубокого мышления (DTR) измеряет долю токенов глубокого мышления в последовательности и демонстрирует устойчивую положительную корреляцию с точностью (средняя r = 0,683), последовательно превосходя показатели, основанные на длине или уверенности.
4. В чём заключается преимущество метода Think@n перед традиционным самосогласованием (Cons@n)?
Ответ: Think@n использует «раннее прекращение», чтобы сократить затраты на вывод примерно на 50%. Метод начинает генерировать несколько вариантов ответов, после 50 префиксных токенов система вычисляет DTR для каждого кандидата и прекращает генерацию «бесперспективных» кандидатов с низким DTR. Это позволяет сосредоточиться на выборке с высокими показателями глубокого мышления, что соответствует или превосходит производительность стандартного голосования большинства (Cons@n).
5. Какие результаты были получены при использовании метода Think@n на математическом бенчмарке AIME 2025?
Ответ: на математическом бенчмарке AIME 25 Think@n достиг более высокой точности, чем стандартное голосование, при одновременном сокращении затрат на вывод на 49%. Точность составила 94,7%, а средняя стоимость — 155,4 тыс. токенов.