Новое исследование Google в области ИИ предлагает использовать коэффициент глубокого мышления для повышения точности LLM при сокращении общих затрат на вывод вдвое

В последние несколько лет в мире ИИ действовало простое правило: если вы хотите, чтобы большая языковая модель (LLM) решала более сложную задачу, сделайте её цепочку рассуждений (CoT) длиннее. Однако новое исследование Университета Вирджинии и Google доказывает, что «долгое размышление» — это не то же самое, что «серьёзное размышление».

Провал «максимизации токенов»

Инженеры часто используют количество токенов как косвенный показатель усилий, которые ИИ прикладывает к задаче. Однако исследователи обнаружили, что количество токенов в среднем имеет корреляцию r = -0,59 с точностью.

Это отрицательное число означает, что чем больше текста генерирует модель, тем выше вероятность ошибки. Это происходит из-за «переосмысления», когда модель застревает в циклах, повторяет избыточные шаги или усиливает свои собственные ошибки. Опора только на длину приводит к напрасной трате вычислительных ресурсов на малоинформативные токены.

Что такое токены глубокого мышления?

Исследовательская группа утверждает, что настоящее «размышление» происходит внутри слоёв модели, а не только в окончательном выводе. Когда модель предсказывает токен, она обрабатывает данные через серию слоёв-трансформеров (L).

  • Поверхностные токены: для простых слов прогноз модели стабилизируется на ранней стадии. «Угадать» не сильно меняется от слоя 5 к слою 36.

  • Токены глубокого мышления: для сложных логических или математических символов прогноз значительно меняется в более глубоких слоях.

Как измерить глубину

Чтобы определить эти токены, исследовательская группа использует технику, позволяющую заглянуть во внутренние «черновики» модели на каждом слое. Они проецируют промежуточные скрытые состояния (htl) в пространство словаря, используя матрицу неупаковки модели (WU). Это создаёт вероятностное распределение (pt,l) для каждого слоя.

Затем они вычисляют дивергенцию Дженсена — Шеннона (JSD) между распределением промежуточного слоя и распределением конечного слоя (pt,L):

$D{t,l} := JSD(p{t,L} || p_{t,l})$

Токен является токеном глубокого мышления, если его прогноз стабилизируется только в «позднем режиме», определяемом долей глубины (⍴). В своих тестах они установили ⍴ = 0,85, что означает, что токен стабилизировался только в последних 15% слоёв.

Коэффициент глубокого мышления (DTR) — это процент этих «сложных» токенов в полной последовательности. В моделях, таких как DeepSeek-R1-70B, Qwen3-30B-Thinking и GPT-OSS-120B, DTR показал сильную среднюю положительную корреляцию r = 0,683 с точностью.

Think@n: более высокая точность при сокращении затрат на 50%

Исследовательская группа использовала этот инновационный подход для создания Think@n — нового способа масштабирования производительности ИИ во время логического вывода.

Большинство разработчиков используют самосогласованность (Cons@n), когда они выбирают лучший ответ из 48 различных ответов путём голосования. Это очень дорого, потому что вам нужно сгенерировать каждый токен для каждого ответа.

Think@n меняет правила игры, используя «раннее прекращение»:

1. Модель начинает генерировать несколько вариантов ответов.
2. После всего лишь 50 префиксных токенов система вычисляет DTR для каждого кандидата.
3. Она немедленно прекращает генерацию «бесперспективных» кандидатов с низким DTR.
4. Она завершает только кандидатов с высокими показателями глубокого мышления.

Результаты на AIME 2025

| Метод | Точность | Средняя стоимость (тыс. токенов) |
| — | — | — |
| Cons@n (голосование большинства) | 92,7% | 307,6 |
| Think@n (выбор на основе DTR) | 94,7% | 155,4 |

На математическом бенчмарке AIME 25 Think@n достиг более высокой точности, чем стандартное голосование, при одновременном сокращении затрат на вывод на 49%.

Ключевые выводы

  • Количество токенов — плохой предиктор точности: сырая длина вывода имеет среднюю отрицательную корреляцию (r = -0,59) с производительностью, что означает, что более длинные цепочки рассуждений часто сигнализируют о «переосмыслении», а не о более высоком качестве.

  • Токены глубокого мышления определяют настоящие усилия: в отличие от простых токенов, которые стабилизируются в ранних слоях, токены глубокого мышления — это те, чьи внутренние прогнозы претерпевают значительные изменения в более глубоких слоях модели перед сходимостью.

  • Коэффициент глубокого мышления (DTR) — это превосходный показатель: DTR измеряет долю токенов глубокого мышления в последовательности и демонстрирует устойчивую положительную корреляцию с точностью (средняя r = 0,683), последовательно превосходя показатели, основанные на длине или уверенности.

  • Think@n обеспечивает эффективное масштабирование во время тестирования: отдавая приоритет и завершая только выборки с высокими показателями глубокого мышления, стратегия Think@n соответствует или превосходит производительность стандартного голосования большинства (Cons@n).

  • Значительное сокращение затрат за счёт раннего прекращения: поскольку DTR можно оценить по короткому префиксу всего из 50 токенов, малоперспективные генерации могут быть отклонены на ранней стадии, что снижает общие затраты на вывод примерно на 50%.

1. Почему количество токенов не всегда является надёжным показателем точности работы большой языковой модели?

Ответ: количество токенов имеет среднюю отрицательную корреляцию (r = -0,59) с производительностью, что означает, что более длинные цепочки рассуждений часто сигнализируют о «переосмыслении», а не о более высоком качестве. Это происходит из-за «переосмысления», когда модель застревает в циклах, повторяет избыточные шаги или усиливает свои собственные ошибки.

2. Что такое токены глубокого мышления и как они отличаются от поверхностных токенов?

Ответ: токены глубокого мышления — это те, чьи внутренние прогнозы претерпевают значительные изменения в более глубоких слоях модели перед сходимостью. В отличие от них, поверхностные токены для простых слов прогноз модели стабилизируется на ранней стадии.

3. Как коэффициент глубокого мышления (DTR) помогает повысить точность работы больших языковых моделей?

Ответ: коэффициент глубокого мышления (DTR) измеряет долю токенов глубокого мышления в последовательности и демонстрирует устойчивую положительную корреляцию с точностью (средняя r = 0,683), последовательно превосходя показатели, основанные на длине или уверенности.

4. В чём заключается преимущество метода Think@n перед традиционным самосогласованием (Cons@n)?

Ответ: Think@n использует «раннее прекращение», чтобы сократить затраты на вывод примерно на 50%. Метод начинает генерировать несколько вариантов ответов, после 50 префиксных токенов система вычисляет DTR для каждого кандидата и прекращает генерацию «бесперспективных» кандидатов с низким DTR. Это позволяет сосредоточиться на выборке с высокими показателями глубокого мышления, что соответствует или превосходит производительность стандартного голосования большинства (Cons@n).

5. Какие результаты были получены при использовании метода Think@n на математическом бенчмарке AIME 2025?

Ответ: на математическом бенчмарке AIME 25 Think@n достиг более высокой точности, чем стандартное голосование, при одновременном сокращении затрат на вывод на 49%. Точность составила 94,7%, а средняя стоимость — 155,4 тыс. токенов.

Источник