Большие языковые модели (LLMs) изменили подход к рассуждениям в сфере искусственного интеллекта. Методы параллельного мышления и самосогласованности часто называют ключевыми достижениями. Однако эти методы сталкиваются с фундаментальным компромиссом: выборка множества путей рассуждений повышает точность, но требует значительных вычислительных затрат.
Команда исследователей из Meta AI и UCSD представляет Deep Think with Confidence (DeepConf) — новый подход к искусственному интеллекту, который почти устраняет этот компромисс. DeepConf обеспечивает высочайшую производительность рассуждений с существенным повышением эффективности, достигая, например, 99,9% точности на изнурительном математическом конкурсе AIME 2025, используя модель с открытым исходным кодом GPT-OSS-120B, при этом требуя до 85% меньшего количества генерируемых токенов по сравнению с традиционными методами параллельного мышления.
Почему DeepConf?
Параллельное мышление (самосогласованность с мажоритарным голосованием) является стандартом де-факто для повышения качества рассуждений LLM: генерируются несколько вариантов решений, затем выбирается наиболее распространённый ответ. Хотя этот метод эффективен, его отдача снижается — точность выходит на плато или даже снижается по мере выборки большего количества путей, поскольку низкокачественные пути рассуждений могут ослабить голосование. Более того, генерация сотен или тысяч следов на запрос обходится дорого как по времени, так и по вычислительным ресурсам.
DeepConf решает эти задачи, используя собственные сигналы уверенности LLM. Вместо того чтобы рассматривать все пути рассуждений одинаково, он динамически отфильтровывает пути с низкой уверенностью — либо во время генерации (онлайн), либо после (офлайн) — используя только наиболее надёжные траектории для формирования окончательного ответа. Эта стратегия не зависит от модели, не требует обучения или настройки гиперпараметров и может быть интегрирована в любую существующую модель или среду обслуживания с минимальными изменениями кода.
Как работает DeepConf: уверенность как ориентир
DeepConf вводит несколько усовершенствований в том, как измеряется и используется уверенность:
* Уверенность в токенах: для каждого сгенерированного токена вычисляется отрицательная средняя логарифмическая вероятность топ-k кандидатов. Это даёт локальную меру уверенности.
* Групповая уверенность: средняя уверенность в токенах по скользящему окну (например, 2048 токенов), обеспечивающая сглаженный промежуточный сигнал качества рассуждений.
* Конфиденциальность в конце: сосредоточьтесь на последнем сегменте пути рассуждений, где часто находится ответ, чтобы обнаружить поздние сбои.
* Наименьшая групповая уверенность: определите наименее уверенный сегмент в трассировке, который часто сигнализирует о коллапсе рассуждений.
* Конфиденциальность нижнего процентиля: выделите худшие сегменты, которые наиболее предсказуемы для ошибок.
Эти показатели затем используются для взвешивания голосов (следы с высокой уверенностью учитываются больше) или для фильтрации следов (сохраняются только η% самых уверенных следов). В онлайн-режиме DeepConf прекращает генерацию трассировки, как только её уверенность падает ниже динамически калиброванного порога, что значительно сокращает объём вычислений.
Ключевые результаты: производительность и эффективность
DeepConf был оценён по нескольким бенчмаркам рассуждений (AIME 2024/2025, HMMT 2025, BRUMO25, GPQA-Diamond) и моделям (DeepSeek-8B, Qwen3-8B/32B, GPT-OSS-20B/120B). Результаты поразительны:
| Модель | Набор данных | Pass@1 Acc | Cons@512 Acc | DeepConf@512 Acc | Токены сохранены |
|——–|————|———–|————-|—————–|—————–|
| GPT-OSS-120B | AIME 2025 | 91,8% | 97,0% | 99,9% | -84,7% |
| DeepSeek-8B | AIME 2024 | 83,0% | 86,7% | 93,3% | -77,9% |
| Qwen3-32B | AIME 2024 | 80,6% | 85,3% | 90,8% | -56,0% |
Повышение производительности: по моделям и наборам данных DeepConf повышает точность на 10 процентных пунктов по сравнению со стандартным мажоритарным голосованием, часто достигая верхнего предела бенчмарка.
Ультраэффективность: за счёт досрочного прекращения низкоуверенных трассировок DeepConf сокращает общее количество генерируемых токенов на 43–85%, без потери (и часто с увеличением) конечной точности.
Plug & play: DeepConf работает без дополнительной настройки с любой моделью — без тонкой настройки, поиска гиперпараметров и изменений в базовой архитектуре.
Простота развёртывания: метод реализован как лёгкое расширение к существующим механизмам логического вывода, требующее только доступа к логарифмическим вероятностям на уровне токенов и нескольких строк логики для расчёта уверенности и ранней остановки.
Простая интеграция: минимум кода, максимум эффекта
Реализация DeepConf довольно проста. Для vLLM изменения минимальны:
* Расширьте процессор logprobs для отслеживания скользящей уверенности.
* Добавьте проверку досрочного завершения перед выводом каждого результата.
* Передайте пороговые значения уверенности через API без переобучения модели.
Это позволяет любой конечной точке, совместимой с OpenAI, поддерживать DeepConf с помощью одной дополнительной настройки, что упрощает внедрение в производственных средах.
Заключение
DeepConf от Meta AI представляет собой прорыв в области рассуждений LLM, обеспечивая высочайшую точность и беспрецедентную эффективность. Динамически используя внутреннюю уверенность модели, DeepConf достигает того, что ранее было недостижимо для моделей с открытым исходным кодом: почти идеальные результаты в сложных задачах рассуждений с минимальными вычислительными затратами.
Часто задаваемые вопросы
FAQ 1: Как DeepConf повышает точность и эффективность по сравнению с мажоритарным голосованием?
DeepConf использует фильтрацию и голосование с учётом уверенности, отдавая приоритет путям с более высокой уверенностью модели, повышая точность на 10 процентных пунктов по сравнению с мажоритарным голосованием. В то же время раннее прекращение низкоуверенных путей сокращает использование токенов на 85%, предлагая как производительность, так и значительную экономию средств в практических развёртываниях.
FAQ 2: Можно ли использовать DeepConf с любой языковой моделью или средой обслуживания?
Да, DeepConf полностью независим от модели и может быть интегрирован в любую среду обслуживания — включая модели с открытым исходным кодом и коммерческие модели — без изменений или переобучения. Развёртывание требует минимальных изменений (около 50 строк кода для vLLM), используя выходные данные logprob для расчёта уверенности и обработки ранней остановки.
FAQ 3: Требует ли DeepConf переобучения, специальных данных или сложной настройки?
Нет, DeepConf работает исключительно во время логического вывода, не требуя дополнительного обучения модели, тонкой настройки или поиска гиперпараметров. Он использует только встроенные выходные данные logprob и работает сразу со стандартными настройками API для ведущих фреймворков; он масштабируем, надёжен и может быть развёрнут на реальных рабочих нагрузках без перебоев.
1. Какие проблемы решает DeepConf в сфере искусственного интеллекта?
В тексте указано, что DeepConf решает проблему компромисса между точностью и вычислительными затратами в методах параллельного мышления. Он позволяет достичь высокой точности (например, 99,9% на AIME 2025) при существенном сокращении количества генерируемых токенов (до 85% меньше по сравнению с традиционными методами).
2. Как работает DeepConf и какие усовершенствования он вносит в измерение и использование уверенности?
DeepConf работает путём динамической фильтрации путей с низкой уверенностью, используя собственные сигналы уверенности LLM. Он вычисляет уверенность для каждого токена, использует групповую уверенность для сглаживания сигналов качества рассуждений и фокусируется на последнем сегменте пути рассуждений для обнаружения поздних сбоев.
3. Какие ключевые результаты были получены при оценке DeepConf на различных бенчмарках и моделях?
В тексте указано, что DeepConf показал поразительные результаты на нескольких бенчмарках рассуждений (AIME 2024/2025, HMMT 2025, BRUMO25, GPQA-Diamond) и моделях (DeepSeek-8B, Qwen3-8B/32B, GPT-OSS-20B/120B). Например, на AIME 2025 модель GPT-OSS-120B с использованием DeepConf достигла точности 99,9%, что значительно выше, чем у других моделей и методов.
4. Какие преимущества предлагает DeepConf с точки зрения производительности и эффективности?
DeepConf предлагает несколько преимуществ, включая повышение производительности (увеличение точности на 10 процентных пунктов по сравнению со стандартным мажоритарным голосованием), ультраэффективность (сокращение общего количества генерируемых токенов на 43–85%) и простоту развёртывания (минимальные изменения кода для интеграции).
5. Какие минимальные изменения кода требуются для внедрения DeepConf в существующие механизмы логического вывода?
Для внедрения DeepConf в vLLM требуется минимальное количество изменений кода. Необходимо расширить процессор logprobs для отслеживания скользящей уверенности, добавить проверку досрочного завершения перед выводом каждого результата и передать пороговые значения уверенности через API без переобучения модели.