DeepSeek V3.2-Exp сокращает затраты на обработку длинных контекстов с помощью разреженного внимания DeepSeek (DSA), сохраняя при этом соответствие эталонным показателям

DeepSeek выпустил DeepSeek-V3.2-Exp — «промежуточное» обновление V3.1, в котором добавлена технология DeepSeek Sparse Attention (DSA) — обучаемый путь разрежения, направленный на повышение эффективности работы с длинными контекстами.

DeepSeek также снизил цены на API более чем на 50%, что соответствует заявленному повышению эффективности.

DeepSeek-V3.2-Exp использует стек V3/V3.1 (MoE + MLA) и включает двухэтапный путь внимания:

1. Лёгкий «индекс», который оценивает токены контекста.
2. Разреженное внимание к выбранному подмножеству.

DeepSeek Sparse Attention (DSA)

Технология DeepSeek Sparse Attention (DSA) разделяет путь внимания на два уровня вычислений:

1. Lightning indexer (FP8, few heads): для каждого токена запроса ℎ𝑡∈𝑅𝑑, лёгкая функция оценки вычисляет индекс logits 𝐼𝑡,𝑠 против предшествующих токенов ℎ𝑠. Она использует небольшие индексные головки с нелинейностью ReLU для повышения пропускной способности. Поскольку этот этап выполняется в FP8 и с небольшим количеством голов, его затраты по времени и FLOP незначительны по сравнению с плотным вниманием.

2. Fine-grained token selection (top-k): система выбирает только top-k=2048 ключевых записей для каждого запроса и затем выполняет стандартное внимание только над этим подмножеством. Это изменяет доминирующий член с 𝑂(𝐿2) на 𝑂(𝐿𝑘) с 𝑘≪𝐿, сохраняя при этом возможность обращаться к произвольно удалённым токенам, когда это необходимо.

Эффективность и точность

Затраты vs. позиция (128k): DeepSeek предоставляет кривые затрат на миллион токенов для предварительного заполнения и декодирования на кластерах H800 (справочная цена $2/GPU-час). Затраты на декодирование существенно снижаются с помощью DSA; предварительное заполнение также выигрывает за счёт моделирования замаскированного MHA на коротких длинах.

Benchmark parity: выпущенная таблица показывает MMLU-Pro = 85,0 (без изменений), небольшое движение на GPQA/HLE/HMMT из-за меньшего количества токенов для рассуждений и стабильное/положительное движение по задачам, связанным с агентами/поиском (например, BrowseComp 40,1 против 38,5). Авторы отмечают, что пробелы сокращаются при использовании промежуточных контрольных точек, которые производят сопоставимое количество токенов.

Операционные сигналы: поддержка Day-0 в SGLang и vLLM предполагает, что изменения в ядрах и планировщике направлены на производство, а не только на исследования. DeepSeek также ссылается на TileLang, DeepGEMM (индексные логиты) и FlashMLA (разреженные ядра) для открытых ядер.

Ценообразование: DeepSeek сообщает, что цены на API были снижены более чем на 50%, что соответствует сообщению о карточке модели об эффективности и освещению в Reuters/TechCrunch, согласно которому выпуск нацелен на снижение затрат на вывод длинных контекстов.

Резюме

DeepSeek V3.2-Exp показывает, что обучаемая разрежённость (DSA) может сохранять соответствие эталонным показателям, существенно улучшая экономику длинных контекстов: официальные документы обещают снижение цен на API более чем на 50%, с поддержкой времени выполнения Day-0, уже доступной, а в темах сообщества утверждается, что выигрыш во времени декодирования на 128k больше, что требует независимой репликации при согласованном пакетном и кэшировании политик.

В ближайшей перспективе вывод для команд прост: рассмотрите V3.2-Exp как замену A/B для RAG и конвейеров с длинными документами, где затраты доминируют над вниманием O(L2), и проверьте сквозную пропускную способность/качество в вашем стеке.

Часто задаваемые вопросы

1. Что такое DeepSeek V3.2-Exp?

V3.2-Exp — это экспериментальное, промежуточное обновление V3.1-Terminus, в котором представлено разреженное внимание DeepSeek (DSA) для повышения эффективности работы с длинными контекстами.

2. Является ли он действительно открытым исходным кодом и под какой лицензией?

Да. Репозиторий и веса модели лицензированы под MIT, согласно официальной карточке модели Hugging Face (раздел «Лицензия»).

3. Что такое DeepSeek Sparse Attention (DSA) на практике?

DSA добавляет лёгкий этап индексации для оценки/выбора небольшого набора релевантных токенов, затем выполняет внимание только над этим подмножеством — обеспечивая «мелкозернистое разреженное внимание» и сообщая о повышении эффективности обучения/вывода при работе с длинными контекстами, сохраняя при этом качество вывода на уровне V3.1.

1. Какие преимущества предлагает технология DeepSeek Sparse Attention (DSA) в контексте работы с длинными контекстами?

Технология DeepSeek Sparse Attention (DSA) предлагает два основных преимущества:
* разделение пути внимания на два уровня вычислений, что позволяет снизить затраты времени и FLOP по сравнению с плотным вниманием;
* выбор только top-k=2048 ключевых записей для каждого запроса и выполнение стандартного внимания только над этим подмножеством, что изменяет доминирующий член с 𝑂(𝐿2) на 𝑂(𝐿𝑘) с 𝑘≪𝐿, сохраняя при этом возможность обращаться к произвольно удалённым токенам, когда это необходимо.

2. Какие результаты были достигнуты после внедрения DeepSeek V3.2-Exp?

После внедрения DeepSeek V3.2-Exp были достигнуты следующие результаты:
* снижение затрат на декодирование;
* сохранение соответствия эталонным показателям (MMLU-Pro = 85,0);
* небольшое движение на GPQA/HLE/HMMT из-за меньшего количества токенов для рассуждений;
* стабильное/положительное движение по задачам, связанным с агентами/поиском (например, BrowseComp 40,1 против 38,5).

3. Какие изменения в ценообразовании были внесены после выпуска DeepSeek V3.2-Exp?

После выпуска DeepSeek V3.2-Exp цены на API были снижены более чем на 50%. Это соответствует сообщению о карточке модели об эффективности и освещению в Reuters/TechCrunch, согласно которому выпуск нацелен на снижение затрат на вывод длинных контекстов.

4. Какие рекомендации даёт автор текста для команд, рассматривающих возможность использования DeepSeek V3.2-Exp?

Автор текста рекомендует командам рассмотреть возможность использования DeepSeek V3.2-Exp в качестве замены A/B для RAG и конвейеров с длинными документами, где затраты доминируют над вниманием O(L2). Также рекомендуется проверить сквозную пропускную способность/качество в вашем стеке.

Источник