Исследователи DeepSeek представляют DeepSeek-V3.2 и DeepSeek-V3.2-Speciale для работы с длинными контекстами и агентскими нагрузками

Исследователи DeepSeek разработали модели DeepSeek-V3.2 и DeepSeek-V3.2-Speciale для решения задач с длинными контекстами и агентскими нагрузками. Эти модели ориентированы на высокое качество рассуждений, работу с длинными контекстами и агентскими потоками, с открытыми весами и производственными API.

Как достичь уровня рассуждений GPT-5 при работе с реальными длинными контекстами и использовании инструментов?

Модели DeepSeek-V3.2 и DeepSeek-V3.2-Speciale сочетают в себе:
* DeepSeek Sparse Attention (DSA) — разреженное внимание;
* масштабированный стек обучения с подкреплением GRPO;
* собственный для агентов протокол работы с инструментами.

Модели демонстрируют производительность, сравнимую с GPT-5, а DeepSeek-V3.2-Speciale достигает уровня рассуждений Gemini 3.0 Pro на общедоступных бенчмарках и соревнованиях.

DeepSeek Sparse Attention

Обе модели, DeepSeek-V3.2 и DeepSeek-V3.2-Speciale, используют трансформер DeepSeek-V3 Mixture of Experts с примерно 671 миллиардом общих параметров и 37 миллиардами активных параметров на токен, унаследованный от V3.1 Terminus. Единственное структурное изменение — DeepSeek Sparse Attention, внедрённое путём продолжения предварительного обучения.

DeepSeek Sparse Attention разделяет внимание на 2 компонента:
* Lightning indexer выполняет небольшое количество низкоточных операций над всеми парами токенов и выдаёт оценки релевантности.
* Fine grained selector сохраняет позиции top-k-key value для каждого запроса, а основной путь внимания запускает Multi-Query-Attention и Multi-Head-Latent-Attention на этом разреженном наборе.

Это изменяет доминирующую сложность с O(L²) на O(kL), где L — длина последовательности, а k — количество выбранных токенов и намного меньше, чем L.

На основе бенчмарков DeepSeek-V3.2 соответствует плотной базовой линии Terminus по точности, сокращая при этом затраты на вывод длинных контекстов примерно на 50 процентов, с более высокой пропускной способностью и меньшим использованием памяти на оборудовании класса H800, а также на бэкендах vLLM и SGLang.

Продолжение предварительного обучения для DeepSeek Sparse Attention

DeepSeek Sparse Attention (DSA) внедрён путём продолжения предварительного обучения на основе DeepSeek-V3.2 Terminus. На этапе плотного прогрева плотное внимание остаётся активным, все параметры основы остаются замороженными, и обучается только lightning indexer с потерей Кульбака-Лейблера, чтобы соответствовать распределению плотного внимания на 128K контекстных последовательностях. Этот этап использует небольшое количество шагов и около 2 миллиардов токенов, чего достаточно для того, чтобы индексатор научился получать полезные оценки.

На этапе разреженного обучения селектор сохраняет 2048 записей key-value для каждого запроса, основа размораживается, и модель продолжает обучение примерно на 944 миллиардах токенов. Градиенты для индексатора по-прежнему поступают только из потерь выравнивания с плотным вниманием на выбранных позициях.

Группа относительной оптимизации политики (GRPO)

На основе разрежённой архитектуры DeepSeek-V3.2 использует Group Relative Policy Optimization (GRPO) в качестве основного метода обучения с подкреплением. Исследовательская группа утверждает, что после обучения вычислительные ресурсы для обучения с подкреплением превышают 10 процентов от вычислительных ресурсов для предварительного обучения.

RL организован вокруг специализированных доменов. Исследовательская группа проводит специальные запуски для математики, соревновательного программирования, общих логических рассуждений, просмотра и агентских задач и безопасности, а затем преобразует этих специалистов в общую базу параметров 685 миллиардов для DeepSeek-V3.2 и DeepSeek-V3.2-Speciale.

Данные агентов, режим мышления и протокол работы с инструментами

Исследовательская группа DeepSeek создаёт большой набор синтетических данных для агентов, генерируя более 1800 сред и более 85 000 задач в рамках агентов по кодированию, поисковых агентов, общих инструментов и настроек интерпретатора кода. Задачи сконструированы так, чтобы их было трудно решить и легко проверить, и используются в качестве целей RL вместе с реальными следами кодирования и поиска.

Во время вывода DeepSeek-V3.2 вводит явный режим мышления и режим без мышления. Конечная точка deepseek-reasoner по умолчанию использует режим мышления, когда модель выдаёт внутреннюю цепочку мыслей перед окончательным ответом.

Бенчмарки, соревнования и открытые артефакты

На стандартных бенчмарках по рассуждениям и кодированию DeepSeek-V3.2 и особенно DeepSeek-V3.2 Speciale сравнимы с GPT-5 и близки к Gemini-3.0 Pro в таких наборах, как AIME 2025, HMMT 2025, GPQA и LiveCodeBench, с улучшенной экономической эффективностью при работе с длинными контекстами.

Для официальных соревнований исследовательская группа DeepSeek заявляет, что DeepSeek-V3.2 Speciale достигает уровня золотых медалей на Международной математической олимпиаде 2025, Китайской математической олимпиаде 2025 и Международной олимпиаде по информатике 2025, а также соревновательного уровня золотых медалей на чемпионате мира ICPC 2025.

Ключевые выводы

* DeepSeek-V3.2 добавляет DeepSeek Sparse Attention, которое обеспечивает почти линейную стоимость внимания O(kL) и снижает затраты на API для длинных контекстов примерно на 50 % по сравнению с предыдущими плотными моделями DeepSeek, сохраняя при этом качество, аналогичное DeepSeek-V3.1 Terminus.
* Семейство моделей использует основу MoE с 671 миллиардом параметров и 37 миллиардами активных параметров на токен и предоставляет полное контекстное окно 128K в производственных API, что делает длинные документы, многошаговые цепочки и большие следы инструментов практичными, а не только лабораторной функцией.
* После обучения используется Group Relative Policy Optimization (GRPO) с бюджетом вычислений, который составляет более 10 процентов от предварительного обучения, сфокусированного на математике, коде, общих рассуждениях, просмотре или агентских нагрузках и безопасности, а также со специалистами в стиле соревнований, чьи кейсы выпущены для внешней проверки.
* DeepSeek-V3.2 — первая модель в семействе DeepSeek, которая интегрирует мышление непосредственно в использование инструментов, поддерживая как режим мышления, так и режим без мышления, а также протокол, в котором внутренние рассуждения сохраняются при вызовах инструментов и сбрасываются только при появлении новых сообщений пользователя.

1. Какие основные характеристики и преимущества моделей DeepSeek-V3.2 и DeepSeek-V3.2-Speciale по сравнению с другими моделями?

В тексте указано, что модели DeepSeek-V3.2 и DeepSeek-V3.2-Speciale сочетают в себе DeepSeek Sparse Attention (DSA), масштабированный стек обучения с подкреплением GRPO и собственный для агентов протокол работы с инструментами. Они демонстрируют производительность, сравнимую с GPT-5, а DeepSeek-V3.2-Speciale достигает уровня рассуждений Gemini 3.0 Pro на общедоступных бенчмарках и соревнованиях. Кроме того, модели обеспечивают почти линейную стоимость внимания O(kL) и снижают затраты на API для длинных контекстов примерно на 50 % по сравнению с предыдущими плотными моделями DeepSeek, сохраняя при этом качество, аналогичное DeepSeek-V3.1 Terminus.

2. Какие методы и подходы используются в моделях DeepSeek-V3.2 и DeepSeek-V3.2-Speciale для работы с длинными контекстами и агентскими нагрузками?

В моделях DeepSeek-V3.2 и DeepSeek-V3.2-Speciale используется DeepSeek Sparse Attention (DSA), который разделяет внимание на два компонента: Lightning indexer и Fine grained selector. Lightning indexer выполняет небольшое количество низкоточных операций над всеми парами токенов и выдаёт оценки релевантности, а Fine grained selector сохраняет позиции top-k-key value для каждого запроса. Также используется Group Relative Policy Optimization (GRPO) в качестве основного метода обучения с подкреплением.

3. Какие задачи и сценарии использования подходят для моделей DeepSeek-V3.2 и DeepSeek-V3.2-Speciale?

Модели DeepSeek-V3.2 и DeepSeek-V3.2-Speciale подходят для решения задач с длинными контекстами и агентскими нагрузками, таких как математические задачи, соревновательное программирование, общие логические рассуждения, просмотр и агентские задачи. Они также могут быть использованы для работы с длинными документами, многошаговыми цепочками и большими следами инструментов.

4. Какие результаты показали модели DeepSeek-V3.2 и DeepSeek-V3.2-Speciale на стандартных бенчмарках по рассуждениям и кодированию?

На стандартных бенчмарках по рассуждениям и кодированию DeepSeek-V3.2 и особенно DeepSeek-V3.2 Speciale сравнимы с GPT-5 и близки к Gemini-3.0 Pro в таких наборах, как AIME 2025, HMMT 2025, GPQA и LiveCodeBench. Это свидетельствует о высокой эффективности и точности моделей в решении сложных задач.

5. Какие выводы можно сделать о моделях DeepSeek-V3.2 и DeepSeek-V3.2-Speciale на основе представленного текста?

На основе текста можно сделать вывод, что модели DeepSeek-V3.2 и DeepSeek-V3.2-Speciale являются передовыми решениями для работы с длинными контекстами и агентскими нагрузками. Они обеспечивают высокое качество рассуждений, эффективность и экономичность при работе с длинными документами и сложными задачами.

Источник