Китайский стартап в области искусственного интеллекта DeepSeek выпустил свою новейшую флагманскую языковую модель — DeepSeek-V3.1. Она основана на архитектуре DeepSeek-V3, но имеет значительные улучшения в области рассуждений, использования инструментов и производительности в кодировании.
Примечательно, что модели DeepSeek быстро завоевали репутацию, предоставляя производительность на уровне OpenAI и Anthropic при значительно меньших затратах.
Архитектура модели и возможности
Гибридный режим мышления: DeepSeek-V3.1 поддерживает как мышление (рассуждения в цепочке мыслей, более обдуманное), так и немышление (прямое, поток сознания) генерацию, переключаемое через чат-шаблон. Это отличается от предыдущих версий и обеспечивает гибкость для различных вариантов использования.
Поддержка инструментов и агентов: модель оптимизирована для вызова инструментов и задач агентов (например, использование API, выполнение кода, поиск). Вызовы инструментов используют структурированный формат, и модель поддерживает пользовательских агентов кода и поисковых агентов. Подробные шаблоны представлены в репозитории.
Масштабный и эффективный активатор: модель может похвастаться 671 миллиардом общих параметров, при этом 37 миллиардов активируются на токен — конструкция «Mixture-of-Experts» (MoE) снижает затраты на вывод, сохраняя при этом производительность. Окно контекста составляет 128 тысяч токенов, что намного больше, чем у большинства конкурентов.
Расширение длинного контекста: DeepSeek-V3.1 использует двухэтапный подход к расширению длинного контекста. Первый этап (32 тысячи) был обучен на 630 миллиардах токенов (в 10 раз больше, чем у V3), а второй (128 тысяч) — на 209 миллиардах токенов (в 3,3 раза больше, чем у V3). Модель обучена с микромасштабированием FP8 для эффективной арифметики на аппаратуре нового поколения.
Чат-шаблон: шаблон поддерживает многоходовые беседы с явными токенами для системных подсказок, пользовательских запросов и ответов помощника. Режимы мышления и немышления запускаются с помощью токенов `
Бенчмарк производительности
DeepSeek-V3.1 оценивается по широкому спектру бенчмарков (см. таблицу ниже), включая общие знания, кодирование, математику, использование инструментов и задачи агентов.
| Метрика | V3.1-NonThinking | V3.1-Thinking | Конкуренты |
| — | — | — | — |
| MMLU-Redux (EM) | 91,8 | 93,7 | 93,4 (R1-0528) |
| MMLU-Pro (EM) | 83,7 | 84,8 | 85,0 (R1-0528) |
| GPQA-Diamond (Pass@1) | 74,9 | 80,1 | 81,0 (R1-0528) |
| LiveCodeBench (Pass@1) | 56,4 | 74,8 | 73,3 (R1-0528) |
| AIMÉ 2025 (Pass@1) | 49,8 | 88,4 | 87,5 (R1-0528) |
| SWE-bench (Agent mode) | 54,5 | — | 30,5 (R1-0528) |
Режим мышления последовательно соответствует или превосходит предыдущие версии, особенно в кодировании и математике. Режим немышления работает быстрее, но немного менее точен, что делает его идеальным для приложений, чувствительных к задержкам.
Интеграция с инструментами и агентами кода
Вызов инструментов: структурированные вызовы инструментов поддерживаются в режиме немышления, что позволяет создавать сценарии взаимодействия с внешними API и сервисами.
Агенты кода: разработчики могут создавать пользовательских агентов кода, следуя предоставленным шаблонам траектории, которые подробно описывают протокол взаимодействия для генерации, выполнения и отладки кода.
DeepSeek-V3.1 может использовать внешние поисковые инструменты для получения актуальной информации, что критически важно для приложений в бизнесе, финансе и технических исследованиях.
Развёртывание
Открытый исходный код, лицензия MIT: все веса модели и код свободно доступны на Hugging Face и ModelScope под лицензией MIT, что поощряет как исследования, так и коммерческое использование.
Локальный вывод: структура модели совместима с DeepSeek-V3, и предоставлены подробные инструкции для локального развёртывания. Для работы требуются значительные ресурсы GPU из-за масштаба модели, но открытая экосистема и инструменты сообщества снижают барьеры для внедрения.
Резюме
DeepSeek-V3.1 представляет собой важный шаг в демократизации передовых технологий искусственного интеллекта, демонстрируя, что открытые, экономичные и высокоэффективные языковые модели могут быть доступны. Сочетание масштабируемых рассуждений, интеграции инструментов и исключительной производительности в задачах кодирования и математики делает её практичным выбором как для исследований, так и для разработки прикладного искусственного интеллекта.
1. Какие ключевые особенности отличают DeepSeek-V3.1 от предыдущих версий и других языковых моделей на рынке?
DeepSeek-V3.1 отличается от предыдущих версий и других языковых моделей на рынке следующими ключевыми особенностями:
* гибридный режим мышления (рассуждения в цепочке мыслей и прямое, поток сознания генерация);
* поддержка инструментов и агентов (например, использование API, выполнение кода, поиск);
* масштабный и эффективный активатор с 671 миллиардом общих параметров;
* расширение длинного контекста;
* чат-шаблон для многоходовых бесед с явными токенами для системных подсказок, пользовательских запросов и ответов помощника.
2. Какие преимущества предоставляет DeepSeek-V3.1 разработчикам и исследователям в области искусственного интеллекта?
Преимущества DeepSeek-V3.1 для разработчиков и исследователей в области искусственного интеллекта включают:
* возможность использования модели для создания приложений, чувствительных к задержкам, благодаря режиму немышления;
* интеграция с внешними API и сервисами через структурированные вызовы инструментов;
* создание пользовательских агентов кода с помощью предоставленных шаблонов траектории;
* использование внешних поисковых инструментов для получения актуальной информации;
* открытый исходный код и лицензия MIT, поощряющие исследования и коммерческое использование.
3. Почему модель DeepSeek-V3.1 считается экономичной по сравнению с аналогами?
Модель DeepSeek-V3.1 считается экономичной по сравнению с аналогами, поскольку она предоставляет производительность на уровне OpenAI и Anthropic при значительно меньших затратах. Это делает её практичным выбором для исследований и разработки прикладного искусственного интеллекта.
4. Какие метрики используются для оценки производительности DeepSeek-V3.1 и как модель сравнивается с конкурентами?
Для оценки производительности DeepSeek-V3.1 используются следующие метрики:
* MMLU-Redux (EM);
* MMLU-Pro (EM);
* GPQA-Diamond (Pass@1);
* LiveCodeBench (Pass@1);
* AIMÉ 2025 (Pass@1);
* SWE-bench (Agent mode).
В таблице представлены результаты сравнения DeepSeek-V3.1 с конкурентами по этим метрикам. Режим мышления последовательно соответствует или превосходит предыдущие версии, особенно в кодировании и математике. Режим немышления работает быстрее, но немного менее точен.