Сравнение семи крупных языковых моделей для кодирования в 2025 году

Языковые модели, ориентированные на код, перешли от автозавершения к системам разработки программного обеспечения. В 2025 году ведущие модели должны исправлять реальные проблемы на GitHub, рефакторить бэкенды с несколькими репозиториями, писать тесты и работать как агенты в течение длительного времени. Основной вопрос для команд — не «может ли модель кодировать», а какая модель соответствует каким ограничениям.

Вот семь моделей (и системы вокруг них), которые охватывают большинство реальных задач по кодированию сегодня:

1. OpenAI GPT-5 / GPT-5-Codex
2. Anthropic Claude 3.5 Sonnet / Claude 4.x Sonnet with Claude Code
3. Google Gemini 2.5 Pro
4. Meta Llama 3.1 405B Instruct
5. DeepSeek-V2.5-1210 (с DeepSeek-V3 в качестве преемника)
6. Alibaba Qwen2.5-Coder-32B-Instruct
7. Mistral Codestral 25.01

Цель этого сравнения — не ранжировать их по одному показателю, а показать, какую систему выбрать для заданных целей тестирования, модели развёртывания, требований к управлению и стека IDE или агентов.

Измерения оценки

Мы сравниваем по шести стабильным параметрам:

* Качество кодирования: HumanEval, MBPP / MBPP EvalPlus, качество генерации и исправления кода на стандартных задачах Python.
* Производительность в репозиториях и исправлении ошибок: SWE-bench Verified (реальные проблемы GitHub), Aider Polyglot (редактирование целых файлов), RepoBench, LiveCodeBench.
* Поведение в контексте и в длинном контексте: документированные ограничения контекста и практическое поведение в длительных сессиях.
* Модель развёртывания: закрытый API, облачный сервис, контейнеры, локально или полностью размещённые собственные открытые веса.
* Инструменты и экосистема: нативные агенты, расширения IDE, облачная интеграция, поддержка GitHub и CI/CD.
* Стоимость и масштабируемость: цены за токены для закрытых моделей, аппаратные ресурсы и модель вывода для открытых моделей.

OpenAI GPT-5 / GPT-5-Codex

OpenAI GPT-5 — это флагманская модель для рассуждений и кодирования, используемая по умолчанию в ChatGPT. Для реального кода OpenAI сообщает:

* SWE-bench Verified: 74,9%.
* Aider Polyglot: 88%.

Оба бенчмарка имитируют реальную инженерию: SWE-bench Verified работает с восходящими репозиториями и тестами; Aider Polyglot измеряет многоязычные правки целых файлов.

Контекст и варианты:

* gpt-5 (chat) API: 128 тыс. токенов контекста.
* gpt-5-pro / gpt-5-codex: до 400 тыс. объединённого контекста в карточке модели, с типичными производственными ограничениями около ≈272 тыс. входных данных + 128 тыс. выходных для надёжности.

GPT-5 и GPT-5-Codex доступны в ChatGPT (Plus / Pro / Team / Enterprise) и через OpenAI API; они являются закрытыми, размещёнными только в облаке.

Сильные стороны:

* Наивысшие опубликованные показатели SWE-bench Verified и Aider Polyglot среди широко доступных моделей.
* Очень сильная многошаговая отладка с включенным «мышлением» (chain-of-thought).
* Глубокая экосистема: ChatGPT, Copilot и многие сторонние платформы IDE и агентов используют бэкенды GPT-5.

Ограничения:

* Нет самостоятельного хостинга; весь трафик должен проходить через OpenAI или партнёров.
* Длительные контекстные вызовы дороги, если вы транслируете полные монорепозитории, поэтому вам нужны шаблоны извлечения и только различий.

Используйте, когда вам нужна максимальная производительность на уровне репозитория и вы работаете с закрытым облачным API.

Anthropic Claude 3.5 Sonnet / Claude 4.x + Claude Code

Claude 3.5 Sonnet был основной рабочей лошадкой Anthropic для кодирования до линейки Claude 4. Anthropic выделяет его как SOTA на HumanEval, а независимые сравнения сообщают:

* HumanEval: ≈ 92%.
* MBPP EvalPlus: ≈ 91%.

В 2025 году Anthropic выпустила Claude 4 Opus, Sonnet и Sonnet 4.5, позиционируя Sonnet 4.5 как свою лучшую модель для кодирования и агентов.

Claude Code — это система кодирования, учитывающая репозитории:

* Управляемая виртуальная машина, подключённая к вашему репозиторию GitHub.
* Просмотр файлов, редактирование, тесты и создание PR.
* SDK для создания пользовательских агентов, использующих Claude в качестве бэкенда для кодирования.

Сильные стороны:

* Очень сильный HumanEval / MBPP, хорошее эмпирическое поведение при отладке и проверке кода.
* Производственная среда для агентов кодирования с постоянной виртуальной машиной и рабочими процессами GitHub.

Ограничения:

* Закрытая и размещённая в облаке модель, аналогичная GPT-5 по условиям управления.
* Опубликованные показатели SWE-bench Verified для Claude 3.5 Sonnet ниже, чем у GPT-5, хотя Claude 4.x, вероятно, ближе.

Используйте, когда вам нужны объяснимая отладка, проверка кода и управляемый агент на уровне репозитория, и вы можете принять закрытое развёртывание.

Google Gemini 2.5 Pro

Gemini 2.5 Pro — это основная модель кодирования и рассуждений от Google DeepMind для разработчиков. Она сообщает следующие результаты:

* LiveCodeBench v5: 70,4%.
* Aider Polyglot (редактирование целых файлов): 74,0%.
* SWE-bench Verified: 63,8%.

Эти результаты ставят Gemini 2.5 Pro выше многих ранних моделей и только позади Claude 3.7 и GPT-5 по SWE-bench Verified.

Контекст и платформа:

* Длительная контекстная способность, заявленная до 1 млн токенов в семействе Gemini; 2.5 Pro — это стабильный уровень, используемый в Gemini Apps, Google AI Studio и Vertex AI.
* Тесная интеграция с сервисами GCP, BigQuery, Cloud Run и Google Workspace.

Сильные стороны:

* Хорошее сочетание результатов LiveCodeBench, Aider, SWE-bench плюс первоклассная интеграция с GCP.
* Хороший выбор для «данных плюс код приложения», когда вам нужна одна модель для SQL, аналитических помощников и бэкенд-кода.

Ограничения:

* Закрытая и привязанная к Google Cloud.
* Для чистого SWE-bench Verified GPT-5 и новейший Claude Sonnet 4.x сильнее.

Используйте, когда ваши рабочие нагрузки уже работают на GCP / Vertex AI, и вы хотите модель кодирования с длинным контекстом внутри этого стека.

Meta Llama 3.1 405B Instruct

Семейство Meta Llama 3.1 (8B, 70B, 405B) является открытым по весу. Вариант 405B Instruct — это высококлассный вариант для кодирования и общих рассуждений. Он сообщает следующие результаты:

* HumanEval (Python): 89,0.
* MBPP (base или EvalPlus): ≈ 88,6.

Эти оценки ставят Llama 3.1 405B в число сильнейших открытых моделей на классических бенчмарках кода.

Сильные стороны:

* Высокие оценки HumanEval / MBPP с открытыми весами и разрешительной лицензией.
* Высокая общая производительность (MMLU, MMLU-Pro и т. д.), так что одна модель может обслуживать как функции продукта, так и кодирующих агентов.

Ограничения:

* 405B параметров означают высокую стоимость обслуживания и задержку, если у вас нет большого кластера GPU.
* Для строго кодовых бенчмарков при фиксированном вычислительном бюджете специализированные модели, такие как Qwen2.5-Coder-32B и Codestral 25.01, более экономичны.

Используйте, когда вам нужна единая открытая базовая модель с сильным кодированием и общими рассуждениями, и вы контролируете свою собственную инфраструктуру GPU.

DeepSeek-V2.5-1210 (и DeepSeek-V3)

DeepSeek-V2.5-1210 — это модернизированная модель Mixture-of-Experts, объединяющая чат и кодерские линии. Модель сообщает:

* LiveCodeBench (08.01–12.01): улучшено с 29,2% до 34,38%.
* MATH-500: 74,8% → 82,8%.

DeepSeek выпустил DeepSeek-V3, модель MoE на 671 млрд параметров с 37 млрд активных на токен, обученную на 14,8 трлн токенов. Производительность сопоставима с ведущими закрытыми моделями на многих бенчмарках по рассуждениям и кодированию, а публичные панели показывают, что V3 опережает V2.5 по ключевым задачам.

Сильные стороны:

* Открытая модель MoE с хорошими результатами LiveCodeBench и хорошей математической производительностью для своего размера.
* Эффективное количество активных параметров по сравнению с общим количеством параметров.

Ограничения:

* V2.5 больше не является флагманской; DeepSeek-V3 теперь является эталонной моделью.
* Экосистема легче, чем у OpenAI / Google / Anthropic; командам необходимо собирать собственные интеграции IDE и агентов.

Используйте, когда вам нужен размещённый у себя кодер MoE с открытыми весами и вы готовы перейти на DeepSeek-V3 по мере его взросления.

Qwen2.5-Coder-32B-Instruct

Qwen2.5-Coder — это семейство языковых моделей для кодирования от Alibaba. Технический отчёт и карточка модели описывают шесть размеров (от 0,5B до 32B) и продолжение предварительного обучения на более чем 5,5 трлн токенов кодовых данных.

Официальные бенчмарки для Qwen2.5-Coder-32B-Instruct включают:

* HumanEval: 92,7%.
* MBPP: 90,2%.
* LiveCodeBench: 31,4%.
* Aider Polyglot: 73,7%.
* Spider: 85,1%.
* CodeArena: 68,9%.

Сильные стороны:

* Очень сильные результаты HumanEval / MBPP / Spider для открытой модели; часто конкурентоспособны с закрытыми моделями в задачах чистого кодирования.
* Различные размеры параметров делают его адаптируемым к различным аппаратным бюджетам.

Ограничения:

* Менее подходит для широких общих рассуждений, чем такие универсалы, как Llama 3.1 405B или DeepSeek-V3.
* Документация и экосистема догоняют англоязычные инструменты.

Используйте, когда вам нужна размещённая у себя модель кодирования с высокой точностью и вы можете соединить её с общей LLM для несловесных задач.

Mistral Codestral 25.01

Codestral 25.01 — это обновлённая модель генерации кода от Mistral. Объявление Mistral и последующие публикации сообщают, что 25.01 использует более эффективную архитектуру и токенизатор и генерирует код примерно в 2 раза быстрее, чем базовая модель Codestral.

Бенчмарк-отчёты:

* HumanEval: 86,6%.
* MBPP: 80,2%.
* Spider: 66,5%.
* RepoBench: 38,0%.
* LiveCodeBench: 37,9%.

Codestral 25.01 поддерживает более 80 языков программирования и окно контекста в 256 тыс. токенов и оптимизирован для задач с низкой задержкой и высокой частотой, таких как завершение и FIM.

Сильные стороны:

* Очень хорошие результаты RepoBench / LiveCodeBench для открытой модели среднего размера.
* Предназначен для быстрого интерактивного использования в IDE и SaaS с открытыми весами и контекстом в 256 тыс. токенов.

Ограничения:

* Абсолютные оценки HumanEval / MBPP ниже, чем у Qwen2.5-Coder-32B, что ожидаемо для этого класса параметров.

Используйте, когда вам нужна компактная, быстрая открытая модель кода для завершения и FIM в масштабе.

1. Какие языковые модели для кодирования представлены в статье и какие у них сильные стороны?

В статье представлены следующие языковые модели для кодирования:
* OpenAI GPT-5 / GPT-5-Codex — высокие показатели SWE-bench Verified и Aider Polyglot, сильная многошаговая отладка, глубокая экосистема.
* Anthropic Claude 3.5 Sonnet / Claude 4.x Sonnet with Claude Code — сильный HumanEval / MBPP, хорошее эмпирическое поведение при отладке и проверке кода, производственная среда для агентов кодирования.
* Google Gemini 2.5 Pro — хорошее сочетание результатов LiveCodeBench, Aider, SWE-bench, первоклассная интеграция с GCP.
* Meta Llama 3.1 405B Instruct — высокие оценки HumanEval / MBPP с открытыми весами и разрешительной лицензией.
* DeepSeek-V2.5-1210 (и DeepSeek-V3) — открытая модель MoE с хорошими результатами LiveCodeBench и хорошей математической производительностью для своего размера.
* Qwen2.5-Coder-32B-Instruct — очень сильные результаты HumanEval / MBPP / Spider для открытой модели, различные размеры параметров делают его адаптируемым к различным аппаратным бюджетам.
* Mistral Codestral 25.01 — очень хорошие результаты RepoBench / LiveCodeBench для открытой модели среднего размера, предназначен для быстрого интерактивного использования в IDE и SaaS.

2. Какие параметры используются для оценки языковых моделей в статье?

Для оценки языковых моделей в статье используются следующие параметры:
* Качество кодирования: HumanEval, MBPP / MBPP EvalPlus, качество генерации и исправления кода на стандартных задачах Python.
* Производительность в репозиториях и исправлении ошибок: SWE-bench Verified (реальные проблемы GitHub), Aider Polyglot (редактирование целых файлов), RepoBench, LiveCodeBench.
* Поведение в контексте и в длинном контексте: документированные ограничения контекста и практическое поведение в длительных сессиях.
* Модель развёртывания: закрытый API, облачный сервис, контейнеры, локально или полностью размещённые собственные открытые веса.
* Инструменты и экосистема: нативные агенты, расширения IDE, облачная интеграция, поддержка GitHub и CI/CD.
* Стоимость и масштабируемость: цены за токены для закрытых моделей, аппаратные ресурсы и модель вывода для открытых моделей.

3. Какие ограничения есть у языковых моделей для кодирования, представленных в статье?

У языковых моделей для кодирования, представленных в статье, есть следующие ограничения:
* OpenAI GPT-5 / GPT-5-Codex — нет самостоятельного хостинга, длительные контекстные вызовы дороги.
* Anthropic Claude 3.5 Sonnet / Claude 4.x Sonnet with Claude Code — закрытая и размещённая в облаке модель.
* Google Gemini 2.5 Pro — закрытая и привязанная к Google Cloud.
* Meta Llama 3.1 405B Instruct — высокая стоимость обслуживания и задержка, если у вас нет большого кластера GPU.
* DeepSeek-V2.5-1210 (и DeepSeek-V3) — экосистема легче, чем у OpenAI / Google / Anthropic; командам необходимо собирать собственные интеграции IDE и агентов.
* Qwen2.5-Coder-32B-Instruct — менее подходит для широких общих рассуждений, чем такие универсалы, как Llama 3.1 405B или DeepSeek-V3.
* Mistral Codestral 25.01 — абсолютные оценки HumanEval / MBPP ниже, чем у Qwen2.5-Coder-32B.

4. Какие факторы следует учитывать при выборе языковой модели для кодирования?

При выборе языковой модели для кодирования следует учитывать следующие факторы:
* Цель использования: для каких задач будет использоваться модель (например, исправление ошибок, рефакторинг, написание тестов).
* Требования к модели развёртывания: закрытый API, облачный сервис, контейнеры, локально или полностью размещённые собственные открытые веса.
* Инструменты и экосистема: наличие нативных агентов, расширений IDE, облачной интеграции, поддержки GitHub и CI/CD.
* Стоимость и масштабируемость: цены за токены для закрытых моделей, аппаратные ресурсы и модель вывода для открытых моделей.
* Результаты бенчмарков: показатели качества кодирования, производительности в репозиториях и исправлении ошибок, поведения в контексте и в длинном контексте.

Источник