Mistral AI выпустила Devstral 2507 для языкового моделирования, ориентированного на код

Mistral AI совместно с All Hands AI выпустила обновлённые версии своих больших языковых моделей, ориентированных на разработчиков, под маркой Devstral 2507. В релиз вошли две модели — Devstral Small 1.1 и Devstral Medium 2507 — предназначенные для поддержки рассуждений на основе агентов, синтеза программ и выполнения структурированных задач в крупных программных репозиториях. Эти модели оптимизированы по производительности и стоимости, что делает их пригодными для использования в реальных условиях в инструментах разработчика и системах автоматизации кода.

Devstral Small 1.1: открытая модель для локального и встроенного использования

Devstral Small 1.1 (также называемый devstral-small-2507) основан на базовой модели Mistral-Small-3.1 и содержит примерно 24 миллиарда параметров. Он поддерживает контекстное окно в 128 тысяч токенов, что позволяет ему обрабатывать многофайловые входные данные кода и длинные запросы, типичные для рабочих процессов разработки программного обеспечения.

Модель специально настроена для структурированных выходных данных, включая XML и форматы вызова функций. Это делает её совместимой с такими платформами агентов, как OpenHands, и пригодной для таких задач, как навигация по программам, многоэтапные правки и поиск кода. Она лицензирована по Apache 2.0 и доступна как для исследований, так и для коммерческого использования.

Производительность: результаты SWE-Bench

Devstral Small 1.1 достигает 53,6% по верифицированному тесту SWE-Bench, который оценивает способность модели генерировать правильные исправления для реальных проблем GitHub. Это заметное улучшение по сравнению с предыдущей версией (1.0) и ставит её впереди других открытых моделей сопоставимого размера. Результаты были получены с использованием каркаса OpenHands, который обеспечивает стандартную тестовую среду для оценки агентов кодирования.

Хотя эта версия и не достигла уровня крупнейших проприетарных моделей, она предлагает баланс между размером, стоимостью вывода и производительностью рассуждений, что практично для многих задач кодирования.

Развёртывание: локальный вывод и квантование

Модель выпущена в нескольких форматах. Квантованные версии в GGUF доступны для использования с llama.cpp, vLLM и LM Studio. Эти форматы позволяют запускать вывод локально на графических процессорах с большим объёмом памяти (например, RTX 4090) или на компьютерах Apple Silicon с 32 ГБ ОЗУ или более. Это полезно для разработчиков или команд, которые предпочитают работать без зависимости от размещённых API.

Mistral также предоставляет модель через свой API вывода. Текущая цена составляет 0,10 доллара за миллион входных токенов и 0,30 доллара за миллион выходных токенов, как и у других моделей линейки Mistral-Small.

Devstral Medium 2507: более высокая точность, только API

Devstral Medium 2507 не является открытым исходным кодом и доступен только через API Mistral или через соглашения о развёртывании на предприятиях. Он предлагает ту же длину контекста в 128 тысяч токенов, что и малая версия, но с более высокой производительностью.

Модель набрала 61,6% по верифицированному SWE-Bench, опередив несколько коммерческих моделей, включая Gemini 2.5 Pro и GPT-4.1, в той же системе оценки. Её более высокая способность к рассуждению в длинных контекстах делает её кандидатом для агентов кодирования, которые работают в крупных монорепозиториях или репозиториях с межфайловыми зависимостями.

Сравнение и варианты использования

| Модель | SWE-Bench Verified | Открытый исходный код | Стоимость ввода | Стоимость вывода | Длина контекста |
| — | — | — | — | — | — |
| Devstral Small 1.1 | 53,6% | Да | $0,10/M | $0,30/M | 128 тысяч токенов |
| Devstral Medium | 61,6% | Нет | $0,40/M | $2,00/M | 128 тысяч токенов |

Devstral Small больше подходит для локальной разработки, экспериментов или интеграции в инструменты разработчика на стороне клиента, где важны контроль и эффективность. Напротив, Devstral Medium обеспечивает более высокую точность и согласованность в структурированных задачах по редактированию кода и предназначен для производственных служб, которые выигрывают от более высокой производительности, несмотря на возросшие затраты.

Интеграция с инструментами и агентами

Обе модели разработаны для поддержки интеграции с платформами агентов кодирования, такими как OpenHands. Поддержка структурированных вызовов функций и выходных форматов XML позволяет интегрировать их в автоматизированные рабочие процессы для генерации тестов, рефакторинга и исправления ошибок. Эта совместимость упрощает подключение моделей Devstral к плагинам IDE, ботам контроля версий и внутренним конвейерам CI/CD.

Например, разработчики могут использовать Devstral Small для создания прототипов локальных рабочих процессов, в то время как Devstral Medium можно использовать в производственных службах, которые применяют исправления или сортируют запросы на включение на основе предложений модели.

Заключение

Выпуск Devstral 2507 отражает целенаправленное обновление стека ориентированных на код LLM от Mistral, предлагая пользователям более чёткий компромисс между стоимостью вывода и точностью выполнения задач. Devstral Small предоставляет доступную открытую модель с достаточной производительностью для многих вариантов использования, в то время как Devstral Medium ориентирован на приложения, где правильность и надёжность имеют решающее значение.

Доступность обеих моделей в различных вариантах развёртывания делает их актуальными на различных этапах рабочего процесса разработки программного обеспечения — от экспериментальной разработки агентов до развёртывания в коммерческих средах.

1. Какие модели выпустила Mistral AI совместно с All Hands AI и для каких целей они предназначены?

Ответ: Mistral AI совместно с All Hands AI выпустила обновлённые версии больших языковых моделей под маркой Devstral 2507. В релиз вошли две модели — Devstral Small 1.1 и Devstral Medium 2507. Они предназначены для поддержки рассуждений на основе агентов, синтеза программ и выполнения структурированных задач в крупных программных репозиториях.

2. Какие параметры имеет модель Devstral Small 1.1 и для каких задач она подходит?

Ответ: Devstral Small 1.1 основан на базовой модели Mistral-Small-3.1 и содержит примерно 24 миллиарда параметров. Он поддерживает контекстное окно в 128 тысяч токенов, что позволяет ему обрабатывать многофайловые входные данные кода и длинные запросы, типичные для рабочих процессов разработки программного обеспечения. Модель специально настроена для структурированных выходных данных, включая XML и форматы вызова функций. Это делает её совместимой с такими платформами агентов, как OpenHands, и пригодной для таких задач, как навигация по программам, многоэтапные правки и поиск кода.

3. Какие результаты показала модель Devstral Small 1.1 по верифицированному тесту SWE-Bench?

Ответ: Devstral Small 1.1 достигает 53,6% по верифицированному тесту SWE-Bench, который оценивает способность модели генерировать правильные исправления для реальных проблем GitHub. Это заметное улучшение по сравнению с предыдущей версией (1.0) и ставит её впереди других открытых моделей сопоставимого размера.

4. Какие модели и с каким результатом опередила модель Devstral Medium 2507 в системе оценки SWE-Bench?

Ответ: Devstral Medium 2507 набрала 61,6% по верифицированному SWE-Bench, опередив несколько коммерческих моделей, включая Gemini 2.5 Pro и GPT-4.1.

5. В чём заключается разница между Devstral Small 1.1 и Devstral Medium 2507 с точки зрения их применения?

Ответ: Devstral Small больше подходит для локальной разработки, экспериментов или интеграции в инструменты разработчика на стороне клиента, где важны контроль и эффективность. Напротив, Devstral Medium обеспечивает более высокую точность и согласованность в структурированных задачах по редактированию кода и предназначен для производственных служб, которые выигрывают от более высокой производительности, несмотря на возросшие затраты.

Источник

Оставьте комментарий Отменить ответ