Компания Together AI выпустила DeepSWE — передового программного инженерного агента с полностью открытым исходным кодом, обученного исключительно с помощью метода обучения с подкреплением (RL). Агент создан на основе языковой модели Qwen3-32B и достигает 59% точности в бенчмарке SWEBench-Verified и 42,2% Pass@1, занимая первое место среди моделей с открытым весом.
Этот запуск знаменует собой значительный сдвиг для Together AI — от традиционных конвейеров предварительного обучения к созданию автономных языковых агентов, которые постоянно учатся и совершенствуются благодаря обратной связи из реального мира.
Обучение с подкреплением встречается с генерацией кода
DeepSWE — результат пост-тренировки базовой модели Qwen3-32B с использованием rLLM, модульной платформы обучения с подкреплением от Agentica, адаптированной для языковых агентов. В отличие от традиционных подходов к тонкой настройке под наблюдением, rLLM позволяет агентам адаптироваться к реальным рабочим процессам через опыт. DeepSWE специально обучен решать сложные задачи в области разработки программного обеспечения с помощью цикла обратной связи, а не статических наборов данных.
Конвейер обучения включает в себя набор данных Agentica R2EGym — бенчмарк в области разработки программного обеспечения, предназначенный для разработки агентов в стиле RL. Платформа фокусируется на обучении языковых моделей с целями, ориентированными на действия, такими как исправление ошибок, завершение функций и редактирование кода, а не просто на предсказании распределения следующих токенов. Это позволяет DeepSWE более тесно взаимодействовать с тем, как инженеры-люди выполняют итерации и учатся на основе результатов.
Показатели производительности и возможности
В SWEBench-Verified, наиболее строгом бенчмарке для агентов в области разработки программного обеспечения, DeepSWE набирает 59% при масштабировании во время тестирования. Это значительно превосходит предыдущие модели с открытым весом. В оценках Pass@1, которые измеряют вероятность того, что агент решит задачу правильно с первой попытки, DeepSWE достигает впечатляющих 42,2%.
Эти результаты подчёркивают эффективность обучения на основе RL в улучшении поведения агентов, особенно в областях, требующих итеративного рассуждения и точных результатов, таких как синтез кода. Архитектура модели, унаследованная от Qwen3-32B, позволяет ей эффективно масштабироваться, оставаясь при этом пригодной для использования в реальных условиях.
Открытый исходный код и воспроизводимость в основе
Одной из выдающихся особенностей этого релиза является его полная прозрачность. Together AI и Agentica открыли исходный код не только модели DeepSWE, но и весь рецепт обучения, включая фреймворк rLLM, набор данных R2EGym и скрипты настройки обучения. Это способствует воспроизводимости и приглашает более широкое исследовательское и девелоперское сообщества расширять DeepSWE или создавать на его основе новые решения без ограничений.
Разработчики могут получить доступ к DeepSWE и rLLM через:
* Модель: Hugging Face — DeepSWE.
* Фреймворк: репозиторий GitHub rLLM.
* Документация по обучению: обзор обучения DeepSWE.
От языковых рассуждателей к языковым агентам
DeepSWE знаменует собой философский и практический сдвиг: от создания моделей, которые рассуждают о языке, к созданию агентов, которые учатся через взаимодействие. Традиционные LLM показали сильные способности к рассуждению, но часто им не хватает способности адаптироваться к обратной связи или совершенствоваться с использованием. Обучение с подкреплением позволяет этим моделям не только хорошо работать при запуске, но и улучшаться со временем, адаптируясь к новым распределениям задач и областям.
Такой подход также открывает возможности для локального развёртывания. Поскольку DeepSWE полностью открыт и модулен, его можно расширять и переобучать для конкретных случаев использования в организациях. Разработчики и исследователи могут создавать своих собственных агентов на основе DeepSWE, используя rLLM для работы в различных областях, таких как веб-навигация, робототехника или автономная исследовательская помощь.
Заключение
DeepSWE — это веха в эволюции генеративного ИИ для разработки программного обеспечения. Применяя обучение с подкреплением к большим языковым моделям, таким как Qwen3-32B, и выпуская всю обучающую инфраструктуру, Together AI создаёт будущее, в котором агенты не просто предварительно обучены и развёрнуты, но постоянно обучаются и совершенствуются. Переход от понимания языка к действиям, ориентированным на действия, имеет значительные последствия для программирования, автоматизации и проектирования интеллектуальных систем.
Модель: Hugging Face — DeepSWE.
Фреймворк: репозиторий GitHub rLLM.
Документация по обучению: обзор обучения DeepSWE.
Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.
1. Какие ключевые особенности отличают DeepSWE от других моделей в области разработки программного обеспечения?
DeepSWE отличается от других моделей в области разработки программного обеспечения тем, что он обучен с помощью метода обучения с подкреплением (RL) и специально адаптирован для решения сложных задач в области разработки программного обеспечения. Кроме того, DeepSWE открыт для использования и модификации, что позволяет исследователям и разработчикам адаптировать его под свои нужды.
2. Какие преимущества предоставляет использование обучения с подкреплением (RL) для языковых агентов, таких как DeepSWE?
Использование обучения с подкреплением для языковых агентов, таких как DeepSWE, позволяет им адаптироваться к реальным рабочим процессам через опыт. Это означает, что агенты могут учиться на основе обратной связи и совершенствовать своё поведение со временем. В отличие от традиционных подходов к тонкой настройке под наблюдением, RL позволяет агентам более тесно взаимодействовать с тем, как инженеры-люди выполняют итерации и учатся на основе результатов.
3. Какие показатели производительности демонстрирует DeepSWE в бенчмарке SWEBench-Verified?
В бенчмарке SWEBench-Verified DeepSWE демонстрирует впечатляющие результаты, набирая 59% при масштабировании во время тестирования. Это значительно превосходит предыдущие модели с открытым весом. В оценках Pass@1, которые измеряют вероятность того, что агент решит задачу правильно с первой попытки, DeepSWE достигает 42,2%.
4. Какие возможности предоставляет открытый исходный код DeepSWE для исследовательского и девелоперского сообществ?
Открытый исходный код DeepSWE предоставляет исследовательскому и девелоперскому сообществам возможность расширять DeepSWE или создавать на его основе новые решения без ограничений. Разработчики могут получить доступ к DeepSWE и rLLM через Hugging Face и GitHub, что упрощает процесс изучения и модификации модели.
5. Какие потенциальные применения имеет DeepSWE помимо разработки программного обеспечения?
Хотя DeepSWE был разработан специально для решения сложных задач в области разработки программного обеспечения, его модульность и открытость позволяют использовать его в различных областях. Например, разработчики и исследователи могут создавать своих собственных агентов на основе DeepSWE для работы в таких областях, как веб-навигация, робототехника или автономная исследовательская помощь.