Сфера автоматизации разработки программного обеспечения быстро развивается благодаря достижениям в области больших языковых моделей (LLM). Однако большинство подходов к обучению эффективных агентов основаны на проприетарных моделях или дорогостоящих методах, основанных на работе с учителями, что ограничивает возможности LLM с открытым исходным кодом в реальных сценариях.
Команда исследователей из Nebius AI и Humanoid представила фреймворк обучения с подкреплением для подготовки программных инженеров, работающих с длинными контекстами и многоходовыми задачами, используя модифицированный алгоритм оптимизации политики с отключённой связью (DAPO).
Выход за рамки одноходового обучения с подкреплением (RL)
Большинство методов RL для LLM оптимизированы для таких задач, как математические рассуждения или однократная генерация кода, где действия агента вознаграждаются только в конце, а среда не предоставляет промежуточную обратную связь. Однако разработка программного обеспечения (SWE) принципиально отличается: она требует от агентов выполнения длительных последовательностей действий, интерпретации богатой обратной связи (ошибки компилятора, журналы тестирования) и сохранения контекста на протяжении сотен тысяч токенов — что значительно превышает типичные одношаговые циклы взаимодействия.
Основные проблемы RL для SWE
1. Долгосрочное логическое рассуждение: агенты должны поддерживать логическую согласованность на протяжении многих шагов, часто требуя контекстных окон более 100 тысяч токенов.
2. Обратная связь от среды с состоянием: действия дают значимые, нетривиальные наблюдения (например, выходные данные команд оболочки, результаты тестовых наборов), которые направляют последующие решения.
3. Редкие/задержанные вознаграждения: сигналы успеха обычно появляются только в конце сложных взаимодействий, что усложняет назначение кредитов.
4. Сложность оценки: измерение прогресса требует полного развёртывания траектории и может быть неточным из-за нестабильности тестов.
Технический рецепт: модифицированный DAPO и дизайн агента
Исследовательская группа демонстрирует двухэтапный процесс обучения для подготовки агента Qwen2.5-72B-Instruct:
1. Тонкая настройка с отказом (RFT): агент запускается на 7 249 тщательно отфильтрованных задачах SWE (из набора данных SWE-REBENCH). Успешные траектории взаимодействия, где агент проходит тестовый набор, используются для тонкой настройки модели, особенно маскируя недопустимые действия по форматированию среды во время обучения. Это само по себе повышает базовую точность с 11% до 20% на бенчмарке SWE-bench Verified.
2. Обучение с подкреплением с использованием модифицированного DAPO: на основе оптимизации политики с отключённой связью (DAPO) внесены несколько ключевых модификаций для масштабируемости и стабильности:
* Асимметричное ограничение: предотвращает коллапс энтропии политики, поддерживая исследование.
* Динамическая фильтрация выборки: фокусирует оптимизацию на траекториях с фактическим сигналом обучения.
* Длина штрафов: препятствует чрезмерной длине эпизодов, помогая агенту избежать застревания в циклах.
* Усреднение на уровне токенов: каждый токен в каждой траектории вносит равный вклад в градиент, что позволяет более длинным траекториям влиять на обновления.
Агент использует цикл в стиле ReAct, который позволяет ему сочетать шаги рассуждения с использованием инструментов. Его поддерживаемый набор инструментов включает произвольные команды оболочки, точные правки кода, утилиты навигации/поиска и действие отправки для сигнализации завершения эпизода. Каждое взаимодействие основано на надёжной изолированной среде, инициализированной из реальных снимков репозитория и поддерживаемой с помощью подсказки в стиле GitHub-issues.
Масштабирование до длинных контекстов и реальных бенчмарков
Изначально обученный с длиной контекста 65 тысяч токенов (что уже вдвое больше, чем у большинства открытых моделей), производительность останавливается на уровне 32%. Второй этап RL расширяет контекст до 131 тысячи токенов и удваивает потолок длины эпизодов, сосредотачивая последующее обучение только на наиболее полезных задачах из пула. Это позволяет масштабировать работу с более длинными трассировками стека и историями diff, присущими реальным задачам отладки и исправления.
Результаты: сокращение разрыва с базовыми показателями
Финальный агент, обученный с помощью RL, достигает точности Pass@1 39% на бенчмарке SWE-bench Verified, удваивая базовый уровень тонкой настройки с отказом и соответствуя производительности передовых моделей открытого веса, таких как DeepSeek-V3-0324, без надзора со стороны учителя.
На удержанных сплитах SWE-rebench оценки остаются конкурентоспособными (35% за май, 31,7% за июнь), что указывает на надёжность метода.
При сравнении с ведущими открытыми базовыми показателями и специализированными агентами SWE агент RL соответствует или превосходит несколько моделей, подтверждая эффективность методологии RL в этой области.
| Модель | Pass@1 SWE-bench Verified | Pass@10 SWE-bench Verified | Pass@1 SWE-rebench May | Pass@10 SWE-rebench May |
|——-|——-|——-|——-|——-|
| Qwen2.5-72B-Instruct (RL, final) | 39,04% | 58,4% | 35,0% | 52,5% |
| DeepSeek-V3-0324 | 39,56% | 62,2% | 36,75% | 60,0% |
| Qwen3-235B no-thinking | 25,84% | 54,4% | 27,25% | 57,5% |
| Llama4 Maverick | 15,84% | 47,2% | 19,0% | 50,0% |
Оценки Pass@1 усреднены по 10 запускам и представлены как среднее значение ± стандартная ошибка.
Ключевые выводы
* Назначение кредитов: RL в этом режиме с редкими вознаграждениями остаётся принципиально сложной задачей. В статье предлагается дальнейшая работа с формированием вознаграждений, критиками на уровне шагов или префиксными развёртываниями для более детальной обратной связи.
* Оценка неопределённости: агентам в реальных условиях необходимо знать, когда воздержаться или выразить уверенность. Следующими шагами являются такие методы, как энтропия выходных данных или явная оценка достоверности.
* Инфраструктура: для обучения использовался контекстный параллелизм (разделение длинных последовательностей между GPU) на 16 узлах H200 с распределённой оркестрацией через Kubernetes и Tracto AI, а также vLLM для быстрого вывода.
Заключение
Это исследование подтверждает, что RL является мощной парадигмой для создания автономных инженеров-программистов с использованием LLM открытого веса. Преодолевая долгосрочные, многоходовые задачи в реальных средах, методология открывает путь для масштабируемой разработки агентов без участия учителя — напрямую используя возможности взаимодействия, а не статические инструкции. При дальнейшей доработке такие конвейеры RL обещают эффективную, надёжную и универсальную автоматизацию для будущего разработки программного обеспечения.
1. Какие проблемы существуют при использовании RL для разработки программного обеспечения (SWE) и как их решает Nebius AI?
В статье указано, что большинство методов RL для LLM оптимизированы для однократной генерации кода или математических рассуждений, где действия агента вознаграждаются только в конце. Для SWE требуется выполнение длительных последовательностей действий, интерпретация богатой обратной связи и сохранение контекста. Nebius AI решает эти проблемы с помощью модифицированного алгоритма оптимизации политики с отключённой связью (DAPO), который позволяет агентам поддерживать логическую согласованность на протяжении многих шагов и учитывать обратную связь от среды.
2. Какие модификации были внесены в алгоритм DAPO для масштабируемости и стабильности при обучении агентов с помощью RL?
В статье перечислены несколько ключевых модификаций:
* асимметричное ограничение, которое предотвращает коллапс энтропии политики и поддерживает исследование;
* динамическая фильтрация выборки, которая фокусирует оптимизацию на траекториях с фактическим сигналом обучения;
* длина штрафов, которая препятствует чрезмерной длине эпизодов и помогает агенту избежать застревания в циклах;
* усреднение на уровне токенов, которое позволяет более длинным траекториям влиять на обновления.
3. Какие результаты были достигнуты при использовании RL для обучения агента Qwen2.5-72B-Instruct?
Финальный агент, обученный с помощью RL, достигает точности Pass@1 39% на бенчмарке SWE-bench Verified, удваивая базовый уровень тонкой настройки с отказом. Это соответствует производительности передовых моделей открытого веса, таких как DeepSeek-V3-0324, без надзора со стороны учителя. При сравнении с ведущими открытыми базовыми показателями и специализированными агентами SWE агент RL соответствует или превосходит несколько моделей, подтверждая эффективность методологии RL в этой области.
4. Какие ключевые выводы были сделаны в результате исследования?
* RL в режиме с редкими вознаграждениями остаётся сложной задачей. В статье предлагается дальнейшая работа с формированием вознаграждений, критиками на уровне шагов или префиксными развёртываниями для более детальной обратной связи.
* Агентам в реальных условиях необходимо знать, когда воздержаться или выразить уверенность. Следующими шагами являются такие методы, как энтропия выходных данных или явная оценка достоверности.
* Для обучения использовался контекстный параллелизм на 16 узлах H200 с распределённой оркестрацией через Kubernetes и Tracto AI, а также vLLM для быстрого вывода.
5. Какие перспективы открывает методология RL для разработки программного обеспечения?
Исследование подтверждает, что RL является мощной парадигмой для создания автономных инженеров-программистов с использованием LLM открытого веса. При дальнейшей доработке такие конвейеры RL обещают эффективную, надёжную и универсальную автоматизацию для будущего разработки программного обеспечения.