ИИ-институт Allen выпустил SERA — агентов для кодирования с мягкой верификацией

Исследователи из Allen Institute for AI (AI2) представили SERA — семейство агентов для кодирования, которые соответствуют более крупным закрытым системам, используя только обучение с учителем и синтетические траектории.

Что такое SERA?

SERA — это первый выпуск в серии Open Coding Agents от AI2. Флагманская модель SERA-32B построена на архитектуре Qwen 3 32B и обучена как агент для кодирования на уровне репозитория.

На SWE bench при верификации в контексте 32К SERA-32B достигает 49,5% уровня разрешения. При 64К контексте — 54,2%. Эти показатели соответствуют производительности таких систем с открытым весом, как Devstral-Small-2 с 24 миллиардами параметров и GLM-4.5 Air с 110 миллиардами параметров, при этом SERA остаётся полностью открытой в коде, данных и весах.

Серия включает четыре модели: SERA-8B, SERA-8B GA, SERA-32B и SERA-32B GA. Все они выпущены на Hugging Face под лицензией Apache 2.0.

Обучение с мягкой верификацией

Процесс обучения основан на Soft Verified Generation (SVG). SVG создаёт траектории агентов, которые выглядят как реалистичные рабочие процессы разработчиков, а затем использует согласование патчей между двумя развёртываниями в качестве мягкого сигнала корректности.

Процесс:

1. Первый запуск: выбирается функция из реального репозитория. Модель учителя, GLM-4.6 в настройке SERA-32B, получает описание стиля ошибок или изменений и работает с инструментами для просмотра файлов, редактирования кода и выполнения команд. Она создаёт траекторию T1 и патч P1.

2. Синтетический запрос на извлечение: система преобразует траекторию в описание запроса на извлечение. Этот текст суммирует намерения и ключевые изменения в формате, аналогичном реальным запросам на извлечение.

3. Второй запуск: учитель начинает снова с исходного репозитория, но теперь он видит только описание запроса на извлечение и инструменты. Он создаёт новую траекторию T2 и патч P2, которые пытаются реализовать описанное изменение.

4. Мягкая верификация: патчи P1 и P2 сравниваются построчно. Вычисляется показатель отзыва r как доля изменённых строк в P1, которые появляются в P2. Когда r равен 1, траектория проходит жёсткую верификацию. Для промежуточных значений образец проходит мягкую верификацию.

Ключевой результат исследования заключается в том, что строгая верификация не требуется. Когда модели обучаются на траекториях T2 с различными порогами r, даже r = 0, производительность на SWE bench Verified остаётся аналогичной при фиксированном количестве образцов. Это говорит о том, что реалистичные многошаговые трассировки, даже если они содержат шум, являются ценным руководством для агентов кодирования.

Масштаб данных, обучение и стоимость

SVG применяется к 121 репозиторию Python, полученному из корпуса SWE-smith. В рамках запусков GLM-4.5 Air и GLM-4.6 наборы данных SERA содержат более 200 000 траекторий из обоих развёртываний.

SERA-32B обучается на подмножестве из 25 000 траекторий T2 из набора данных Sera-4.6-Lite T2. Обучение использует стандартную тонкую настройку с учителем с помощью Axolotl на Qwen-3-32B в течение 3 эпох, скорость обучения 1e-5, затухание веса 0,01 и максимальную длину последовательности 32 768 токенов.

Специализация репозитория

Центральным вариантом использования является адаптация агента к конкретному репозиторию. Команда исследователей изучает это на трёх основных проектах SWE-bench Verified: Django, SymPy и Sphinx.

Для каждого репозитория SVG генерирует порядка 46 000–54 000 траекторий. Из-за ограничений по вычислениям эксперименты по специализации обучаются на 8 000 траекторий для каждого репозитория, смешивая 3 000 траекторий с мягкой верификацией T2 с 5 000 отфильтрованных траекторий T1.

При 32К контекста специализированные модели соответствуют или немного превосходят учителя GLM-4.5-Air, а также хорошо сравниваются с Devstral-Small-2 на этих подмножествах репозиториев.

Основные выводы

* SERA превращает задачу обучения агентов для кодирования в задачу обучения с учителем: SERA-32B обучается с помощью стандартной тонкой настройки с учителем на синтетических траекториях из GLM-4.6, без цикла обучения с подкреплением и без зависимости от наборов тестов репозитория.
* Soft Verified Generation устраняет необходимость в тестах: SVG использует два развёртывания и перекрытие патчей между P1 и P2 для вычисления мягкого показателя верификации, и команда исследователей показывает, что даже непроверенные или слабо проверенные траектории могут обучать эффективных агентов для кодирования.
* Большой реалистичный набор данных агентов из реальных репозиториев: конвейер применяет SVG к 121 проекту Python из корпуса SWE smith, создавая более 200 000 траекторий и формируя один из крупнейших открытых наборов данных для агентов кодирования.
* Эффективное обучение с явным анализом затрат и масштабирования: SERA-32B обучается на 25 000 траекторий T2, и исследование масштабирования показывает, что SVG примерно в 26 раз дешевле, чем SkyRL-Agent, и в 57 раз дешевле, чем SWE-smith при аналогичной производительности на SWE bench Verified.

1. Какие ключевые особенности отличают SERA от других систем для кодирования?

SERA отличается тем, что представляет собой семейство агентов для кодирования, которые соответствуют более крупным закрытым системам, используя только обучение с учителем и синтетические траектории. Это делает SERA уникальной в контексте разработки агентов для кодирования.

2. Какие модели входят в серию SERA и какие у них характеристики?

Серия включает четыре модели: SERA-8B, SERA-8B GA, SERA-32B и SERA-32B GA. Они выпущены на Hugging Face под лицензией Apache 2.0. Флагманская модель SERA-32B построена на архитектуре Qwen 3 32B и обучена как агент для кодирования на уровне репозитория.

3. Как работает процесс обучения SERA с использованием Soft Verified Generation (SVG)?

Процесс обучения основан на Soft Verified Generation (SVG), который создаёт траектории агентов, выглядящие как реалистичные рабочие процессы разработчиков. Затем используется согласование патчей между двумя развёртываниями в качестве мягкого сигнала корректности. Это позволяет обучать агентов для кодирования на уровне репозитория без необходимости в строгих тестах.

4. Какие результаты были получены при тестировании SERA на SWE bench?

5. Какие выводы можно сделать из исследования о применении SERA для адаптации к конкретным репозиториям?

Исследование показывает, что SERA может быть адаптирована к конкретному репозиторию. Для каждого репозитория SVG генерирует порядка 46 000–54 000 траекторий. При 32К контекста специализированные модели соответствуют или немного превосходят учителя GLM-4.5-Air, а также хорошо сравниваются с Devstral-Small-2 на этих подмножествах репозиториев.

Источник