Команда исследователей из Amazon выпустила A-Evolve — универсальную инфраструктуру для автоматизации разработки автономных агентов ИИ. Платформа призвана заменить ручное проектирование агентов на систематический автоматизированный процесс эволюции.
Проблема: узкое место ручной настройки
В настоящее время инженеры-разработчики программного обеспечения и ИИ часто сталкиваются с необходимостью вручную подбирать параметры и настраивать логику агентов. Когда агент не справляется с задачей (например, решает проблему на GitHub в SWE-bench), разработчик должен вручную проверять логи, выявлять сбой логики и переписывать запрос или добавлять новый инструмент.
A-Evolve создан для автоматизации этого процесса. Основная идея платформы заключается в том, что агента можно рассматривать как совокупность изменяемых артефактов, которые развиваются на основе структурированной обратной связи из окружающей среды. Это может превратить базового «семенного» агента в высокопроизводительного без «вмешательства человека».
Архитектура: рабочее пространство агента и манифест
A-Evolve вводит стандартизированную структуру каталогов — рабочее пространство агента. В этом рабочем пространстве определяется «ДНК» агента через пять ключевых компонентов:
* manifest.yaml: центральный файл конфигурации, в котором определяются метаданные агента, точки входа и рабочие параметры.
* prompts/: системные сообщения и инструкции, которые определяют логику рассуждений LLM.
* skills/: повторно используемые фрагменты кода или отдельные функции, которые агент может научиться выполнять.
* tools/: конфигурации для внешних интерфейсов и API.
* memory/: эпизодические данные и исторический контекст, используемые для обоснования будущих действий.
Механизм мутаций работает непосредственно с этими файлами. Вместо того чтобы просто изменять запрос в памяти, механизм модифицирует файлы кода и конфигурации в рабочем пространстве для повышения производительности.
Пятиэтапный цикл эволюции
Точность платформы обеспечивается её внутренней логикой, которая следует структурированному пятиэтапному циклу:
1. Solve: агент пытается выполнить задачи в целевой среде (BYOE).
2. Observe: система генерирует структурированные логи и фиксирует контрольные показатели.
3. Evolve: механизм мутаций анализирует наблюдения, чтобы определить точки сбоя, и модифицирует файлы в рабочем пространстве агента.
4. Gate: система проверяет новую мутацию на соответствие набору функций пригодности, чтобы убедиться, что она не вызывает регрессий.
5. Reload: агент перезапускается с обновлённым рабочим пространством, и цикл начинается заново.
Чтобы обеспечить воспроизводимость, A-Evolve интегрируется с Git. Каждая мутация автоматически получает git-тег (например, evo-1, evo-2). Если мутация не проходит этап «Gate» или показывает низкую производительность в следующем цикле, система может автоматически откатиться к последней стабильной версии.
Модульность «Принеси своё» (BYO)
A-Evolve разработан как модульная платформа, а не как конкретная модель агента. Это позволяет специалистам по ИИ заменять компоненты в зависимости от их конкретных потребностей:
* BYOA (Bring Your Own Agent): поддержка любой архитектуры, от базовых ReAct-циклов до сложных многоагентных систем.
* BYOE (Bring Your Own Environment): совместимость с различными доменами, включая программную инженерию, песочницы или облачные среды с интерфейсом командной строки.
* BYO-Algo (Bring Your Own Algorithm): гибкость использования различных стратегий эволюции, таких как мутация, управляемая LLM, или обучение с подкреплением (RL).
Тестирование производительности
Команда A-EVO-Lab протестировала платформу, используя базовую модель серии Claude на нескольких строгих тестах. Результаты показывают, что автоматизированная эволюция может привести агентов к первоклассной производительности:
* MCP-Atlas: достиг 79,4% (#1), увеличение на 3,4%. Этот тест специально оценивает возможности вызова инструментов с использованием протокола Model Context (MCP) на нескольких серверах.
* SWE-bench Verified: достиг 76,8% (~#5), улучшение на 2,6% в устранении реальных программных ошибок.
* Terminal-Bench 2.0: достиг 76,5% (~#7), увеличение на 13,0% в навыках работы с командной строкой в Dockerised средах.
* SkillsBench: достиг 34,9% (#2), увеличение на 15,2% в автономном обнаружении навыков.
В тесте MCP-Atlas система превратила общий запрос из 20 строк без начальных навыков в агента с пятью целевыми, специально написанными навыками, которые позволили ему занять первое место в таблице лидеров.
Реализация
A-Evolve предназначен для интеграции в существующие рабочие процессы Python. Вы предоставляете базовый агент. A-Evolve возвращает SOTA-агента. 3 строки кода. 0 часов ручного проектирования. Одна инфраструктура, любой домен, любой алгоритм эволюции.
Следующий фрагмент иллюстрирует, как инициализировать процесс эволюции:
«`python
import agent_evolve as ae
evolver = ae.Evolver(agent=»./my_agent», benchmark=»swe-verified»)
results = evolver.run(cycles=10)
«`
Ключевые выводы
* От ручной настройки к автоматизированной: A-Evolve сдвигает парадигму разработки от ручного проектирования агентов к автоматизированному процессу эволюции, позволяя агентам самостоятельно улучшать свою логику и код.
* Стандарт рабочего пространства агента: платформа рассматривает агентов как стандартизированное рабочее пространство, содержащее пять основных компонентов, обеспечивая чистый файловый интерфейс для механизма мутаций.
* Эволюция с обратной связью и Git: A-Evolve использует пятиэтапный цикл (Solve, Observe, Evolve, Gate, Reload) для обеспечения стабильных улучшений. Каждая мутация получает git-тег, что позволяет полностью воспроизвести процесс и автоматически откатиться, если мутация приведёт к регрессии.
* Модульная инфраструктура «Принеси своё»: платформа высокомодульна, поддерживает BYOA (агент), BYOE (среда) и BYO-Algo (алгоритм). Это позволяет разработчикам использовать любую модель или стратегию эволюции в любом специализированном домене.
* Доказанные достижения SOTA: инфраструктура уже продемонстрировала достижения на уровне State-of-the-Art, выводя агентов на первое место в MCP-Atlas (79,4%) и высокие рейтинги в SWE-bench Verified (~#5) и Terminal-Bench 2.0 (~#7) без ручного вмешательства.
1. Какие проблемы решает платформа A-Evolve и как она работает?
Платформа A-Evolve решает проблему ручной настройки параметров и логики агентов ИИ. Она автоматизирует процесс разработки автономных агентов, превращая базового «семенного» агента в высокопроизводительного без вмешательства человека. A-Evolve использует структурированную обратную связь из окружающей среды для эволюции агентов.
2. Какие ключевые компоненты определяют «ДНК» агента в A-Evolve?
«ДНК» агента в A-Evolve определяется через пять ключевых компонентов:
* manifest.yaml: центральный файл конфигурации, в котором определяются метаданные агента, точки входа и рабочие параметры.
* prompts/: системные сообщения и инструкции, которые определяют логику рассуждений LLM.
* skills/: повторно используемые фрагменты кода или отдельные функции, которые агент может научиться выполнять.
* tools/: конфигурации для внешних интерфейсов и API.
* memory/: эпизодические данные и исторический контекст, используемые для обоснования будущих действий.
3. Как работает пятиэтапный цикл эволюции в A-Evolve?
Пятиэтапный цикл эволюции в A-Evolve работает следующим образом:
1. Solve: агент пытается выполнить задачи в целевой среде (BYOE).
2. Observe: система генерирует структурированные логи и фиксирует контрольные показатели.
3. Evolve: механизм мутаций анализирует наблюдения, чтобы определить точки сбоя, и модифицирует файлы в рабочем пространстве агента.
4. Gate: система проверяет новую мутацию на соответствие набору функций пригодности, чтобы убедиться, что она не вызывает регрессий.
5. Reload: агент перезапускается с обновлённым рабочим пространством, и цикл начинается заново.
4. Какие возможности предоставляет платформа A-Evolve для модульности и гибкости?
A-Evolve разработана как модульная платформа, что позволяет специалистам по ИИ заменять компоненты в зависимости от их конкретных потребностей. Платформа поддерживает:
* BYOA (Bring Your Own Agent): поддержка любой архитектуры, от базовых ReAct-циклов до сложных многоагентных систем.
* BYOE (Bring Your Own Environment): совместимость с различными доменами, включая программную инженерию, песочницы или облачные среды с интерфейсом командной строки.
* BYO-Algo (Bring Your Own Algorithm): гибкость использования различных стратегий эволюции, таких как мутация, управляемая LLM, или обучение с подкреплением (RL).
5. Какие результаты были получены при тестировании платформы A-Evolve?
При тестировании платформы A-Evolve были получены следующие результаты:
* MCP-Atlas: достиг 79,4% (#1), увеличение на 3,4%.
* SWE-bench Verified: достиг 76,8% (~#5), улучшение на 2,6% в устранении реальных программных ошибок.
* Terminal-Bench 2.0: достиг 76,5% (~#7), увеличение на 13,0% в навыках работы с командной строкой в Dockerised средах.
* SkillsBench: достиг 34,9% (#2), увеличение на 15,2% в автономном обнаружении навыков.