Знакомьтесь: A-Evolve — момент PyTorch для агентских систем ИИ

Команда исследователей из Amazon выпустила A-Evolve — универсальную инфраструктуру для автоматизации разработки автономных агентов ИИ. Платформа призвана заменить ручное проектирование агентов на систематический автоматизированный процесс эволюции.

Проблема: узкое место ручной настройки

В настоящее время инженеры-разработчики программного обеспечения и ИИ часто сталкиваются с необходимостью вручную подбирать параметры и настраивать логику агентов. Когда агент не справляется с задачей (например, решает проблему на GitHub в SWE-bench), разработчик должен вручную проверять логи, выявлять сбой логики и переписывать запрос или добавлять новый инструмент.

A-Evolve создан для автоматизации этого процесса. Основная идея платформы заключается в том, что агента можно рассматривать как совокупность изменяемых артефактов, которые развиваются на основе структурированной обратной связи из окружающей среды. Это может превратить базового «семенного» агента в высокопроизводительного без «вмешательства человека».

Архитектура: рабочее пространство агента и манифест

A-Evolve вводит стандартизированную структуру каталогов — рабочее пространство агента. В этом рабочем пространстве определяется «ДНК» агента через пять ключевых компонентов:

* manifest.yaml: центральный файл конфигурации, в котором определяются метаданные агента, точки входа и рабочие параметры.
* prompts/: системные сообщения и инструкции, которые определяют логику рассуждений LLM.
* skills/: повторно используемые фрагменты кода или отдельные функции, которые агент может научиться выполнять.
* tools/: конфигурации для внешних интерфейсов и API.
* memory/: эпизодические данные и исторический контекст, используемые для обоснования будущих действий.

Механизм мутаций работает непосредственно с этими файлами. Вместо того чтобы просто изменять запрос в памяти, механизм модифицирует файлы кода и конфигурации в рабочем пространстве для повышения производительности.

Пятиэтапный цикл эволюции

Точность платформы обеспечивается её внутренней логикой, которая следует структурированному пятиэтапному циклу:

1. Solve: агент пытается выполнить задачи в целевой среде (BYOE).
2. Observe: система генерирует структурированные логи и фиксирует контрольные показатели.
3. Evolve: механизм мутаций анализирует наблюдения, чтобы определить точки сбоя, и модифицирует файлы в рабочем пространстве агента.
4. Gate: система проверяет новую мутацию на соответствие набору функций пригодности, чтобы убедиться, что она не вызывает регрессий.
5. Reload: агент перезапускается с обновлённым рабочим пространством, и цикл начинается заново.

Чтобы обеспечить воспроизводимость, A-Evolve интегрируется с Git. Каждая мутация автоматически получает git-тег (например, evo-1, evo-2). Если мутация не проходит этап «Gate» или показывает низкую производительность в следующем цикле, система может автоматически откатиться к последней стабильной версии.

Модульность «Принеси своё» (BYO)

A-Evolve разработан как модульная платформа, а не как конкретная модель агента. Это позволяет специалистам по ИИ заменять компоненты в зависимости от их конкретных потребностей:

* BYOA (Bring Your Own Agent): поддержка любой архитектуры, от базовых ReAct-циклов до сложных многоагентных систем.
* BYOE (Bring Your Own Environment): совместимость с различными доменами, включая программную инженерию, песочницы или облачные среды с интерфейсом командной строки.
* BYO-Algo (Bring Your Own Algorithm): гибкость использования различных стратегий эволюции, таких как мутация, управляемая LLM, или обучение с подкреплением (RL).

Тестирование производительности

Команда A-EVO-Lab протестировала платформу, используя базовую модель серии Claude на нескольких строгих тестах. Результаты показывают, что автоматизированная эволюция может привести агентов к первоклассной производительности:

* MCP-Atlas: достиг 79,4% (#1), увеличение на 3,4%. Этот тест специально оценивает возможности вызова инструментов с использованием протокола Model Context (MCP) на нескольких серверах.
* SWE-bench Verified: достиг 76,8% (~#5), улучшение на 2,6% в устранении реальных программных ошибок.
* Terminal-Bench 2.0: достиг 76,5% (~#7), увеличение на 13,0% в навыках работы с командной строкой в Dockerised средах.
* SkillsBench: достиг 34,9% (#2), увеличение на 15,2% в автономном обнаружении навыков.

В тесте MCP-Atlas система превратила общий запрос из 20 строк без начальных навыков в агента с пятью целевыми, специально написанными навыками, которые позволили ему занять первое место в таблице лидеров.

Реализация

A-Evolve предназначен для интеграции в существующие рабочие процессы Python. Вы предоставляете базовый агент. A-Evolve возвращает SOTA-агента. 3 строки кода. 0 часов ручного проектирования. Одна инфраструктура, любой домен, любой алгоритм эволюции.

Следующий фрагмент иллюстрирует, как инициализировать процесс эволюции:

«`python
import agent_evolve as ae

evolver = ae.Evolver(agent=»./my_agent», benchmark=»swe-verified»)
results = evolver.run(cycles=10)
«`

Ключевые выводы

* От ручной настройки к автоматизированной: A-Evolve сдвигает парадигму разработки от ручного проектирования агентов к автоматизированному процессу эволюции, позволяя агентам самостоятельно улучшать свою логику и код.
* Стандарт рабочего пространства агента: платформа рассматривает агентов как стандартизированное рабочее пространство, содержащее пять основных компонентов, обеспечивая чистый файловый интерфейс для механизма мутаций.
* Эволюция с обратной связью и Git: A-Evolve использует пятиэтапный цикл (Solve, Observe, Evolve, Gate, Reload) для обеспечения стабильных улучшений. Каждая мутация получает git-тег, что позволяет полностью воспроизвести процесс и автоматически откатиться, если мутация приведёт к регрессии.
* Модульная инфраструктура «Принеси своё»: платформа высокомодульна, поддерживает BYOA (агент), BYOE (среда) и BYO-Algo (алгоритм). Это позволяет разработчикам использовать любую модель или стратегию эволюции в любом специализированном домене.
* Доказанные достижения SOTA: инфраструктура уже продемонстрировала достижения на уровне State-of-the-Art, выводя агентов на первое место в MCP-Atlas (79,4%) и высокие рейтинги в SWE-bench Verified (~#5) и Terminal-Bench 2.0 (~#7) без ручного вмешательства.

1. Какие проблемы решает платформа A-Evolve и как она работает?

Платформа A-Evolve решает проблему ручной настройки параметров и логики агентов ИИ. Она автоматизирует процесс разработки автономных агентов, превращая базового «семенного» агента в высокопроизводительного без вмешательства человека. A-Evolve использует структурированную обратную связь из окружающей среды для эволюции агентов.

2. Какие ключевые компоненты определяют «ДНК» агента в A-Evolve?

«ДНК» агента в A-Evolve определяется через пять ключевых компонентов:
* manifest.yaml: центральный файл конфигурации, в котором определяются метаданные агента, точки входа и рабочие параметры.
* prompts/: системные сообщения и инструкции, которые определяют логику рассуждений LLM.
* skills/: повторно используемые фрагменты кода или отдельные функции, которые агент может научиться выполнять.
* tools/: конфигурации для внешних интерфейсов и API.
* memory/: эпизодические данные и исторический контекст, используемые для обоснования будущих действий.

3. Как работает пятиэтапный цикл эволюции в A-Evolve?

Пятиэтапный цикл эволюции в A-Evolve работает следующим образом:
1. Solve: агент пытается выполнить задачи в целевой среде (BYOE).
2. Observe: система генерирует структурированные логи и фиксирует контрольные показатели.
3. Evolve: механизм мутаций анализирует наблюдения, чтобы определить точки сбоя, и модифицирует файлы в рабочем пространстве агента.
4. Gate: система проверяет новую мутацию на соответствие набору функций пригодности, чтобы убедиться, что она не вызывает регрессий.
5. Reload: агент перезапускается с обновлённым рабочим пространством, и цикл начинается заново.

4. Какие возможности предоставляет платформа A-Evolve для модульности и гибкости?

A-Evolve разработана как модульная платформа, что позволяет специалистам по ИИ заменять компоненты в зависимости от их конкретных потребностей. Платформа поддерживает:
* BYOA (Bring Your Own Agent): поддержка любой архитектуры, от базовых ReAct-циклов до сложных многоагентных систем.
* BYOE (Bring Your Own Environment): совместимость с различными доменами, включая программную инженерию, песочницы или облачные среды с интерфейсом командной строки.
* BYO-Algo (Bring Your Own Algorithm): гибкость использования различных стратегий эволюции, таких как мутация, управляемая LLM, или обучение с подкреплением (RL).

5. Какие результаты были получены при тестировании платформы A-Evolve?

При тестировании платформы A-Evolve были получены следующие результаты:
* MCP-Atlas: достиг 79,4% (#1), увеличение на 3,4%.
* SWE-bench Verified: достиг 76,8% (~#5), улучшение на 2,6% в устранении реальных программных ошибок.
* Terminal-Bench 2.0: достиг 76,5% (~#7), увеличение на 13,0% в навыках работы с командной строкой в Dockerised средах.
* SkillsBench: достиг 34,9% (#2), увеличение на 15,2% в автономном обнаружении навыков.

Источник