Агент 0: полностью автономная структура ИИ, которая развивает высокоэффективных агентов без внешних данных через многоэтапную совместную эволюцию

Agent0 — это полностью автономная структура искусственного интеллекта (ИИ), которая развивает высокоэффективных агентов без внешних данных через многоэтапную совместную эволюцию и бесшовную интеграцию инструментов. Agent0 нацелен на математические и общие рассуждения. Он показывает, что тщательная генерация задач и интегрированные с инструментами развёртывания могут расширить возможности базовой модели по десяти бенчмаркам.

Как работает Agent0

Agent0 начинается с базовой политики, например, Qwen3 4B Base или Qwen3 8B Base. Он клонирует эту политику в:
* Учебный агент по учебным планам (Curriculum Agent πθ), который генерирует задачи.
* Исполнительный агент (Executor Agent πϕ), который решает эти задачи с помощью инструмента Python.

Обучение происходит в итерациях с двумя этапами:
1. Эволюция учебных планов: учебный агент генерирует пакет задач. Для каждой задачи исполнитель выбирает несколько ответов. Составной показатель вознаграждения измеряет, насколько неопределён исполнитель, как часто он использует инструмент и насколько разнообразен пакет. πθ обновляется с помощью групповой относительной оптимизации политики (GRPO) с использованием этого вознаграждения.
2. Эволюция исполнителя: обученный учебный агент замораживается. Он генерирует большой пул задач. Agent0 фильтрует этот пул, чтобы оставить только задачи, близкие к границе возможностей исполнителя, затем обучает исполнителя на этих задачах, используя цель RL, учитывающую неоднозначность, называемую оптимизацией динамической политики с учётом неоднозначности (ADPO).

Этот цикл создаёт обратную связь. По мере того как исполнитель становится сильнее, используя интерпретатор кода, учебный план должен генерировать более сложные задачи, требующие использования инструментов, чтобы поддерживать высокий уровень вознаграждения.

Результаты математических и общих рассуждений

Agent0 реализован на базе VeRL и оценён на Qwen3 4B Base и Qwen3 8B Base. Он использует интерпретатор Python в качестве единственного внешнего инструмента.

Исследовательская группа провела оценку по десяти бенчмаркам:
* Математические рассуждения: AMC, Minerva, MATH, GSM8K, Olympiad Bench, AIME24, AIME25.
* Общие рассуждения: SuperGPQA, MMLU Pro, BBEH.

Они сообщают о результатах pass@1 для большинства наборов данных и mean@32 для задач AMC и AIME.

Для Qwen3 8B Base Agent0 достигает:
* математического среднего показателя 58,2 против 49,2 для базовой модели;
* общего среднего показателя 42,1 против 34,5 для базовой модели.

Agent0 также превосходит сильные базовые модели, не требующие данных, такие как R Zero, Absolute Zero, SPIRAL и Socratic Zero, как с инструментами, так и без них.

Ключевые выводы

* Автономная совместная эволюция без данных: Agent0 устраняет необходимость во внешних наборах данных и человеческих аннотациях. Два агента, учебный агент и исполнительный агент, инициализируются из одной и той же базовой LLM и совместно развиваются только с помощью подкрепления обучения и инструмента Python.
* Учебный план на основе самонеопределённости: учебный агент использует самосогласованность и использование инструментов исполнителем для оценки задач. Он учится генерировать передовые задачи, которые не являются ни тривиальными, ни невыполнимыми, и которые явно требуют интегрированного с инструментами рассуждения.
* ADPO стабилизирует RL с псевдоэтикетками: исполнитель обучается с помощью оптимизации динамической политики с учётом неоднозначности. ADPO снижает вес высоко неоднозначных задач и адаптирует диапазон отсечения на основе самосогласованности, что делает обновления в стиле GRPO стабильными, когда вознаграждения поступают из псевдоэтикеток с большинством голосов.
* Последовательные достижения в математических и общих рассуждениях: на Qwen3 8B Base Agent0 улучшает математические тесты с 49,2 до 58,2 и общие рассуждения с 34,5 до 42,1, что соответствует относительному приросту примерно на 18% и 24%.
* Превосходит предыдущие фреймворки без данных: по десяти бенчмаркам Agent0 превосходит предыдущие самоэволюционирующие методы, такие как R Zero, Absolute Zero, SPIRAL и Socratic Zero, включая те, которые уже используют инструменты или внешние API.

Agent0 — важный шаг на пути к практическому, свободному от данных обучению с подкреплением для интегрированного с инструментами рассуждения. Он показывает, что базовая LLM может выступать как в роли учебного агента, так и в роли исполнительного агента, а GRPO с ADPO и VeRL Tool может обеспечить стабильное улучшение с помощью псевдоэтикеток большинства голосов.

Как создать нейросимволического гибридного агента, который сочетает логическое планирование с нейронным восприятием для надёжного автономного принятия решений

В этом руководстве мы покажем, как объединить сильные стороны символического рассуждения с нейронным обучением для создания мощного гибридного агента. Мы сосредоточимся на создании нейросимволической архитектуры, которая использует классическое планирование для структуры, правил и целенаправленного поведения, в то время как нейронные сети обрабатывают восприятие и уточнение действий.

Классы и их функции

1. SymbolicPlanner:
* init(): инициализирует планировщик с заданным размером сетки.
* get_successors(): возвращает список преемников для данного состояния.
* heuristic(): возвращает эвристическую оценку для данного состояния.
astarplan(): генерирует оптимальный план действий с помощью алгоритма A.

2. NeuralPerception:
* init(): инициализирует нейронное восприятие с заданным размером сетки.
* perceive(): воспринимает зашумленное наблюдение и возвращает очищенное представление.

3. NeuralPolicy:
* init(): инициализирует нейронную политику с заданным размером состояния и действия.
* getactionprobs(): возвращает вероятности действий для данного состояния.
* select_action(): выбирает действие на основе вероятностей и символического действия.

4. NeuroSymbolicAgent:
* init(): инициализирует нейросимволического агента с заданным размером сетки.
* createnoisyobservation(): создаёт зашумленное наблюдение.
* extractstatefeatures(): извлекает признаки состояния.
* execute_mission(): выполняет миссию.

Визуализация выполнения

Мы визуализируем, как агент перемещается по среде и как структурирована архитектура. Мы строим препятствия, объекты, цель и полную траекторию, чтобы можно было чётко увидеть процесс принятия решений агентом.

Запуск полного нейросимволического конвейера

Мы запускаем полный нейросимволический конвейер от планирования до исполнения и визуализации. Мы создаём агента, выполняем миссию и отображаем ключевые идеи, чтобы обобщить поведение системы.

В заключение мы наблюдаем, как плавно работают символические и нейронные компоненты, чтобы создать более способного и надёжного агента. Мы ценим то, как символический планировщик даёт нам прозрачные, поддающиеся проверке шаги, в то время как нейронный слой добавляет адаптивность и перцептивную основу, которую не может предложить чистая логика.

Через этот гибридный подход мы можем создавать агентов, которые рассуждают, воспринимают и действуют разумно и интерпретируемо. Мы подходим к более глубокому пониманию того, как нейросимволический ИИ приближает нас к практическим, устойчивым агентским системам.

1. Какие основные принципы лежат в основе работы Agent0 и как они способствуют развитию высокоэффективных агентов?

Ответ: Agent0 работает на основе многоэтапной совместной эволюции и бесшонной интеграции инструментов. Он начинает с базовой политики и развивает её через генерацию задач и их решение с помощью инструментов. Это позволяет расширить возможности базовой модели по десяти бенчмаркам.

2. Какие этапы включает в себя процесс обучения Agent0 и как они влияют на его эффективность?

Ответ: процесс обучения Agent0 включает в себя два этапа: эволюцию учебных планов и эволюцию исполнителя. На первом этапе учебный агент генерирует задачи, а исполнительный агент решает их. На втором этапе обученный учебный агент генерирует большой пул задач, а Agent0 фильтрует этот пул и обучает исполнителя на этих задачах. Этот цикл создаёт обратную связь, которая позволяет исполнителю становиться сильнее.

3. Какие результаты были получены при оценке Agent0 на Qwen3 8B Base и как они сравниваются с результатами базовой модели?

Ответ: при оценке на Qwen3 8B Base Agent0 достигает математического среднего показателя 58,2 против 49,2 для базовой модели и общего среднего показателя 42,1 против 34,5 для базовой модели. Это соответствует относительному приросту примерно на 18% и 24% соответственно. Agent0 также превосходит сильные базовые модели, не требующие данных, такие как R Zero, Absolute Zero, SPIRAL и Socratic Zero.

4. Какие ключевые выводы можно сделать из исследования Agent0 и как они могут повлиять на будущее развитие ИИ?

Ответ: ключевые выводы из исследования Agent0 включают автономную совместную эволюцию без данных, учебный план на основе самонеопределённости, ADPO для стабилизации RL с псевдоэтикетками и последовательные достижения в математических и общих рассуждениях. Эти выводы могут повлиять на будущее развитие ИИ, позволяя создавать более эффективные и автономные системы.

5. Какие классы и их функции используются для создания нейросимволического гибридного агента и как они взаимодействуют между собой?

Ответ: для создания нейросимволического гибридного агента используются следующие классы: SymbolicPlanner, NeuralPerception, NeuralPolicy и NeuroSymbolicAgent. SymbolicPlanner отвечает за планирование, NeuralPerception — за восприятие, NeuralPolicy — за выбор действий, а NeuroSymbolicAgent — за выполнение миссии. Эти классы взаимодействуют между собой для создания более способного и надёжного агента.

Источник