Новые гипе агенты Meta AI не просто решают задачи — они переписывают правила обучения

Мечта о рекурсивном самосовершенствовании в ИИ, где система не просто становится лучше в выполнении задачи, но и в обучении, долгое время была «святым Граалем» этой области. Теоретические модели, такие как машина Гёделя, существовали десятилетиями, но оставались практически неприменимыми в реальных условиях. Всё изменилось с появлением машины Дарвина-Гёделя (DGM), которая доказала, что открытое самосовершенствование достижимо в программировании.

Однако DGM столкнулась с серьёзным препятствием: она полагалась на фиксированный, созданный вручную механизм метауровня для генерации инструкций по улучшению. Это ограничивало рост системы рамками, заданными её мета-агентом, разработанным человеком.

Исследователи из Университета Британской Колумбии, Института Вектора, Эдинбургского университета, Нью-Йоркского университета, Canada CIFAR AI Chair, FAIR в Meta и Meta Superintelligence Labs представили гипер-агентов. Этот фреймворк делает процедуру модификации метауровня сама по себе редактируемой, устраняя предположение о том, что выполнение задачи и навыки самомодификации должны быть согласованы в предметной области.

Проблема: бесконечный регресс метауровней

Проблема существующих самосовершенствующихся систем часто заключается в «бесконечном регрессе». Если у вас есть агент задачи (часть, которая решает проблему) и метаагент (часть, которая улучшает агента задачи), кто улучшает метаагент? Добавление слоя «мета-мета» лишь смещает проблему вверх.

Кроме того, более ранние системы полагались на согласование между задачей и процессом улучшения. В программировании улучшение задачи часто означает улучшение самомодификации. Но в некодирующих областях — таких как поэзия или робототехника — улучшение навыка решения задач не обязательно улучшает способность анализировать и модифицировать исходный код.

Гипер-агенты: одна редактируемая программа

Фреймворк DGM-Hyperagent (DGM-H) решает эту проблему, интегрируя агента задачи и метаагента в единую, самореферентную и полностью модифицируемую программу. В этой архитектуре агент определяется как любая вычислимая программа, которая может включать вызовы базовой модели (FM) и внешние инструменты.

Поскольку метаагент является частью той же редактируемой кодовой базы, что и агент задачи, он может переписывать свои собственные процедуры модификации. Исследовательская группа называет это метакогнитивной самомодификацией. Гипер-агент не просто ищет лучшее решение; он улучшает механизм, ответственный за генерацию будущих улучшений.

Сравнение архитектур самосовершенствования

| Компонент | Darwin Gödel Machine (DGM) | DGM с гипер-агентами (DGM-H) |
| — | — | — |
| Механизм метауровня | Фиксированный и созданный вручную | Полностью редактируемый и модифицируемый |
| Согласование предметной области | Требуется (в основном в программировании) | Не требуется (для любой вычислимой задачи) |
| Тип модификации | Только на уровне задач | Метакогнитивный (задача + мета) |

Результаты: за пределами локальных оптимумов в робототехнике и рецензировании

Исследовательская группа протестировала DGM-H в различных областях: программировании, рецензировании статей, разработке вознаграждений для роботов и оценке математических задач на уровне олимпиад.

В области разработки вознаграждений для роботов гипер-агент был задействован для разработки функций вознаграждения на Python для обучения четвероногого робота в симуляторе Genesis. Во время этапа обучения агенты должны были разработать вознаграждения за ходьбу вперёд. Для тестирования, проводимого отдельно, агенты должны были с нуля генерировать функции вознаграждения для другой задачи: максимизации высоты туловища робота.

DGM-H значительно улучшил производительность, поднявшись с начального показателя 0,060 до 0,372 (CI: 0,355–0,436). Он успешно обнаружил немиопические функции вознаграждения, которые вызывали прыжковое поведение — более оптимальную стратегию для высоты, чем локальный оптимум простого стояния в полный рост.

В области рецензирования статей DGM-H улучшил производительность на тестовом наборе с 0,0 до 0,710 (CI: 0,590–0,750), превзойдя репрезентативный статический базовый уровень. Он перешёл от поверхностных поведенческих инструкций к созданию многоэтапных конвейеров оценки с явными контрольными списками и правилами принятия решений.

Передача «способности к улучшению»

Критическим выводом для исследователей ИИ является то, что эти метауровневые улучшения являются общими и передаваемыми. Чтобы количественно оценить это, исследовательская группа ввела метрику improvement@k (imp@k), которая измеряет прирост производительности, достигнутый фиксированным метаагентом за k шагов модификации.

Гипер-агенты, оптимизированные для задач рецензирования статей и робототехники, были перенесены в область оценки математических задач на уровне олимпиад. В то время как метаагенты из настроенных вручную запусков DGM не смогли добиться улучшений в новых условиях (imp@50 = 0,0), перенесённые гипер-агенты DGM-H достигли imp@50 в 0,630. Это демонстрирует, что система автономно приобрела передаваемые стратегии самосовершенствования.

Сложившаяся инфраструктура: отслеживание и память

Без явных инструкций гипер-агенты разработали сложные инженерные инструменты для поддержки собственного роста:

* Отслеживание производительности: они ввели классы для регистрации показателей в разных поколениях, определяя, какие изменения привели к устойчивому росту, а какие — к регрессу.
* Постоянная память: они реализовали хранение с отметкой времени для синтезированных идей и причинных гипотез, что позволило более поздним поколениям опираться на более ранние открытия.
* Планирование с учётом вычислений: они разработали логику для корректировки стратегий модификации на основе оставшегося бюджета эксперимента — отдавая приоритет фундаментальным архитектурным изменениям на раннем этапе и консервативным уточнениям на позднем.

Ключевые выводы

* Объединение агентов задач и метаагентов: гипер-агенты прекращают «бесконечный регресс» метауровней, объединяя агента задачи (который решает задачи) и метаагента (который улучшает систему) в единую, самореферентную программу.
* Метакогнитивная самомодификация: в отличие от предыдущих систем с фиксированной логикой улучшения, DGM-H может редактировать свою собственную «процедуру улучшения», по сути переписывая правила того, как она генерирует более совершенные версии себя.
* Масштабирование без привязки к предметной области: устраняя требование согласования в предметной области (ранее ограниченное в основном программированием), гипер-агенты демонстрируют эффективное самосовершенствование в любой вычислимой задаче, включая разработку вознаграждений для роботов и рецензирование статей.
* Передаваемые «обучающие» навыки: метауровневые улучшения являются обобщаемыми; гипер-агент, который учится улучшать вознаграждения для роботов, может перенести эти стратегии оптимизации для ускорения производительности в совершенно другой области, например, при оценке математических задач на уровне олимпиад.
* Сложившаяся инженерная инфраструктура: в своём стремлении к повышению производительности гипер-агенты автономно разрабатывают сложные инженерные инструменты — такие как постоянная память, отслеживание производительности и планирование с учётом вычислений — без явных инструкций человека.

Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в Telegram.

1. В чём заключается основное отличие гипер-агентов от предыдущих систем самосовершенствования, таких как машина Дарвина-Гёделя (DGM)?

Ответ: гипер-агенты отличаются от предыдущих систем тем, что интегрируют агента задачи и метаагента в единую, самореферентную и полностью модифицируемую программу. В отличие от DGM, где механизм метауровня был фиксированным и созданным вручную, гипер-агенты позволяют метаагенту переписывать свои собственные процедуры модификации.

2. Какие проблемы решает фреймворк DGM-Hyperagent (DGM-H) в контексте бесконечного регресса метауровней?

Ответ: фреймворк DGM-H решает проблему бесконечного регресса метауровней, объединяя агента задачи и метаагента в единую программу. Это устраняет необходимость в согласовании между задачей и процессом улучшения, позволяя системе самостоятельно улучшать механизмы генерации улучшений.

3. Какие результаты были достигнуты при использовании DGM-H в различных областях, таких как робототехника и рецензирование статей?

Ответ: в области робототехники DGM-H значительно улучшил производительность, разработав функции вознаграждения для обучения четвероногого робота в симуляторе Genesis. В области рецензирования статей DGM-H улучшил производительность на тестовом наборе с 0,0 до 0,710, превзойдя репрезентативный статический базовый уровень.

4. Как гипер-агенты разрабатывают сложные инженерные инструменты для поддержки собственного роста без явных инструкций человека?

Ответ: гипер-агенты разрабатывают сложные инженерные инструменты, такие как отслеживание производительности, постоянная память и планирование с учётом вычислений, путём автономного экспериментирования и оптимизации. Они вводят классы для регистрации показателей, реализуют хранение с отметкой времени для синтезированных идей и разрабатывают логику для корректировки стратегий модификации на основе оставшегося бюджета эксперимента.

5. Какие ключевые выводы можно сделать из представленного текста о гипер-агентах и их применении в ИИ?

Ответ: ключевые выводы включают объединение агентов задач и метаагентов в единую программу, метакогнитивную самомодификацию, масштабирование без привязки к предметной области, передаваемые «обучающие» навыки и сложившуюся инженерную инфраструктуру. Гипер-агенты демонстрируют эффективное самосовершенствование в любой вычислимой задаче и могут переносить стратегии оптимизации между различными областями.

Источник