Исследователи Google DeepMind применяют семантическую эволюцию для создания нестандартных вариантов VAD-CFR и SHOR-PSRO для улучшения алгоритмической сходимости

На конкурентной арене многоагентного обучения с подкреплением (MARL) прогресс долгое время сдерживался человеческой интуицией. В течение многих лет исследователи вручную совершенствовали такие алгоритмы, как минимизация контрфактического сожаления (CFR) и оракулы пространства политик (PSRO), перебирая обширное комбинаторное пространство правил обновления методом проб и ошибок.

Команда исследователей Google DeepMind изменила эту парадигму с помощью AlphaEvolve — агента эволюционного кодирования, работающего на основе больших языковых моделей (LLM), который автоматически обнаруживает новые алгоритмы многоагентного обучения. Рассматривая исходный код как геном, AlphaEvolve не просто настраивает параметры — он изобретает совершенно новую символическую логику.

Семантическая эволюция: за пределами настройки гиперпараметров

В отличие от традиционного AutoML, который часто оптимизирует числовые константы, AlphaEvolve выполняет семантическую эволюцию. Он использует Gemini 2.5 pro в качестве интеллектуального генетического оператора для переписывания логики, внедрения новых управляющих потоков и внедрения символьных операций в исходный код алгоритма.

Структура следует строгому эволюционному циклу:

1. Инициализация: популяция начинается со стандартных базовых реализаций, таких как стандартный CFR.
2. Мутация, управляемая LLM: родительский алгоритм выбирается на основе пригодности, и LLM получает задание модифицировать код, чтобы снизить вероятность эксплуатации.
3. Автоматическая оценка: кандидаты выполняются в прокси-играх (например, в Kuhn Poker) для вычисления отрицательных оценок эксплуатационной эффективности.
4. Отбор: действительные, высокопроизводительные кандидаты добавляются обратно в популяцию, что позволяет поиску обнаружить неочевидные оптимизации.

VAD-CFR: освоение игровой нестабильности

Первым крупным открытием стал адаптивный алгоритм дисконтирования с учётом волатильности (VAD-CFR). В играх с расширенной формой (EFGs) с неполной информацией агенты должны минимизировать сожаление в последовательности историй. Хотя традиционные варианты используют статическое дисконтирование, VAD-CFR вводит три механизма, которые часто ускользают от внимания разработчиков:

* Адаптивное дисконтирование с учётом волатильности: используя экспоненциально взвешенное скользящее среднее (EWMA) мгновенной величины сожаления, алгоритм отслеживает «тряску» процесса обучения. Когда волатильность высока, она увеличивает дисконтирование, чтобы быстрее забыть нестабильную историю; когда она снижается, она сохраняет больше истории для тонкой настройки.
* Асимметричное мгновенное усиление: VAD-CFR усиливает положительные мгновенные сожаления в 1,1 раза. Это позволяет агенту немедленно использовать выгодные отклонения без задержки, связанной со стандартным накоплением.
* Жёсткий начальный запуск и взвешивание по величине сожаления: алгоритм применяет «жёсткий начальный запуск», откладывая усреднение политик до 500-й итерации. Интересно, что LLM сгенерировала этот порог, не зная горизонта оценки в 1000 итераций. Как только накопление начинается, политики взвешиваются по величине мгновенного сожаления для фильтрации шума.

В эмпирических тестах VAD-CFR соответствовал или превосходил современный уровень производительности в 10 из 11 игр, включая Leduc Poker и Liar’s Dice, за исключением 4-игрового Kuhn Poker.

SHOR-PSRO: гибридный мета-решатель

Вторым прорывом стал сглаженный гибридный оптимистический алгоритм сожаления (SHOR-) PSRO. PSRO работает на более высоком уровне абстракции, называемом метаигрой, где популяция политик итеративно расширяется. SHOR-PSRO развивает метастратегический решатель (MSS) — компонент, который определяет, как противники противостоят друг другу.

Ядро SHOR-PSRO — это гибридный механизм смешивания, который конструирует метастратегию σ путём линейного смешивания двух различных компонентов:

$σ{hybrid} = (1 — λ) . σ{ORM} + λ . σ_{Softmax}$

$σ_{ORM}$: обеспечивает стабильность оптимистичного сопоставления сожаления.
$σ_{Softmax}$: распределение Больцмана по чистым стратегиям, которое агрессивно смещает решатель в сторону высокодоходных режимов.

SHOR-PSRO использует динамический график отжига. Коэффициент смешивания $λ$ отжигает от 0,3 до 0,05, постепенно смещая фокус с жадного исследования к поиску устойчивого равновесия. Кроме того, он обнаружил асимметрию обучения и оценки: обучающий решатель использует график усреднения по времени для стабильности, в то время как решатель оценки использует фиксированный низкий коэффициент смешивания ($λ=0,01$) для реактивных оценок эксплуатационной эффективности.

Ключевые выводы

* Framework AlphaEvolve: исследователи DeepMind представили AlphaEvolve — эволюционную систему, которая использует большие языковые модели (LLM) для выполнения «семантической эволюции», рассматривая исходный код алгоритма как его геном. Это позволяет системе обнаруживать совершенно новую символическую логику и управляющие потоки, а не просто настраивать гиперпараметры.
* Открытие VAD-CFR: система разработала новый алгоритм минимизации сожаления под названием Volatility-Adaptive Discounted (VAD-) CFR. Он превосходит современные базовые алгоритмы, такие как Discounted Predictive CFR+, используя неочевидные механизмы для управления накоплением сожаления и выводом политик.
* Адаптивные механизмы VAD-CFR: VAD-CFR использует чувствительный к волатильности график дисконтирования, который отслеживает нестабильность обучения с помощью экспоненциально взвешенного скользящего среднего (EWMA). Он также имеет коэффициент асимметричного мгновенного усиления 1,1 для положительных сожалений и жёсткий начальный запуск, который откладывает усреднение политик до 500-й итерации для фильтрации шума на ранних этапах.
* Открытие SHOR-PSRO: для популяционного обучения AlphaEvolve разработала сглаженный гибридный оптимистический алгоритм сожаления (SHOR-) PSRO. Этот вариант использует гибридный мета-решатель, который сочетает оптимистичное сопоставление сожаления с сглаженным, контролируемым температурой распределением по лучшим чистым стратегиям для повышения скорости сходимости и стабильности.
* Динамический отжиг и асимметрия: SHOR-PSRO автоматизирует переход от исследования к эксплуатации, отжигая коэффициент смешивания и бонусы за разнообразие во время обучения. Поиск также обнаружил асимметрию, повышающую производительность, когда решатель во время обучения использует усреднение по времени для стабильности, а решатель во время оценки использует реактивную стратегию последней итерации.

1. Какие новые алгоритмы были созданы с помощью AlphaEvolve и как они отличаются от традиционных подходов?

С помощью AlphaEvolve были созданы адаптивный алгоритм дисконтирования с учётом волатильности (VAD-CFR) и сглаженный гибридный оптимистический алгоритм сожаления (SHOR-PSRO). Они отличаются от традиционных подходов тем, что используют семантическую эволюцию для обнаружения новой символической логики и управляющих потоков, а не просто настраивают гиперпараметры.

2. Какие механизмы использует VAD-CFR для управления накоплением сожаления и вывода политик?

VAD-CFR использует три механизма: адаптивное дисконтирование с учётом волатильности, асимметричное мгновенное усиление и жёсткий начальный запуск с взвешиванием по величине сожаления. Эти механизмы позволяют алгоритму отслеживать нестабильность обучения, эффективно использовать положительные мгновенные сожаления и фильтровать шум на ранних этапах.

3. Как работает SHOR-PSRO и какие компоненты он использует для построения метастратегии?

SHOR-PSRO использует гибридный механизм смешивания, который конструирует метастратегию путём линейного смешивания двух компонентов: оптимистичного сопоставления сожаления ($σ{ORM}$) и распределения Больцмана по чистым стратегиям ($σ{Softmax}$). Это позволяет алгоритму сочетать стабильность и агрессивное смещение в сторону высокодоходных режимов.

4. Какие ключевые выводы можно сделать из представленного исследования?

Ключевые выводы включают представление AlphaEvolve как эволюционной системы, использующей большие языковые модели для семантической эволюции; разработку нового алгоритма VAD-CFR, превосходящего современные базовые алгоритмы; адаптивные механизмы VAD-CFR для управления накоплением сожаления; создание сглаженного гибридного оптимистического алгоритма сожаления SHOR-PSRO для популяционного обучения; и автоматизацию перехода от исследования к эксплуатации в SHOR-PSRO.

5. Какие преимущества даёт использование AlphaEvolve по сравнению с традиционным AutoML?

AlphaEvolve выполняет семантическую эволюцию, используя Gemini 2.5 pro в качестве интеллектуального генетического оператора для переписывания логики, внедрения новых управляющих потоков и символьных операций в исходный код алгоритма. Это позволяет системе обнаруживать совершенно новую символическую логику и управляющие потоки, а не просто настраивать числовые константы, как это делает традиционный AutoML.

Источник