Sakana AI выпустила ShinkaEvolve: фреймворк с открытым исходным кодом, который эволюционирует программы для научных открытий с беспрецедентной эффективностью использования выборки

Что это решает на самом деле?

Большинство систем эволюционного кодирования исследуют методом перебора: они вносят изменения в код, запускают его, оценивают и повторяют, расходуя огромные бюджеты на выборку. ShinkaEvolve явно нацелена на устранение этих потерь с помощью трёх взаимодействующих компонентов:
* Адаптивная выборка родителей для балансировки исследования и эксплуатации. Родители выбираются из «островов» на основе политик, учитывающих приспособленность и новизну (степенной закон или взвешивание по производительности и количеству потомков), а не всегда восхождение к текущему лучшему варианту.
* Отбор по новизне для избежания повторной оценки почти дубликатов. Изменяемые сегменты кода встраиваются; если косинусное сходство превышает порог, вторичная языковая модель действует как «судья по новизне» перед выполнением.
* Бандитский ансамбль языковых моделей, чтобы система научилась, какая модель (например, семейства GPT/Gemini/Claude/DeepSeek) обеспечивает наибольшие относительные скачки приспособленности, и соответствующим образом направляет будущие мутации (обновление в стиле UCB1 по улучшению по сравнению с родителем/базовым уровнем).

Сохраняется ли утверждение об эффективности использования выборки за пределами игрушечных задач?

Исследовательская группа оценивает четыре различные области и демонстрирует последовательные достижения при небольших бюджетах:
* Упаковка кругов (n=26): достигает улучшенной конфигурации примерно за 150 оценок; исследовательская группа также проводит проверку с более строгой проверкой соответствия.
* Математические рассуждения AIME (набор 2024 года): развиваются агентские каркасы, которые отслеживают границу Парето (точность по сравнению с бюджетом вызовов LLM), превосходя ручные базовые показатели при ограниченных бюджетах запросов.
* Конкурентное программирование (ALE-Bench LITE): начиная с решений ALE-Agent, ShinkaEvolve обеспечивает среднее улучшение примерно на 2,3% по 10 задачам и продвигает решение одной задачи с 5-го на 2-е место в таблице лидеров AtCoder.
* Обучение LLM (Mixture-of-Experts): развивается новая балансировка нагрузки, которая улучшает перплексию и точность на последующих этапах по сравнению с широко используемым глобальным пакетным LBL.

Как эволюционный цикл выглядит на практике?

ShinkaEvolve поддерживает архив оценённых программ с показателями приспособленности, общедоступными метриками и текстовой обратной связью. Для каждого поколения:
* Выбор острова и родителей (одного или нескольких);
* Создание контекста мутации с помощью программ top-K и случайных «вдохновений»;
* Предложение правок с помощью трёх операторов — разностных правок, полных переписываний и управляемых LLM кроссоверов — при сохранении неизменных областей кода с помощью явных маркеров.

Выполненные кандидаты обновляют как архив, так и статистику бандитов, которые управляют последующим выбором LLM/модели. Система периодически создаёт мета-черновик, который суммирует недавно успешные стратегии; эти сводки включаются в запросы для ускорения последующих поколений.

Каковы конкретные результаты?

* Упаковка кругов: комбинированная структурированная инициализация (например, паттерны с золотым углом), гибридный глобальный и локальный поиск (симулированная отжиг + SLSQP) и механизмы выхода (перегрев температуры, вращение колец), обнаруженные системой, а не заранее запрограммированные.
* Каркас AIME: трёхэтапный экспертный ансамбль (генерация → критическая экспертная оценка → синтез), который достигает оптимального соотношения точности и затрат при ~7 вызовах, сохраняя при этом надёжность при смене различных бэкендов LLM.
* ALE-Bench: целенаправленные инженерные решения (например, кэширование статистики поддерева kd-tree; «целенаправленные перемещения рёбер» к неправильно классифицированным элементам), которые повышают оценки без полной переработки.
* MoE loss: добавляет энтропийно модулируемый штраф за недоиспользование к глобальной пакетной цели; эмпирически уменьшает ошибки маршрутизации и улучшает перплексию/тесты по мере концентрации маршрутизации по слоям.

Как это соотносится с AlphaEvolve и родственными системами?

AlphaEvolve продемонстрировала сильные результаты с закрытым исходным кодом, но при более высоком количестве оценок. ShinkaEvolve воспроизводит и превосходит результат упаковки кругов с порядками величины меньшего количества выборок и выпускает все компоненты с открытым исходным кодом. Исследовательская группа также противопоставляет варианты (одномодельного против фиксированного ансамбля против бандитского ансамбля) и удаляет родительский выбор и фильтрацию по новизне, показывая, что каждый вносит свой вклад в наблюдаемую эффективность.

Резюме

ShinkaEvolve — это фреймворк с открытым исходным кодом Apache-2.0 для эволюции программ с помощью LLM, который сокращает количество оценок с тысяч до сотен за счёт сочетания отбора родителей с учётом приспособленности/новизны, встраивания плюс отказ от LLM по новизне и адаптивного ансамбля LLM в стиле UCB1. Он устанавливает новый SOTA для упаковки кругов (~150 оценок), находит более сильные каркасы AIME при строгом бюджете запросов, улучшает решения ALE-Bench по сравнению с сильными базовыми показателями и разрабатывает новую балансировку нагрузки MoE, которая улучшает перплексию и точность на последующих этапах. Код и отчёт доступны в открытом доступе.

Часто задаваемые вопросы — ShinkaEvolve

1. Что такое ShinkaEvolve?

Открытый исходный код фреймворка, который сочетает в себе эволюционный поиск с помощью LLM для автоматизации открытия алгоритмов и оптимизации. Код и отчёт доступны в открытом доступе.

2. Как он достигает более высокой эффективности использования выборки, чем предыдущие эволюционные системы?

Три механизма: адаптивная выборка родителей (баланс между исследованием и эксплуатацией), отбор по новизне для избежания дублирующих оценок и бандитский селектор, который направляет мутации к наиболее перспективным LLM.

3. Что подтверждает результаты?

Он достигает современного уровня в упаковке кругов с ~150 оценками; в AIME-2024 он развивает каркасы под ограничением в 10 запросов на задачу; он улучшает решения ALE-Bench по сравнению с сильными базовыми показателями.

4. Где я могу запустить его и какая у него лицензия?

Репозиторий GitHub предоставляет веб-интерфейс и примеры; ShinkaEvolve выпущен под лицензией Apache-2.0.

1. Какие механизмы ShinkaEvolve использует для оптимизации процесса эволюции программ?

В статье указано, что ShinkaEvolve использует три механизма для оптимизации: адаптивную выборку родителей, отбор по новизне и бандитский ансамбль языковых моделей. Адаптивная выборка родителей балансирует исследование и эксплуатацию, отбор по новизне предотвращает повторную оценку почти дубликатов, а бандитский ансамбль направляет мутации к наиболее перспективным языковым моделям.

2. В каких областях ShinkaEvolve демонстрирует свою эффективность?

Исследовательская группа оценивает ShinkaEvolve в четырёх различных областях: упаковка кругов, математические рассуждения AIME, конкурентное программирование (ALE-Bench LITE) и обучение LLM (Mixture-of-Experts). В каждой из этих областей ShinkaEvolve демонстрирует последовательные достижения при небольших бюджетах.

3. Как ShinkaEvolve сравнивается с другими системами, такими как AlphaEvolve?

В статье указано, что AlphaEvolve продемонстрировала сильные результаты с закрытым исходным кодом, но при более высоком количестве оценок. ShinkaEvolve воспроизводит и превосходит результат упаковки кругов с порядками величины меньшего количества выборок и выпускает все компоненты с открытым исходным кодом. Это показывает, что ShinkaEvolve может быть более эффективным в использовании выборки по сравнению с другими системами.

4. Какие конкретные результаты были достигнуты с помощью ShinkaEvolve в каждой из оценённых областей?

В упаковке кругов ShinkaEvolve достигает улучшенной конфигурации примерно за 150 оценок. В математических рассуждениях AIME агентские каркасы отслеживают границу Парето, превосходя ручные базовые показатели при ограниченных бюджетах запросов. В конкурентном программировании (ALE-Bench LITE) ShinkaEvolve обеспечивает среднее улучшение примерно на 2,3% по 10 задачам и продвигает решение одной задачи с 5-го на 2-е место в таблице лидеров AtCoder. В обучении LLM (Mixture-of-Experts) развивается новая балансировка нагрузки, которая улучшает перплексию и точность на последующих этапах по сравнению с глобальным пакетным LBL.

5. Какие лицензии и условия использования у ShinkaEvolve?

ShinkaEvolve выпущен под лицензией Apache-2.0. Репозиторий GitHub предоставляет веб-интерфейс и примеры. Код и отчёт доступны в открытом доступе.

Источник