Google выпускает MLE-STAR: передовой агент для автоматизации задач машинного обучения

MLE-STAR (Machine Learning Engineering via Search and Targeted Refinement) — это передовая агентская система, разработанная исследователями Google Cloud для автоматизации проектирования и оптимизации сложных конвейеров машинного обучения (ML).

Используя веб-поиск, целенаправленное уточнение кода и надёжные модули проверки, MLE-STAR достигает беспрецедентной производительности в решении ряда задач машинного обучения — значительно превосходя предыдущие автономные агенты ML и даже базовые методы, применяемые людьми.

Проблема: автоматизация машинного обучения

Хотя большие языковые модели (LLM) внедрены в генерацию кода и автоматизацию рабочих процессов, существующие агенты машинного обучения сталкиваются с проблемами:
* Чрезмерная зависимость от памяти LLM: склонность к использованию «знакомых» моделей (например, только scikit-learn для табличных данных), игнорирование передовых, специфичных для задач подходов.
* Грубая итерация «всё сразу»: предыдущие агенты модифицируют целые скрипты за один раз, не имея глубокого, целенаправленного исследования компонентов конвейера, таких как разработка функций, предварительная обработка данных или ансамблирование моделей.
* Плохая обработка ошибок и утечек данных: сгенерированный код склонен к ошибкам, утечкам данных или пропуску предоставленных файлов данных.

MLE-STAR: основные инновации

1. Выбор модели на основе веб-поиска.
Вместо того чтобы опираться исключительно на своё внутреннее «обучение», MLE-STAR использует внешний поиск для извлечения передовых моделей и фрагментов кода, соответствующих поставленной задаче и набору данных. Это позволяет системе основывать начальное решение на современных передовых практиках, а не только на том, что «помнят» LLM.

2. Вложенное, целенаправленное уточнение кода.
MLE-STAR улучшает свои решения с помощью двухэтапного процесса уточнения:
* Внешний цикл (управляемый абляцией): запускает исследования абляции для развивающегося кода, чтобы определить, какой компонент конвейера (подготовка данных, модель, разработка функций и т. д.) наиболее влияет на производительность.
* Внутренний цикл (фокусированное исследование): итеративно генерирует и тестирует вариации только для этого компонента, используя структурированную обратную связь.

Это позволяет проводить глубокое, компонентное исследование — например, всесторонне тестировать способы извлечения и кодирования категориальных признаков, а не слепо менять всё сразу.

3. Самоулучшающаяся стратегия ансамблирования.
MLE-STAR предлагает, реализует и уточняет новые методы ансамблирования, комбинируя несколько решений-кандидатов. Вместо простого голосования «лучший из N» или простого усреднения он использует свои возможности планирования для изучения передовых стратегий (например, стекинг с помощью специальных мета-обучающих алгоритмов или поиск оптимальных весов).

4. Устойчивость за счёт специализированных агентов.
* Агент отладки: автоматически ловит и исправляет ошибки Python (трассировки) до тех пор, пока скрипт не запустится или не будет достигнуто максимальное количество попыток.
* Агент проверки утечки данных: проверяет код, чтобы предотвратить смещение тестовых или проверочных выборок в процессе обучения.
* Агент проверки использования данных: обеспечивает, чтобы скрипт решения максимально использовал все предоставленные файлы данных и соответствующие модальности, улучшая производительность модели и её обобщающую способность.

Количественные результаты: опережение конкурентов

Эффективность MLE-STAR тщательно проверена на бенчмарке MLE-Bench-Lite (22 сложных соревнования Kaggle, охватывающих табличные, графические, аудио- и текстовые задачи):

| Метрика | MLE-STAR (Gemini-2.5-Pro) | AIDE (лучший базовый уровень) |
|—|—|—|
| Любая медаль | 63,6% | 25,8% |
| Золотая медаль | 36,4% | 12,1% |
| Выше медианы | 83,3% | 39,4% |
| Действительные представления | 100% | 78,8% |

MLE-STAR достигает более чем в два раза большей доли «медальных» (высшего уровня) решений по сравнению с предыдущими лучшими агентами.

Технические идеи: почему MLE-STAR побеждает

* Поиск как основа.
Извлекая примеры кода и карточки моделей из Интернета во время выполнения, MLE-STAR остаётся гораздо более актуальным — автоматически включая новые типы моделей в свои первоначальные предложения.
* Фокус, управляемый абляцией.
Систематическое измерение вклада каждого сегмента кода позволяет проводить «хирургические» улучшения — сначала для наиболее значимых частей (например, для целевой кодировки признаков, расширенной предварительной обработки, специфичной для модели).
* Адаптивное ансамблирование.
Агент ансамбля не просто усредняет; он интеллектуально тестирует стекинг, регрессионные мета-обучающие алгоритмы, оптимальный подбор весов и многое другое.
* Тщательные проверки безопасности.
Исправление ошибок, предотвращение утечки данных и полное использование данных позволяют значительно повысить баллы валидации и тестирования, избегая ловушек, в которые попадает код генерации, созданный с помощью обычных LLM.

Расширяемость и участие человека

MLE-STAR также расширяем:
* Эксперты могут вводить описания передовых моделей для более быстрого внедрения новейших архитектур.
* Система построена на базе Google Agent Development Kit (ADK), что облегчает внедрение в открытый исходный код и интеграцию в более широкие агентские экосистемы, как показано в официальных примерах.

Заключение

MLE-STAR представляет собой настоящий прорыв в автоматизации машинного обучения. Используя рабочий процесс, который начинается с поиска, тестирует код с помощью циклов, управляемых абляцией, объединяет решения с помощью адаптивного ансамблирования и контролирует выходные данные кода с помощью специализированных агентов, он превосходит предыдущие разработки и даже многих конкурентов-людей.

Открытый исходный код MLE-STAR означает, что исследователи и практики машинного обучения теперь могут интегрировать и расширять эти передовые возможности в своих проектах, ускоряя как производительность, так и инновации.

1. Какие проблемы существующих агентов машинного обучения решает MLE-STAR?

MLE-STAR решает несколько проблем существующих агентов машинного обучения:
* чрезмерную зависимость от памяти больших языковых моделей (LLM) и игнорирование передовых, специфичных для задач подходов;
* грубую итерацию «всё сразу», когда предыдущие агенты модифицируют целые скрипты за один раз без глубокого исследования компонентов конвейера;
* плохую обработку ошибок и утечек данных в сгенерированном коде.

2. Какие основные инновации использует MLE-STAR для автоматизации машинного обучения?

Основные инновации MLE-STAR:
* выбор модели на основе веб-поиска, который позволяет системе основывать начальное решение на современных передовых практиках;
* вложенное, целенаправленное уточнение кода, которое улучшает решения с помощью двухэтапного процесса уточнения;
* самоулучшающаяся стратегия ансамблирования, которая комбинирует несколько решений-кандидатов для получения более точного результата;
* устойчивость за счёт специализированных агентов, которые автоматически ловят и исправляют ошибки, предотвращают утечки данных и обеспечивают полное использование предоставленных данных.

3. Как MLE-STAR обеспечивает устойчивость своих решений?

Для обеспечения устойчивости своих решений MLE-STAR использует специализированных агентов:
* агент отладки автоматически ловит и исправляет ошибки Python до тех пор, пока скрипт не запустится или не будет достигнуто максимальное количество попыток;
* агент проверки утечки данных проверяет код, чтобы предотвратить смещение тестовых или проверочных выборок в процессе обучения;
* агент проверки использования данных обеспечивает, чтобы скрипт решения максимально использовал все предоставленные файлы данных и соответствующие модальности, улучшая производительность модели и её обобщающую способность.

4. Какие результаты были получены при проверке эффективности MLE-STAR на бенчмарке MLE-Bench-Lite?

Эффективность MLE-STAR была тщательно проверена на бенчмарке MLE-Bench-Lite (22 сложных соревнования Kaggle, охватывающих табличные, графические, аудио- и текстовые задачи). Результаты показали, что MLE-STAR достигает более чем в два раза большей доли «медальных» (высшего уровня) решений по сравнению с предыдущими лучшими агентами. Например, доля золотых медалей составила 36,4% у MLE-STAR и 12,1% у AIDE (лучший базовый уровень).

5. Какие возможности предоставляет MLE-STAR для экспертов и исследователей машинного обучения?

MLE-STAR предоставляет экспертам и исследователям машинного обучения следующие возможности:
* эксперты могут вводить описания передовых моделей для более быстрого внедрения новейших архитектур;
* система построена на базе Google Agent Development Kit (ADK), что облегчает внедрение в открытый исходный код и интеграцию в более широкие агентские экосистемы.

Источник