Слабый к сильному (W4S): новый алгоритм обучения с подкреплением, который тренирует слабого мета-агента для разработки агентских рабочих процессов с более мощными языковыми моделями

Исследователи из Стэнфорда, Федеральной политехнической школы Лозанны (EPFL) и Университета Северной Каролины (UNC) представили Weak-for-Strong Harnessing (W4S) — новую систему обучения с подкреплением (Reinforcement Learning, RL), которая тренирует слабого мета-агента для разработки и усовершенствования кодовых рабочих процессов, использующих более мощную модель-исполнитель.

Как работает W4S

Мета-агент не подстраивает модель, а учится управлять ею. W4S формализует разработку рабочего процесса как многошаговый марковский процесс принятия решений и обучает мета-агента с помощью метода под названием Reinforcement Learning for Agentic Workflow Optimization (RLAO).

W4S работает в виде итеративного цикла:
1. Генерация рабочего процесса: слабый мета-агент пишет новый рабочий процесс, который использует сильную модель, выраженную в виде исполняемого кода на Python.
2. Выполнение и обратная связь: сильная модель выполняет рабочий процесс на проверочных выборках, затем возвращает точность и случаи ошибок в качестве обратной связи.
3. Усовершенствование: мета-агент использует обратную связь для обновления анализа и рабочего процесса, затем повторяет цикл.

Результаты исследования

В среднем по 11 бенчмаркам W4S улучшает показатели по сравнению с самым сильным базовым уровнем на 2,9–24,6%. При этом избегает тонкой настройки сильной модели.

Ключевые выводы

* W4S обучает слабого мета-агента с помощью RLAO для написания рабочих процессов на Python, которые используют более мощных исполнителей, моделируемых как многошаговый MDP.
* На HumanEval с GPT-4o-mini в качестве исполнителя W4S достигает Pass@1 в 95,4%, затрачивая около 33 минут на оптимизацию и около 0,9 долларов на общую стоимость.
* W4S улучшает показатели по сравнению с самым сильным базовым уровнем на 2,9–24,6% по 11 бенчмаркам, избегая тонкой настройки сильной модели.
* Метод работает в виде итеративного цикла, генерируя рабочий процесс, выполняя его на проверочных данных, а затем совершенствуя с помощью обратной связи.

Комментарии редакции

W4S нацелен на организацию работы, а не на веса модели. Он обучает слабого мета-агента программировать рабочие процессы, которые используют более мощных исполнителей. W4S формализует разработку рабочего процесса как многошаговый MDP и оптимизирует планировщик с помощью RLAO, используя офлайн-траектории и регрессию, взвешенную по вознаграждениям.

Результаты показывают Pass@1 в 95,4% на HumanEval с GPT-4o-mini, средние улучшения на 2,9–24,6% по 11 бенчмаркам и около 1 часа работы на GPU для обучения мета-агента.

1. Какие преимущества предлагает система W4S по сравнению с традиционными методами настройки языковых моделей?

W4S предлагает несколько преимуществ по сравнению с традиционными методами настройки языковых моделей. Во-первых, она не подстраивает модель, а учит слабого мета-агента управлять более мощной моделью-исполнителем. Это позволяет избежать тонкой настройки сильной модели и сосредоточиться на оптимизации рабочих процессов. Во-вторых, W4S использует метод под названием Reinforcement Learning for Agentic Workflow Optimization (RLAO), который формализует разработку рабочего процесса как многошаговый марковский процесс принятия решений и обучает мета-агента с помощью обратной связи. Это позволяет достичь более высоких показателей по сравнению с базовыми уровнями.

2. Какие ключевые этапы включает в себя процесс работы W4S?

Процесс работы W4S включает в себя несколько ключевых этапов:
* Генерация рабочего процесса: слабый мета-агент пишет новый рабочий процесс, который использует сильную модель, выраженную в виде исполняемого кода на Python.
* Выполнение и обратная связь: сильная модель выполняет рабочий процесс на проверочных выборках, затем возвращает точность и случаи ошибок в качестве обратной связи.
* Усовершенствование: мета-агент использует обратную связь для обновления анализа и рабочего процесса, затем повторяет цикл.

3. Какие результаты были достигнуты при использовании W4S на HumanEval с GPT-4o-mini в качестве исполнителя?

На HumanEval с GPT-4o-mini в качестве исполнителя W4S достигает Pass@1 в 95,4%, затрачивая около 33 минут на оптимизацию рабочего процесса и около 0,9 долларов на общую стоимость. Это превосходит автоматизированные базовые показатели при том же исполнителе. В среднем по 11 бенчмаркам W4S улучшает показатели по сравнению с самым сильным базовым уровнем на 2,9–24,6%.

4. Какие выводы можно сделать из исследования о применении W4S для оптимизации рабочих процессов?

Из исследования можно сделать несколько выводов:
* W4S обучает слабого мета-агента с помощью RLAO для написания рабочих процессов на Python, которые используют более мощных исполнителей.
* W4S улучшает показатели по сравнению с самым сильным базовым уровнем на 2,9–24,6% по 11 бенчмаркам, избегая тонкой настройки сильной модели.
* Метод работает в виде итеративного цикла, генерируя рабочий процесс, выполняя его на проверочных данных, а затем совершенствуя с помощью обратной связи.

5. Какие перспективы открывает использование W4S для разработчиков и исследователей в области искусственного интеллекта?

Использование W4S открывает несколько перспектив для разработчиков и исследователей в области искусственного интеллекта:
* Оптимизация рабочих процессов: W4S позволяет оптимизировать рабочие процессы, используя более мощных исполнителей, что может привести к повышению эффективности и снижению затрат.
* Разработка новых алгоритмов: W4S может служить основой для разработки новых алгоритмов обучения с подкреплением, которые будут использоваться для оптимизации рабочих процессов в различных областях.
* Улучшение производительности: W4S может помочь улучшить производительность языковых моделей, не прибегая к их тонкой настройке, что может ускорить разработку и внедрение новых решений.

Источник