Слабый к сильному (W4S): новый алгоритм обучения с подкреплением, который тренирует слабого мета-агента для разработки агентских рабочих процессов с более мощными языковыми моделями
Исследователи из Стэнфорда, Федеральной политехнической школы Лозанны (EPFL) и Университета Северной Каролины (UNC) представили Weak-for-Strong Harnessing (W4S) — новую систему обучения с подкреплением (Reinforcement Learning, RL), которая тренирует слабого мета-агента для разработки и усовершенствования кодовых рабочих процессов, использующих более мощную модель-исполнитель. Как работает W4S Мета-агент не подстраивает модель, а учится управлять ею. W4S формализует разработку … Читать далее