Новый подход к надзору, ориентированный на агентства, позволяет масштабировать программных агентов ИИ всего на 78 примерах

Исследователи из Шанхайского университета Цзяо Тун и лаборатории генеративного искусственного интеллекта SII (GAIR) предлагают метод тонкой настройки под названием LIMI («Меньше значит больше для агентства»). Этот метод превращает базовую модель в эффективного программного/исследовательского агента, используя всего 78 образцов.

Принцип эффективности агентств: метод LIMI утверждает, что агентская компетентность больше зависит от качества/структуры данных, чем от количества необработанных примеров. Исследовательская группа проводит тонкую настройку GLM-4.5/GLM-4.5-Air на 78 длинных траекториях использования инструментов (образцах) и сообщает о значительных улучшениях на AgencyBench и в наборах для обобщения (TAU2-bench, EvalPlus-HE/MBPP, DS-1000, SciCode).

Минимальные, но насыщенные данные для обучения: каждая траектория (~13 тыс. – 152 тыс. токенов; в среднем ~42,4 тыс.) охватывает полные многошаговые рабочие процессы — рассуждения модели, вызовы инструментов и наблюдения за окружающей средой — собранные в среде выполнения SII-CLI. Задачи охватывают «вайб-кодинг» (интерактивную разработку программного обеспечения) и исследовательские рабочие процессы (поиск, анализ, проектирование экспериментов).

Как это работает?

* Базовые модели: GLM-4.5 (355B) и GLM-4.5-Air (106B). Для обучения используется структура slime SFT с одинаковыми конфигурациями для сравнения (чтобы изолировать эффекты данных).
* Конструкция данных: 60 реальных запросов от практикующих специалистов + 18 синтезированных на основе высокозвёздных запросов на GitHub (строгий контроль качества со стороны аннотаторов с учёной степенью). Для каждого запроса LIMI регистрирует полную траекторию агента до успешного завершения внутри SII-CLI.
* Оценка: AgencyBench (R=3 раунда) с FTFC, SR@3, RC@3; плюс наборы для обобщения (TAU2-airline/retail Pass^4, EvalPlus HE/MBPP, DS-1000, SciCode).

Результаты

* AgencyBench (в среднем): 73,5%. LIMI против GLM-4.5 (+28,4 пункта); FTFC 71,7% против 37,8%; SR@3 74,6% против 47,4%.
* Эффективность использования данных: LIMI (78 образцов) превосходит GLM-4.5, обученную на AFM-CodeAgent SFT (10 тыс. образцов): 73,5% против 47,8% — +53,7% в абсолютном выражении при использовании в 128 раз меньшего объёма данных.
* Обобщение: в области использования инструментов/кодирования/научных вычислений LIMI в среднем составляет ~57%, превышая GLM-4.5 и другие базовые показатели; без доступа к инструментам LIMI всё равно немного лидирует (50% против 48,7% для GLM-4.5), что указывает на внутренние преимущества, выходящие за рамки инструментов среды.

Ключевые выводы

* Эффективность использования данных доминирует над масштабом. LIMI достигает в среднем 73,5% на AgencyBench, используя тщательно подобранные траектории, превосходя GLM-4.5 (45,1%) и показывая преимущество в 53,7 пункта над базовым уровнем SFT с 10 тыс. образцов — при использовании в 128 раз меньшего объёма данных.
* Качество траектории, а не её объём. Данные для обучения представляют собой длинные траектории, основанные на инструментах, рабочие процессы в области совместной разработки программного обеспечения и научных исследований, собранные с помощью стека выполнения SII-CLI, на который ссылается документ.
* Улучшения по всем метрикам. На AgencyBench LIMI сообщает FTFC 71,7%, SR@3 74,6% и высокий RC@3, с подробными таблицами, показывающими значительное преимущество перед базовыми показателями; обобщённые наборы (TAU2, EvalPlus-HE/MBPP, DS-1000, SciCode) в среднем составляют 57,2%.
* Работает в разных масштабах. Тонкая настройка GLM-4.5 (355B) и GLM-4.5-Air (106B) даёт значительные результаты по сравнению с их базовыми показателями, что указывает на устойчивость метода к размеру модели.

Исследовательская группа обучает варианты GLM-4.5 с помощью 78 тщательно подобранных, длинных траекторий, основанных на инструментах, собранных в среде CLI, охватывающей задачи разработки программного обеспечения и научные исследования. Сообщается о среднем показателе 73,5% на AgencyBench с метриками FTFC, RC@3 и SR@3; базовый уровень GLM-4.5 составляет 45,1%. Сравнение с базовым уровнем AFM-CodeAgent SFT с 10 тыс. образцов показывает 73,5% против 47,8%; оценка без использования инструментов указывает на внутренние преимущества (≈50% для LIMI против 48,7% для GLM-4.5).

Траектории являются многошаговыми и насыщенными по количеству токенов, что подчёркивает планирование, координацию инструментов и проверку.

Ознакомиться с документом, страницей GitHub и карточкой модели можно на HF. Посетите нашу страницу GitHub, чтобы найти учебные пособия, коды и блокноты. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тыс. участников машинного обучения) и подписывайтесь на нашу рассылку.

1. Какие преимущества предлагает метод LIMI по сравнению с традиционными методами обучения ИИ-агентов?

Метод LIMI предлагает значительные преимущества по сравнению с традиционными методами обучения ИИ-агентов. Он использует всего 78 тщательно подобранных образцов для тонкой настройки базовой модели, что позволяет достичь высоких результатов на AgencyBench и в наборах для обобщения. Это демонстрирует, что эффективность агентств больше зависит от качества и структуры данных, чем от их количества.

2. Какие ключевые выводы можно сделать из результатов исследования, проведённого исследовательской группой?

Ключевые выводы исследования включают:
* Эффективность использования данных доминирует над масштабом. LIMI достигает высоких результатов на AgencyBench, используя значительно меньше данных, чем другие методы.
* Качество траектории, а не её объём, является ключевым фактором успеха. Данные для обучения представляют собой длинные траектории, основанные на инструментах, что подчёркивает важность планирования, координации инструментов и проверки.
* Улучшения по всем метрикам. LIMI показывает значительные улучшения по всем метрикам на AgencyBench и в обобщённых наборах.
* Метод работает в разных масштабах. Тонкая настройка GLM-4.5 и GLM-4.5-Air даёт значительные результаты, что указывает на устойчивость метода к размеру модели.

3. Какие модели были использованы для обучения в рамках метода LIMI и какие результаты были получены?

Для обучения в рамках метода LIMI были использованы модели GLM-4.5 (355B) и GLM-4.5-Air (106B). Результаты показали, что LIMI достигает среднего показателя 73,5% на AgencyBench с метриками FTFC, RC@3 и SR@3. Это значительно превышает базовый уровень GLM-4.5, который составляет 45,1%. Сравнение с базовым уровнем AFM-CodeAgent SFT с 10 тыс. образцов показывает 73,5% против 47,8%. Оценка без использования инструментов также указывает на внутренние преимущества метода.

4. Какие данные были использованы для обучения моделей в рамках метода LIMI?

Для обучения моделей в рамках метода LIMI были использованы данные, представляющие собой длинные траектории, основанные на инструментах. Эти траектории охватывают задачи разработки программного обеспечения и научные исследования. Данные были собраны в среде CLI с помощью стека выполнения SII-CLI.

5. Какие метрики использовались для оценки эффективности метода LIMI?

Для оценки эффективности метода LIMI использовались следующие метрики:
* FTFC (First Tool First Call) — первый вызов инструмента.
* SR@3 (Success Rate at 3) — процент успешных выполнений за 3 попытки.
* RC@3 (Reward at 3) — вознаграждение за 3 попытки.
* АгентствоBench (R=3 раунда) — комплексный показатель, включающий FTFC, SR@3, RC@3.
* Обобщённые наборы (TAU2, EvalPlus-HE/MBPP, DS-1000, SciCode) — дополнительные метрики для оценки обобщения и адаптации моделей.

Источник