Исследователи из CMU представили PPP и UserVille для обучения проактивных и персонализированных агентов LLM

Большинство агентов LLM настроены на максимизацию успеха в выполнении задач. Они решают проблемы на GitHub или отвечают на сложные исследовательские запросы, но не всегда тщательно продумывают, когда задавать вопросы пользователю или как учитывать индивидуальные предпочтения в общении.

Как разработать агентов LLM, которые будут знать, когда задавать более качественные вопросы и адаптировать своё поведение под каждого пользователя?

Команда исследователей из Университета Карнеги-Меллона (CMU) и OpenHands формализует недостающие модели поведения в виде трёх совместных целей: производительности, проактивности и персонализации. Они оптимизируют их с помощью многоцелевого фреймворка обучения с подкреплением (RL) под названием PPP в новой среде UserVille.

На рисунке 1 показано, что GPT-5 достигает высокой производительности на SWE-Bench и BrowseComp Plus, но его показатели проактивности и персонализации значительно ниже, когда запросы сформулированы расплывчато (https://arxiv.org/pdf/2511.02208).

От успеха в задачах к агентам, учитывающим взаимодействие

Исследовательская группа определяет:
* Производительность как качество выполнения задач, например F1 на SWE-Bench (верифицированная локализация функций) или точное соответствие на BrowseComp-Plus.
* Проактивность как задавание необходимых уточняющих вопросов, когда первоначальный запрос расплывчат, избегая при этом ненужных запросов.
* Персонализация как следование конкретным предпочтениям пользователя в общении, таким как краткость, формат или язык.

UserVille — это интерактивная среда с симуляторами, учитывающими предпочтения пользователей. Она преобразует существующие тесты агентов в среду RL, ориентированную на взаимодействие, населённую симуляторами пользователей на основе LLM.

UserVille состоит из трёх этапов:
1. Vaguenization of prompts (превращение точных запросов в расплывчатые): точные запросы переформулируются в расплывчатые, которые сохраняют тот же смысл, но удаляют детали. Это создаёт информационную асимметрию: симулятор всё ещё наблюдает точный запрос, агент видит только расплывчатую версию.
2. Preference Aware User Simulation (симуляция пользователей с учётом предпочтений): каждый симулятор пользователя параметризуется предпочтением из пула из 20 типов. Предпочтения охватывают краткость, количество вопросов за ход, формат ответов, время, языковые ограничения или требования, такие как вопросы в формате JSON.
3. User Centric Evaluation (оценка с учётом пользователя): после выполнения задания симулятор помечает каждый вопрос как требующий низких, средних или высоких усилий в зависимости от того, можно ли ответить, используя точный запрос, и насколько сложно ответить.

UserVille применяется в двух областях:
* Разработка программного обеспечения с помощью SWE-Gym для обучения, SWE-Bench Verified и SWE-Bench Full для оценки.
* Глубокие исследования с помощью BrowseComp-Plus и инструментов поиска и open_page.

PPP: многоцелевое RL для продуктивных, проактивных и персонализированных агентов

Агенты реализованы в виде инструмента ReAct с использованием политик, основанных на Seed-OSS-36B-Instruct. Они могут вызывать доменные инструменты и инструмент ask_user, который запрашивает данные у симулятора пользователя.

PPP определяет траекторию вознаграждения на уровне:
$R = R{Prod} + R{Proact} + R_{Pers}$

* Вознаграждение за производительность $R_{Prod}$ — это показатель задачи, F1 на SWE-Func-Loc или точное соответствие на BrowseComp-Plus.
* Вознаграждение за проактивность $R_{Proact}$ добавляет бонус +0,05, если все вопросы в сеансе требуют низких усилий, и применяет штрафы −0,1 за каждый вопрос, требующий средних усилий, и −0,5 за каждый вопрос, требующий высоких усилий.
* Вознаграждение за персонализацию $R_{Pers}$ добавляет +0,05, когда агент следует предпочтению, и добавляет неположительные штрафы, определённые правилом, специфичным для предпочтения, за каждое нарушение.

Экспериментальные результаты

Таблица 2 (ниже изображения) оценивает производительность, проактивность и персонализацию на SWE-Bench Verified Func-Loc и BrowseComp-Plus, используя расплывчатые запросы и усредняя по 20 предпочтениям (https://arxiv.org/pdf/2511.02208).

Для базовой модели Seed-OSS-36B-Instruct:
* на SWE-Func-Loc: производительность — 38,59, проактивность — 43,70, персонализация — 69,07;
* на BrowseComp-Plus: производительность — 18,20, проактивность — 37,60, персонализация — 64,76.

После обучения RL с помощью PPP модель достигает:
* на SWE-Func-Loc: производительность — 56,26, проактивность — 75,55, персонализация — 89,26;
* на BrowseComp-Plus: производительность — 26,63, проактивность — 47,69, персонализация — 76,85.

Средний прирост по всем трём параметрам и обоим наборам данных составляет 16,72 балла относительно Seed-OSS-36B-Instruct. PPP также превосходит GPT-5 и другие базовые модели серии GPT по комбинированной метрике.

Взаимодействие имеет решающее значение для расплывчатых запросов. На SWE-Func-Loc F1 с точными запросами и без взаимодействия составляет 64,50. С расплывчатыми запросами и без взаимодействия он падает до 44,11. Добавление взаимодействия без RL не восполняет этот разрыв. С обучением PPP и взаимодействием F1 при расплывчатых запросах улучшается на 21,66 балла.

PPP также изменяет поведение при взаимодействии. Коэффициент задавания вопросов на SWE-Func-Loc возрастает с 50% до 100% при расплывчатых запросах и с 51% до 85% при глубоких исследованиях, оставаясь низким для точных запросов. Количество вопросов за сеанс увеличивается в начале обучения, затем стабилизируется с высокой долей вопросов, требующих низких усилий, и очень небольшим количеством вопросов, требующих высоких усилий.

Ключевые выводы

* PPP представляет обучение агентов как многоцелевую задачу RL, которая совместно оптимизирует производительность, проактивность и персонализацию, вместо того чтобы сосредотачиваться только на успехе в выполнении задач.
* UserVille создаёт версии существующих тестов с расплывчатыми запросами и объединяет их с симуляторами пользователей, учитывающими предпочтения, которые обеспечивают соблюдение 20 различных предпочтений в общении и маркируют уровни усилий пользователя.
* Общий выигрыш сочетает в себе показатель задачи, усилия пользователя и соблюдение предпочтений, используя бонусы за вопросы, требующие низких усилий, и штрафы за вопросы, требующие средних и высоких усилий, или за нарушения предпочтений, реализованные с помощью алгоритма RL, основанного на GRPO.

На SWE Bench Func Loc, SWE Bench Full и BrowseComp Plus с расплывчатыми запросами PPP обученный Seed OSS 36B значительно улучшает все три показателя по сравнению с базовой моделью и с базовыми моделями GPT 5, со средним приростом около 16,72 балла по параметрам и наборам данных.

Агенты PPP обобщают опыт на невидимые предпочтения, альтернативные симуляторы и более сложные задачи, такие как SWE Bench Full, и они учатся задавать меньше, но более целенаправленных вопросов, требующих низких усилий, особенно когда запросы расплывчаты.

Редакционные комментарии

PPP и UserVille знаменуют собой важный шаг к созданию агентов LLM, учитывающих взаимодействие, поскольку они явно кодируют производительность, проактивность и персонализацию в дизайне вознаграждения, используют симуляторы пользователей, учитывающие предпочтения, которые обеспечивают соблюдение 20 предпочтений в общении, и применяют GRPO с оптимизацией на уровне токенов в стиле DAPO внутри каркасов Verl и OpenHands.

Улучшения на SWE Bench Func Loc, SWE Bench Full и BrowseComp Plus показывают, что моделирование взаимодействия теперь является основной возможностью, а не вспомогательной функцией.

1. Какие три основные цели ставят перед собой исследователи при разработке агентов LLM?

Исследователи из Университета Карнеги-Меллона (CMU) и OpenHands формализуют недостающие модели поведения в виде трёх совместных целей: производительности, проактивности и персонализации.

2. Что такое UserVille и как она используется в контексте обучения агентов LLM?

UserVille — это интерактивная среда с симуляторами, учитывающими предпочтения пользователей. Она преобразует существующие тесты агентов в среду RL, ориентированную на взаимодействие, населённую симуляторами пользователей на основе LLM. Используется для разработки программного обеспечения с помощью SWE-Gym для обучения, SWE-Bench Verified и SWE-Bench Full для оценки, а также в глубоких исследованиях с помощью BrowseComp-Plus и инструментов поиска и open_page.

3. Какие параметры используются для оценки производительности, проактивности и персонализации агентов LLM в эксперименте?

Для оценки производительности используется показатель задачи, например F1 на SWE-Bench (верифицированная локализация функций) или точное соответствие на BrowseComp-Plus. Проактивность оценивается по количеству и качеству задаваемых агентом вопросов, особенно в ситуациях с расплывчатыми запросами. Персонализация оценивается по тому, насколько агент следует конкретным предпочтениям пользователя в общении, таким как краткость, формат или язык.

4. Какой средний прирост по всем трём параметрам и обоим наборам данных был достигнут после обучения RL с помощью PPP?

Средний прирост по всем трём параметрам (производительность, проактивность и персонализация) и обоим наборам данных (SWE-Func-Loc и BrowseComp-Plus) составляет 16,72 балла относительно базовой модели Seed-OSS-36B-Instruct.

5. Какие выводы можно сделать из эксперимента с использованием PPP и UserVille?

PPP представляет обучение агентов как многоцелевую задачу RL, которая совместно оптимизирует производительность, проактивность и персонализацию. UserVille создаёт версии существующих тестов с расплывчатыми запросами и объединяет их с симуляторами пользователей, учитывающими предпочтения. Общий выигрыш сочетает в себе показатель задачи, усилия пользователя и соблюдение предпочтений, используя бонусы за вопросы, требующие низких усилий, и штрафы за вопросы, требующие средних и высоких усилий, или за нарушения предпочтений.

Источник