Исследование из Стэнфорда и Гарварда объясняет, почему системы агентского ИИ впечатляют на демонстрациях, но полностью разваливаются при реальном использовании

Системы агентского ИИ основаны на больших языковых моделях и взаимодействуют с инструментами, памятью и внешней средой. Они уже поддерживают научные открытия, разработку программного обеспечения и клинические исследования, но всё ещё сталкиваются с ненадёжным использованием инструментов, слабым планированием на длительный срок и плохой генерализацией.

В последнем исследовании под названием «Адаптация агентского ИИ» из Стэнфорда, Гарварда, Калифорнийского университета в Беркли и Калифорнийского технологического института предлагается единый взгляд на то, как эти системы должны адаптироваться, и объединяются существующие методы в компактную математически определённую структуру.

Как в этом исследовании моделируется система агентского ИИ?

Исследование моделирует систему агентского ИИ как агентскую модель на основе фундаментальной модели вместе с тремя ключевыми компонентами:

* Модуль планирования разбивает цели на последовательности действий, используя статические процедуры, такие как Chain-of-Thought и Tree-of-Thought, или динамические процедуры, такие как ReAct и Reflexion, которые реагируют на обратную связь.
* Модуль использования инструментов соединяет агента с веб-поисковыми системами, API, средами выполнения кода, протоколами контекстуализации моделей и автоматизацией браузеров.
* Модуль памяти хранит краткосрочный контекст и долгосрочные знания, доступ к которым осуществляется через генерацию с дополненным извлечением.

Адаптация изменяет подсказки или параметры для этих компонентов с помощью контролируемой тонкой настройки, методов, основанных на предпочтениях, таких как прямая оптимизация предпочтений, методов обучения с подкреплением, таких как Proximal Policy Optimization и Group Relative Policy Optimization, и эффективных по параметрам методов, таких как адаптация низкого ранга.

Четыре парадигмы адаптации

В исследовании определены четыре парадигмы адаптации путём комбинирования двух бинарных выборов:

* Первое измерение — это цель: адаптация агента по сравнению с адаптацией инструментов.
* Второе измерение — это сигнал управления: выполнение инструмента по сравнению с выводом агента.

Это даёт A1 и A2 для адаптации агента и T1 и T2 для адаптации инструментов.

A1: адаптация на основе выполнения инструмента — оптимизация агента с использованием обратной связи, полученной в результате выполнения инструмента.
A2: адаптация на основе вывода агента — оптимизация агента с использованием сигнала, определённого только на его конечных выходных данных.
T1: адаптация инструментов без учёта конкретного агента — оптимизация инструментов без ссылки на конкретного агента.
T2: адаптация инструментов под наблюдением агента — оптимизация инструментов под наблюдением со стороны фиксированного агента.

A1: обучение на основе проверяемой обратной связи от инструментов

В A1 агент получает входные данные x, производит структурированный вызов инструмента a, инструменты возвращают результат y, а цель обучения O_tool измеряет успех инструмента, например, правильность выполнения или качество извлечения.

Документ охватывает как контролируемое подражание успешным инструментальным траекториям, так и обучение с подкреплением, которое использует проверяемые результаты работы инструментов в качестве вознаграждения.

A2: обучение на основе конечных выходных данных агента

A2 охватывает случаи, когда цель оптимизации O_agent зависит только от конечного вывода o, произведённого агентом, даже когда агент использует инструменты внутри себя.

Документ показывает, что надзора только за o недостаточно для обучения инструментам, поскольку агент может игнорировать инструменты и при этом улучшать вероятность. Поэтому эффективные системы A2 сочетают надзор за вызовами инструментов с надзором за конечными ответами или назначают разреженные вознаграждения, такие как точность точного соответствия o, и распространяют их обратно по всей траектории.

T1: обучение без учёта агента

T1 замораживает основного агента и оптимизирует инструменты, чтобы они были широко повторно используемыми. Цель O_tool зависит только от выходных данных инструмента и измеряется с помощью таких показателей, как точность извлечения, качество ранжирования, достоверность симуляции или успех в выполнении последующих задач.

T2: инструменты, оптимизированные под замороженным агентом

T2 предполагает мощного, но фиксированного агента A, который часто встречается, когда агент является базовой моделью с закрытым исходным кодом. Инструмент выполняет вызовы и возвращает результаты, которые агент затем использует для получения o.

Цель оптимизации снова принадлежит O_agent, но обучаемые параметры принадлежат инструменту. Документ описывает взвешенное по качеству обучение, целевое обучение и варианты обучения с подкреплением, которые получают сигналы обучения для инструмента из конечных выходных данных агента.

Исследование рассматривает долгосрочную память как частный случай T2. Память — это внешнее хранилище, записываемое и считываемое с помощью изученных функций, а агент остаётся замороженным.

Основные выводы

Исследование определяет точную четырёхпарадигмальную структуру для адаптации агентского ИИ путём пересечения двух измерений: нацелена ли адаптация на агента или инструменты, и поступает ли сигнал управления от выполнения инструмента или от конечных выходных данных агента.

Методы A1, такие как Toolformer, ToolAlpaca, Gorilla и DeepRetrieval, адаптируют агента непосредственно на основе проверяемой обратной связи от инструментов, включая метрики извлечения, точность выполнения SQL и результаты выполнения кода, часто оптимизированные с помощью Proximal Policy Optimization с регуляризацией KL.

Методы A2 оптимизируют агента на основе сигналов на конечных выходных данных, например, точности ответов, и документ показывает, что системы всё равно должны контролировать вызовы инструментов или распространять разреженные вознаграждения по полным траекториям, иначе агент может игнорировать инструменты, сохраняя при этом вероятность улучшения.

T1 и T2 переносят обучение на инструменты и память, T1 обучает в целом полезные поисковые системы, искатели и симуляторы без учёта конкретного агента, а T2 адаптирует инструменты под замороженного агента, как в s3 и AgentFlow, где фиксированный генератор контролирует изученного искателя и планировщика.

Исследовательская группа представляет адаптационный ландшафт, который связывает монолитные и модульные системы, а также локальный и системный контроль, и утверждает, что практические системы будут сочетать редкие обновления A1 или A2 на основе сильной базовой модели с частой адаптацией T1 и T2 для искателей, поисковых политик, симуляторов и памяти для обеспечения надёжности и масштабируемости.

1. Какие компоненты включает в себя система агентского ИИ согласно исследованию?

Ответ: система агентского ИИ включает в себя три ключевых компонента: модуль планирования, модуль использования инструментов и модуль памяти.

2. Какие парадигмы адаптации определены в исследовании?

Ответ: в исследовании определены четыре парадигмы адаптации: A1 (адаптация на основе выполнения инструмента), A2 (адаптация на основе вывода агента), T1 (адаптация инструментов без учёта конкретного агента) и T2 (адаптация инструментов под наблюдением агента).

3. Какие методы используются для адаптации агента в парадигме A1?

Ответ: в парадигме A1 используются методы, такие как Toolformer, ToolAlpaca, Gorilla и DeepRetrieval, которые адаптируют агента на основе проверяемой обратной связи от инструментов, включая метрики извлечения, точность выполнения SQL и результаты выполнения кода.

4. Какие выводы можно сделать из исследования относительно методов A2?

Ответ: методы A2 оптимизируют агента на основе сигналов на конечных выходных данных, например, точности ответов. Исследование показывает, что системы всё равно должны контролировать вызовы инструментов или распространять разреженные вознаграждения по полным траекториям, иначе агент может игнорировать инструменты, сохраняя при этом вероятность улучшения.

5. Какие методы и подходы используются для обучения инструментов и памяти в парадигмах T1 и T2?

Ответ: парадигма T1 обучает в целом полезные поисковые системы, искатели и симуляторы без учёта конкретного агента. Парадигма T2 адаптирует инструменты под замороженного агента, как в s3 и AgentFlow, где фиксированный генератор контролирует изученного искателя и планировщика.

Источник