Microsoft выпускает Agent Lightning: новая платформа искусственного интеллекта для обучения на основе подкрепления

Microsoft представляет Agent Lightning — платформу с открытым исходным кодом, которая позволяет обучать любых агентов искусственного интеллекта (ИИ) на основе методов подкрепления (RL — Reinforcement Learning) без необходимости переписывать существующий стек агентов.

Как Agent Lightning улучшает обучение

Платформа моделирует агента как процесс принятия решений. Она формализует агента как частично наблюдаемый марковский процесс принятия решений, где наблюдение — это текущий вход в LLM (Language Model), действие — вызов модели, а награда может быть конечной или промежуточной.

Из каждого запуска извлекаются только вызовы, сделанные моделью политики, вместе с входными данными, выходными данными и наградами. Это позволяет оптимизировать политику с помощью методов RL (Reinforcement Learning) с одним ходом.

LightningRL выполняет назначение кредитов в многошаговых эпизодах, затем оптимизирует политику с помощью единой цели RL. Исследовательская группа описывает совместимость с методами RL с одним ходом. На практике команды часто используют тренеры, которые реализуют PPO или GRPO, такие как VeRL, которые соответствуют этому интерфейсу.

Архитектура системы

Agent Lightning использует Training Agent Disaggregation. Сервер Lightning запускает обучение и обслуживание, а также предоставляет API, похожий на OpenAI, для обновлённой модели. Клиент Lightning запускает среду выполнения агента, где он уже находится, фиксирует трассировки запросов, вызовов инструментов и вознаграждений и отправляет их обратно на сервер.

Это позволяет сохранить инструменты, браузеры, оболочки и другие зависимости рядом с производственной средой, в то время как обучение на GPU остаётся на серверном уровне.

Унифицированный интерфейс данных

Agent Lightning записывает каждый вызов модели и каждый вызов инструмента как промежуток с входными данными, выходными данными и метаданными. Уровень алгоритма адаптирует промежутки в упорядоченные тройки запроса, ответа и вознаграждения.

Это позволяет оптимизировать одного агента в многоагентском рабочем процессе или нескольких агентов одновременно, не трогая код оркестрации. Те же трассировки могут также использоваться для автоматической оптимизации запросов или контролируемого уточнения.

Эксперименты и наборы данных

Исследовательская группа сообщает о трёх задачах:
* Перевод текста в SQL: используется бенчмарк Spider. Spider содержит более 10 000 вопросов по 200 базам данных, охватывающим 138 доменов. Модель политики — Llama 3.2 3B Instruct.
* Извлечение с дополненной генерацией: используется бенчмарк MuSiQue и индекс масштаба Википедии с примерно 21 миллионом документов.
* Ответы на математические вопросы с использованием инструментов: агент реализован с помощью AutoGen и вызывает инструмент-калькулятор. Набор данных — Calc X. Базовая модель — снова Llama 3.2 3B Instruct.

Ключевые выводы

* Agent Lightning использует Training Agent Disaggregation и унифицированный интерфейс трассировки, поэтому существующие агенты в LangChain, OpenAI Agents SDK, AutoGen или CrewAI подключаются с минимальными изменениями кода.
* LightningRL преобразует траектории в переходы. Он применяет назначение кредитов к многошаговым запускам, затем оптимизирует политику с помощью методов RL с одним ходом, таких как PPO или GRPO, в стандартных тренерах.
* Автоматическое промежуточное вознаграждение (AIR) обеспечивает плотную обратную связь. AIR превращает системные сигналы, такие как статус возврата инструмента, в промежуточные вознаграждения, чтобы уменьшить проблемы со скудными вознаграждениями в длинных рабочих процессах.

Исследовательская группа оценивает текст для SQL на Spider, RAG на MuSiQue с индексом масштаба Википедии, используя вложения BGE и косинусное сходство, а также использование математических инструментов на Calc X — всё это с Llama 3.2 3B Instruct в качестве базовой модели.

Runtime записывает трассировки через OpenTelemetry, отправляет их на сервер обучения и предоставляет совместимую с OpenAI конечную точку для обновлённых моделей, обеспечивая масштабируемые развёртывания без перемещения инструментов.

Agent Lightning — это практичный мост между выполнением агента и обучением с подкреплением, а не ещё одна переписанная структура. Платформа формализует выполнение агентов как марковский процесс принятия решений (MDP), вводит LightningRL для назначения кредитов и извлекает переходы, которые вписываются в одношаговые RL-тренеры.

1. Какие преимущества предлагает платформа Agent Lightning для обучения ИИ-агентов?

Платформа Agent Lightning предлагает несколько преимуществ для обучения ИИ-агентов. Во-первых, она позволяет обучать любых агентов ИИ на основе методов подкрепления без необходимости переписывать существующий стек агентов. Во-вторых, она формализует агента как частично наблюдаемый марковский процесс принятия решений, что упрощает моделирование и оптимизацию поведения агента. В-третьих, она использует унифицированный интерфейс трассировки, что позволяет подключать существующие агенты с минимальными изменениями кода.

2. Какие задачи использовались для демонстрации возможностей Agent Lightning в статье?

В статье исследовательская группа сообщает о трёх задачах, для демонстрации возможностей Agent Lightning:
* перевод текста в SQL с использованием бенчмарка Spider;
* извлечение с дополненной генерацией с использованием бенчмарка MuSiQue и индекса масштаба Википедии;
* ответы на математические вопросы с использованием инструментов с набором данных Calc X.

3. Какие ключевые выводы можно сделать из статьи о платформе Agent Lightning?

Ключевые выводы из статьи о платформе Agent Lightning включают:
* Agent Lightning использует Training Agent Disaggregation и унифицированный интерфейс трассировки, что позволяет подключать существующие агенты с минимальными изменениями кода.
* LightningRL преобразует траектории в переходы и применяет назначение кредитов к многошаговым запускам, затем оптимизирует политику с помощью методов RL с одним ходом.
* Автоматическое промежуточное вознаграждение (AIR) обеспечивает плотную обратную связь, превращая системные сигналы в промежуточные вознаграждения для уменьшения проблем со скудными вознаграждениями в длинных рабочих процессах.

Источник