NVIDIA представляет PivotRL: новую платформу искусственного интеллекта, достигающую высокой точности с в 4 раза меньшим количеством шагов

Введение платформы PivotRL от NVIDIA AI

Исследователи NVIDIA представили PivotRL — платформу, предназначенную для решения проблемы, возникающей при постобработке больших языковых моделей (LLMs) для долгосрочных агентских задач, таких как разработка программного обеспечения, просмотр веб-страниц и использование сложных инструментов. Эта проблема заключается в постоянном компромиссе между вычислительной эффективностью и обобщением модели.

Архитектура PivotRL

Суть PivotRL заключается в переходе от полномасштабных роллаутов к целенаправленным обновлениям на уровне ходов. Платформа использует два основных механизма:

1. Pivot Filtering (Фильтр Pivot)

В обучении на уровне ходов каждое завершение помощника на границе вызова модели считается действием. PivotRL начинает с извлечения всех ходов помощника из набора данных SFT в пул «кандидатов Pivot».

Система затем профилирует этих кандидатов в автономном режиме, используя замороженную эталонную политику π0. Чтобы оптимизировать бюджет на обучение, PivotRL фильтрует «пивот»: конкретные состояния, где локальные роллауты на основе политики демонстрируют высокую дисперсию результатов.

Критерии фильтрации определяются двумя условиями:

* ненулевая эмпирическая дисперсия вознаграждения: σ^2(s)>0;
* низкое среднее вознаграждение: μ^(s)<λdiff. Этот подход позволяет преодолеть узкое место с малоинформативными ходами. В групповой нормализованной RL, особенно в групповой относительной оптимизации политики (GRPO), ходы, где действия либо равномерно успешны, либо равномерно неудачны, приводят к нормализованному преимуществу, равному нулю, что не даёт значимого обновления градиента. Сосредоточившись на ходах со смешанными результатами, которые остаются сложными для эталонной политики, PivotRL концентрирует вычисления на состояниях, обеспечивающих наиболее сильный сигнал обучения. 2. Функциональные вознаграждения

Стандартные адаптации SFT-to-RL часто полагаются на точное сопоставление строк с демонстрационными данными для назначения вознаграждений. Однако в генеративных пространствах действий (например, командные оболочки или поисковые запросы) несколько функционально эквивалентных действий могут отличаться от конкретной строки в обучающих данных.

PivotRL заменяет строгое сопоставление функциональными вознаграждениями, где ℳ(s) — это набор локально приемлемых действий, определённых с помощью верификатора, специфичного для предметной области. Эти верификаторы могут варьироваться от нормализованных проверок схемы и сходства строк до лёгкого оценивания LLM-как-судьи.

Теоретические основы: градиентный сигнал и сохранение OOD

Эффективность этих конструктивных решений подтверждается двумя основными теоретическими результатами:

* Теорема 3.2 (дисперсия вознаграждения и сигнал GRPO): исследовательская группа доказала, что норма Фишера естественного градиента целевой функции вознаграждения в состоянии масштабируется с дисперсией вознаграждения.
* Теорема 3.3 (минимальное изменение KL): этот теорема демонстрирует, что RL на основе функциональных вознаграждений смещает массу вероятности в сторону приемлемых действий, сохраняя при этом относительный порядок вероятностей эталонной политики для действий, не связанных с обучающей задачей.

Производительность и эффективность

Исследовательская группа оценила PivotRL, используя Qwen3-30B-A3B-Thinking-2507 в качестве базовой модели в четырёх агентских доменах:

* использование разговорных инструментов (τ2−Bench);
* разработка программного обеспечения (SWE-Bench Verified);
* управление терминалом (Terminal-Bench);
* просмотр веб-страниц (BrowseComp).

Результаты

* Точность в домене: по сравнению с SFT на идентичных данных PivotRL достигла более высоких результатов в домене:
* средний прирост: +14,11 балла по сравнению с базовой моделью, по сравнению с +9,94 балла для SFT;
* доменные особенности: PivotRL превзошла SFT на τ2−Bench (+5,37), Terminal-Bench (+6,25) и BrowseComp (+9,80).
* Сохранение OOD: наиболее значительное преимущество наблюдалось в стабильности OOD. В то время как SFT вызвала среднюю регрессию -9,83 по восьми OOD-бенчмаркам (включая математику и естественные науки QA), PivotRL сохранила почти нулевой средний показатель изменения +0,21.
* Вычислительная эффективность на SWE-Bench: на SWE-Bench Verified PivotRL продемонстрировала существенное сокращение накладных расходов на обучение:
* эффективность по количеству ходов: PivotRL достигла уровней точности, сравнимых с E2E RL, используя в 4 раза меньше шагов роллаута;
* временная эффективность: обучение было примерно в 5,5 раз быстрее по настенным часам, чем E2E RL, при использовании того же количества вычислительных узлов.

Ключевые выводы

* Гибридная эффективность: PivotRL сочетает вычислительную эффективность Supervised Fine-Tuning (SFT) с обобщением вне домена (OOD) End-to-End RL.
* Pivot Filtering: платформа идентифицирует «пивоты» — критические промежуточные ходы, где выбранные действия демонстрируют высокую дисперсию в успехе/неудаче, обеспечивая наиболее сильные сигналы обучения.
* Функциональные верификаторы: вместо того чтобы требовать точного соответствия текста, PivotRL использует верификаторы, специфичные для предметной области, для вознаграждения любого функционально эквивалентного действия.
* Сохранение стабильности OOD: в отличие от SFT, PivotRL сохраняет производительность модели в несвязанных задачах (например, математика) путём сохранения порядка вероятностей эталонной политики для несвязанных с задачей действий.
* Скорость производства: PivotRL достигает точности, сравнимой с E2E RL, с 4-кратным сокращением количества шагов роллаута и примерно в 5,5 раз более быстрым временем обучения, что было доказано на NVIDIA Nemotron-3-Super.

Ознакомьтесь с документом. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 120 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там!

1. В чём заключается основная проблема, которую решает платформа PivotRL?

Платформа PivotRL решает проблему, возникающую при постобработке больших языковых моделей (LLMs) для долгосрочных агентских задач. Эта проблема заключается в постоянном компромиссе между вычислительной эффективностью и обобщением модели.

2. Какие два основных механизма использует платформа PivotRL для достижения высокой точности с меньшим количеством шагов?

Два основных механизма, которые использует платформа PivotRL:
* Pivot Filtering (Фильтр Pivot) — система фильтрует «пивот» (конкретные состояния, где локальные роллауты на основе политики демонстрируют высокую дисперсию результатов) для оптимизации бюджета на обучение.
* Функциональные вознаграждения — PivotRL заменяет строгое сопоставление функциональными вознаграждениями, где ℳ(s) — это набор локально приемлемых действий, определённых с помощью верификатора, специфичного для предметной области.

3. Какие теоретические основы подтверждают эффективность конструктивных решений PivotRL?

Эффективность конструктивных решений PivotRL подтверждается двумя основными теоретическими результатами:
* Теорема 3.2 (дисперсия вознаграждения и сигнал GRPO) — исследовательская группа доказала, что норма Фишера естественного градиента целевой функции вознаграждения в состоянии масштабируется с дисперсией вознаграждения.
* Теорема 3.3 (минимальное изменение KL) — эта теорема демонстрирует, что RL на основе функциональных вознаграждений смещает массу вероятности в сторону приемлемых действий, сохраняя при этом относительный порядок вероятностей эталонной политики для действий, не связанных с обучающей задачей.

4. Какие результаты были получены при оценке PivotRL в четырёх агентских доменах?

При оценке PivotRL были получены следующие результаты:
* Точность в домене: по сравнению с SFT на идентичных данных PivotRL достигла более высоких результатов в домене. Средний прирост составил +14,11 балла по сравнению с базовой моделью, по сравнению с +9,94 балла для SFT.
* Сохранение OOD: наиболее значительное преимущество наблюдалось в стабильности OOD. В то время как SFT вызвала среднюю регрессию -9,83 по восьми OOD-бенчмаркам, PivotRL сохранила почти нулевой средний показатель изменения +0,21.
* Вычислительная эффективность на SWE-Bench: PivotRL продемонстрировала существенное сокращение накладных расходов на обучение. Эффективность по количеству ходов: PivotRL достигла уровней точности, сравнимых с E2E RL, используя в 4 раза меньше шагов роллаута. Временная эффективность: обучение было примерно в 5,5 раз быстрее по настенным часам, чем E2E RL, при использовании того же количества вычислительных узлов.

5. Какие ключевые выводы можно сделать из представленного документа о платформе PivotRL?

Ключевые выводы, которые можно сделать из представленного документа:
* Гибридная эффективность: PivotRL сочетает вычислительную эффективность Supervised Fine-Tuning (SFT) с обобщением вне домена (OOD) End-to-End RL.
* Pivot Filtering: платформа идентифицирует «пивоты» — критические промежуточные ходы, где выбранные действия демонстрируют высокую дисперсию в успехе/неудаче, обеспечивая наиболее сильные сигналы обучения.
* Функциональные верификаторы: вместо того чтобы требовать точного соответствия текста, PivotRL использует верификаторы, специфичные для предметной области, для вознаграждения любого функционально эквивалентного действия.
* Сохранение стабильности OOD: в отличие от SFT, PivotRL сохраняет производительность модели в несвязанных задачах путём сохранения порядка вероятностей эталонной политики для несвязанных с задачей действий.
* Скорость производства: PivotRL достигает точности, сравнимой с E2E RL, с 4-кратным сокращением количества шагов роллаута и примерно в 5,5 раз более быстрым временем обучения.

Источник