QeRL: квантизированное обучение с подкреплением в формате NVFP4 позволяет обучать модели LLM размером 32B на одном H100, улучшая при этом исследование пространства

Исследователи из NVIDIA (совместно с коллегами из MIT, HKU и Tsinghua) выпустили в открытый доступ QeRL (Quantization-enhanced Reinforcement Learning) — фреймворк для обучения, который переводит постобучение с подкреплением (RL) в формат 4-битного FP4 (NVFP4), сохраняя при этом вычисления градиента с более высокой точностью через LoRA.

Что такое QeRL и как оно меняет цикл обучения с подкреплением?

Большинство конвейеров RLHF/GRPO/DAPO тратят основную часть времени на этапе развёртывания (генерацию токенов). QeRL переносит путь веса политики в NVFP4 (FP4) с двухуровневым масштабированием и сохраняет логиты/градиенты с более высокой точностью через LoRA, благодаря чему обратное распространение остаётся стабильным, а путь выборки использует аппаратно-эффективные ядра FP4×BF16 (Marlin). В результате ускоряется предварительный ввод/декодирование во время развёртывания без необходимости поддерживать отдельную политику с полной точностью.

Исследовательская группа интегрирует ядра на основе Marlin как в развёртывание, так и в предварительный ввод, в то время как LoRA ограничивает количество обучаемых параметров. Это напрямую нацелено на этап, который определяет стоимость и задержку RL для длинных цепочек рассуждений.

Основные эмпирические выводы

Детерминированная квантизация FP4 повышает энтропию политики, выравнивая распределение токенов на ранних этапах обучения и улучшая исследование по сравнению с 16-битными LoRA и QLoRA на основе NF4. Чтобы контролировать этот эффект с течением времени, QeRL вводит адаптивный шум квантизации (AQN) — гауссовы возмущения по каналам, отображаемые в параметры масштаба LayerNorm и затухающие по экспоненциальному расписанию. Это сохраняет слияние ядер (без дополнительных весовых тензоров) при переходе от исследования к эксплуатации.

В абляциях QeRL показывает более быстрый рост вознаграждения и более высокие итоговые баллы в задачах математического рассуждения в рамках GRPO и DAPO, что согласуется с гипотезой о том, что структурированный шум в пространстве параметров может быть полезным драйвером исследования в RL, даже если такой шум обычно вреден при контролируемом точном настройке.

Результаты

На базовой модели Qwen2.5 исследовательская группа показала, что NVFP4+LoRA превосходит ванильный LoRA и QLoRA по пропускной способности развёртывания и общему времени обучения, с более чем двукратным увеличением пропускной способности развёртывания на моделях 14B/32B по сравнению с QLoRA и примерно в 1,8 раза по сравнению с QLoRA в репрезентативной настройке. Они также продемонстрировали обучение политике размером 32B с помощью GRPO на одном H100-80GB благодаря меньшему объёму памяти, занимаемой только весами FP4.

Точность соответствует показателям более точных базовых версий. Для модели 7B исследовательская группа сообщает о результатах GSM8K = 90,8% и MATH500 = 77,4%, превосходя 16-битный LoRA и QLoRA в рамках их настройки и соответствуя полному параметрическому точному настройке. В более широких математических тестах (например, BigMath) QeRL поддерживает паритет или преимущество, сходясь быстрее благодаря улучшению исследования.

Что это такое — и чем это не является?

QeRL — это только FP4 с обновлениями LoRA; он не претендует на точность FP4 для логитов/градиентов. Преимущества заключаются в пропускной способности развёртывания/предварительного ввода и объёме памяти, а также в эмпирических доказательствах того, что квантизация, индуцированная энтропией, способствует исследованию RL при модуляции AQN во время обучения.

Ключевые выводы

* QeRL сочетает 4-битную квантизацию весов NVFP4 с LoRA для ускорения этапа развёртывания и сокращения объёма памяти, обеспечивая RL для модели LLM размером 32B на одном H100-80GB.
* Квантизация действует как средство исследования: FP4 увеличивает энтропию политики, а адаптивный шум квантизации (AQN) планирует канальный шум через параметры масштаба LayerNorm.
* Сообщается об эффективности: более чем в 1,5 раза ускорение развёртывания по сравнению с 16-битным LoRA и примерно в 1,8 раза по сравнению с QLoRA; более чем в 2 раза увеличение пропускной способности развёртывания по сравнению с QLoRA для установок 14B/32B.
* Точность сохраняется: Qwen2.5-7B достигает 90,8% на GSM8K и 77,4% на MATH500, соответствуя полной параметрической точной настройке в рамках настройки, описанной в документе.
* NVFP4 — это аппаратно-оптимизированный 4-битный формат с плавающей запятой с двухуровневым масштабированием (масштабирующие блоки FP8 E4M3 + тензорный масштаб FP32), обеспечивающий эффективную работу ядер на основе Marlin.

1. Какие преимущества предлагает QeRL по сравнению с другими методами обучения RL?

QeRL предлагает ускорение этапа развёртывания и сокращение объёма памяти благодаря сочетанию 4-битной квантизации весов NVFP4 с LoRA. Это позволяет обучать модели LLM размером 32B на одном H100-80GB.

2. Как QeRL влияет на исследование пространства в RL?

Квантизация в QeRL действует как средство исследования: FP4 увеличивает энтропию политики, а адаптивный шум квантизации (AQN) планирует канальный шум через параметры масштаба LayerNorm. Это способствует исследованию RL при модуляции AQN во время обучения.

3. Какие результаты были получены при использовании QeRL на базовой модели Qwen2.5?

На базовой модели Qwen2.5 исследовательская группа показала, что NVFP4+LoRA превосходит ванильный LoRA и QLoRA по пропускной способности развёртывания и общему времени обучения. Также было продемонстрировано обучение политике размером 32B с помощью GRPO на одном H100-80GB благодаря меньшему объёму памяти, занимаемой только весами FP4. Точность соответствует показателям более точных базовых версий.

4. Какие ключевые выводы можно сделать из статьи о QeRL?

Ключевые выводы:
* QeRL сочетает 4-битную квантизацию весов NVFP4 с LoRA для ускорения этапа развёртывания и сокращения объёма памяти, обеспечивая RL для модели LLM размером 32B на одном H100-80GB.
* Квантизация действует как средство исследования: FP4 увеличивает энтропию политики, а адаптивный шум квантизации (AQN) планирует канальный шум через параметры масштаба LayerNorm.
* Сообщается об эффективности: более чем в 1,5 раза ускорение развёртывания по сравнению с 16-битным LoRA и примерно в 1,8 раза по сравнению с QLoRA; более чем в 2 раза увеличение пропускной способности развёртывания по сравнению с QLoRA для установок 14B/32B.
* Точность сохраняется: Qwen2.5-7B достигает 90,8% на GSM8K и 77,4% на MATH500, соответствуя полной параметрической точной настройке в рамках настройки, описанной в документе.

5. Что такое NVFP4 и как он используется в QeRL?

NVFP4 — это аппаратно-оптимизированный 4-битный формат с плавающей запятой с двухуровневым масштабированием (масштабирующие блоки FP8 E4M3 + тензорный масштаб FP32), обеспечивающий эффективную работу ядер на основе Marlin. В QeRL NVFP4 используется для квантизации весов, что позволяет ускорить этап развёртывания и сократить объём памяти.

Источник