Исследователи NVIDIA предложили предварительный тренинг с подкреплением (RLP)

NVIDIA AI представила предварительный тренинг с подкреплением (RLP) — метод, который внедряет обучение с подкреплением на этапе предварительного обучения, а не откладывает его на этап постобучения. Основная идея проста и проверяема: рассматривать короткую цепочку мыслей (CoT) как действие, выбранное перед предсказанием следующего токена, и вознаграждать его за информацию, которую он предоставляет о наблюдаемом следующем токене, измеряемую по сравнению с базовым уровнем EMA без размышлений.

Это создаёт плотный, зависящий от позиции сигнал вознаграждения, который можно применять к обычным текстовым потокам в масштабе предварительного обучения.

Механизм: вознаграждения за получение информации с использованием счётчика EMA

RLP использует одну сеть (общие параметры) для:
1. Выбора политики CoT 𝜋𝜃(𝑐𝑡∣𝑥<𝑡).
2. Оценки следующего токена 𝑝𝜃(𝑥𝑡∣𝑥<𝑡,𝑐𝑡). Медленно обновляемый учитель EMA 𝑝𝜙(𝑥𝑡∣𝑥<𝑡) предоставляет контрфактическое отсутствие размышлений. Вознаграждение за токен — это логарифмическое отношение правдоподобия: 𝑟(𝑐𝑡)=log𝑝𝜃(𝑥𝑡∣𝑥<𝑡,𝑐𝑡)−log𝑝𝜙(𝑥𝑡∣𝑥<𝑡), вычисленное при принудительном обучении учителя. Обновления обучения затрагивают только токены мыслей, используя ограниченную суррогатную величину с коэффициентами важности для каждого токена и групповыми относительными преимуществами (несколько выбранных мыслей для каждого контекста уменьшают дисперсию). Цель максимизирует ожидаемый прирост информации; теоретические результаты связывают ожидаемое вознаграждение с уменьшением перекрёстной энтропии и ограничивают его путём маргинализации по мыслям.

Параметры генерации LLM: что они делают и как их настраивать?

Почему это важно с технической точки зрения: в отличие от предшествующих вариантов «предварительного обучения с подкреплением», которые полагаются на редкие, двоичные сигналы правильности или прокси-фильтры, плотное, не требующее верификатора вознаграждение RLP присваивает позиционное вознаграждение везде, где размышления улучшают прогноз, что позволяет обновлять каждый токен в общем веб-масштабе корпусов без внешних верификаторов или кураторских ключей ответов.

Qwen3-1.7B-Base: предварительное обучение с RLP улучшило общий средний показатель по математике и естественным наукам примерно на 19% по сравнению с базовой моделью и на 17% по сравнению с непрерывным предварительным обучением (CPT), соответствующим вычислительным ресурсам. После идентичного постобучения (SFT + RLVR) модель, инициализированная с помощью RLP, сохранила относительное преимущество примерно на 7–8%, с наибольшими выигрышами по бенчмаркам, ориентированным на рассуждения (AIME25, MMLU-Pro).

Nemotron-Nano-12B v2: применение RLP к 12-битному гибридному контрольному пункту Mamba-Transformer дало общее среднее увеличение с 42,81% до 61,32% и абсолютное увеличение на 23% по научному мышлению, даже несмотря на то, что в ходе запуска RLP было использовано примерно на 200 миллиардов токенов меньше (обучение для 19,8 Т против 20 Т токенов; RLP применялся для 250 М токенов). Это подчёркивает эффективность использования данных и независимость от архитектуры.

Ключевые выводы

RLP делает рассуждение целью предварительного обучения: выберите цепочку мыслей перед предсказанием следующего токена и вознаградите её за прирост информации по сравнению с базовым уровнем EMA без размышлений.

Плотный, не требующий верификации, зависящий от позиции сигнал: работает с обычными текстовыми потоками без внешних оценщиков, обеспечивая масштабируемые обновления предварительного обучения для каждого токена.

Параметры настройки LLM

Настройка параметров LLM в основном сводится к проблеме декодирования: вы формируете распределение следующих токенов модели с помощью нескольких элементов управления выборкой — максимальное количество токенов (ограничивает длину ответа модели в соответствии с контекстом модели), температура (масштабирование логарифмов для большей/меньшей случайности), top-p/nucleus и top-k (усечение набора кандидатов по массе вероятностей или рангу), штрафы за частоту и присутствие (препятствуют повторению или поощряют новизну) и стоп-последовательности (жёсткая остановка на разделителях).

Эти семь параметров взаимодействуют: температура расширяет хвост, который затем обрезают top-p/top-k; штрафы смягчают дегенерацию во время длинных генераций; стоп плюс максимальное количество токенов обеспечивает детерминированные границы.

1. Max tokens (максимальное количество токенов): жёсткое ограничение на количество токенов, которые модель может сгенерировать в этом ответе. Не расширяет окно контекста; сумма входных и выходных токенов должна соответствовать длине контекста модели. Если лимит будет достигнут первым, API пометит ответ как «неполный/длина».

2. Temperature (температура): скаляр, применяемый к логитам перед softmax. Понижает T для более детерминированного распределения; повышает T для более случайного распределения.

3. Nucleus sampling (выборка ядра): выборка только из наименьшего набора токенов, совокупная вероятность которых ≥ p.

4. Top-k sampling (выборка top-k): на каждом шаге ограничивайте кандидатов k токенами с наивысшей вероятностью, затем перенормализуйте и выберите.

5. Frequency penalty (штраф за частоту): уменьшает вероятность токенов пропорционально тому, как часто они уже появлялись в сгенерированном контексте, уменьшая дословное повторение.

6. Presence penalty (штраф за присутствие): наказывает токены, которые появлялись хотя бы один раз, поощряя модель вводить новые токены/темы.

7. Stop sequences (стоп-последовательности): строки, которые заставляют декодер останавливаться именно тогда, когда они появляются, без вывода стоп-текста.

1. В чём заключается основная идея предварительного тренинга с подкреплением (RLP) от NVIDIA AI?

Основная идея RLP заключается во внедрении обучения с подкреплением на этапе предварительного обучения. Вместо того чтобы откладывать обучение на этап постобучения, предлагается рассматривать короткую цепочку мыслей (CoT) как действие, выбранное перед предсказанием следующего токена, и вознаграждать его за информацию, которую он предоставляет о наблюдаемом следующем токене.

2. Какие преимущества предоставляет метод RLP по сравнению с предшествующими вариантами предварительного обучения с подкреплением?

Метод RLP предоставляет несколько преимуществ по сравнению с предшествующими вариантами. Во-первых, он использует плотный, зависящий от позиции сигнал вознаграждения, который можно применять к обычным текстовым потокам в масштабе предварительного обучения. Во-вторых, RLP не требует внешних верификаторов или кураторских ключей ответов, что позволяет обновлять каждый токен в общем веб-масштабе корпусов без дополнительных ресурсов.

3. Какие параметры используются для настройки LLM и как они взаимодействуют между собой?

Для настройки LLM используются следующие параметры: максимальное количество токенов, температура, top-p/nucleus, top-k, штрафы за частоту и присутствие, стоп-последовательности. Эти параметры взаимодействуют между собой: температура расширяет хвост, который затем обрезают top-p/top-k; штрафы смягчают дегенерацию во время длинных генераций; стоп плюс максимальное количество токенов обеспечивает детерминированные границы.

4. Какие результаты были получены после применения RLP к моделям Qwen3-1.7B-Base и Nemotron-Nano-12B v2?

После применения RLP к модели Qwen3-1.7B-Base было получено улучшение общего среднего показателя по математике и естественным наукам примерно на 19% по сравнению с базовой моделью и на 17% по сравнению с непрерывным предварительным обучением (CPT). Для модели Nemotron-Nano-12B v2 применение RLP дало общее среднее увеличение с 42,81% до 61,32% и абсолютное увеличение на 23% по научному мышлению.

5. Какие ключевые выводы можно сделать из статьи относительно метода RLP?

Ключевые выводы из статьи заключаются в том, что RLP делает рассуждение целью предварительного обучения, используя плотный, не требующий верификации, зависящий от позиции сигнал. Это позволяет работать с обычными текстовыми потоками без внешних оценщиков, обеспечивая масштабируемые обновления предварительного обучения для каждого токена.

Источник