Команда DeepReinforce представляет CUDA-L1: автоматизированную систему обучения с подкреплением для оптимизации CUDA, раскрывающую тройной потенциал мощности GPU

Введение в прорыв: контрастивное обучение с подкреплением (Contrastive-RL)

Команда DeepReinforce представила новый фреймворк под названием CUDA-L1, который обеспечивает среднее ускорение в 3,12 раза и до 120 раз на пике для 250 реальных задач на GPU. Этот фреймворк работает без вмешательства человека и использует открытый исходный код на широко используемом оборудовании NVIDIA.

Как работает CUDA-L1?

В основе CUDA-L1 лежит значительный прорыв в стратегии обучения ИИ: контрастивное обучение с подкреплением (Contrastive-RL). В отличие от традиционного RL, где ИИ просто генерирует решения, получает числовые вознаграждения и слепо обновляет параметры своей модели, Contrastive-RL возвращает оценки производительности и предыдущие варианты непосредственно в подсказку следующего поколения.

На каждом этапе оптимизации ИИ получает оценки производительности и варианты кода. Модель должна написать «Анализ производительности» на естественном языке, отражающий, какой код был самым быстрым, почему и какие стратегии привели к ускорению.

Каждый шаг требует сложных рассуждений, направляя модель к синтезу не просто нового варианта кода, но и более обобщённой, основанной на данных ментальной модели того, что делает код CUDA быстрым.

Результаты

В результате ИИ обнаруживает не только общеизвестные оптимизации, но и неочевидные приёмы, которые часто упускают из виду даже эксперты-люди, включая математические сокращения, которые полностью обходят вычисления, или стратегии работы с памятью, настроенные на специфические аппаратные особенности.

Этапы обучения модели

1. Модель тонкой настраивается с использованием проверенного кода CUDA, собранного путём выборки из ведущих базовых моделей (DeepSeek-R1, GPT-4o, Claude и т. д.), но сохраняя только правильные и исполняемые выходные данные.
2. Модель входит в цикл самообучения: она генерирует много кода CUDA, сохраняет только функциональные и использует их для дальнейшего обучения.
3. На этапе Contrastive-RL система выбирает несколько вариантов кода, показывает каждый с измеренной скоростью и предлагает ИИ провести дебаты, анализ и превзойти предыдущие поколения, прежде чем создать следующий раунд оптимизаций.

Насколько хорош CUDA-L1? Точные данные

* Среднее ускорение: 3,12 раза. ИИ нашёл улучшения практически в каждой задаче.
* Максимальное ускорение: 120 раз. Некоторые вычислительные узкие места и неэффективный код (например, умножение диагональных матриц) были преобразованы с помощью принципиально более совершенных решений.
* Работает на любом оборудовании: коды, оптимизированные на NVIDIA A100 GPU, сохраняли существенные преимущества при переносе на другие архитектуры (L40, H100, RTX 3090, H20), со средними ускорениями от 2,37× до 3,12×, медианные приросты последовательно выше 1,1× на всех устройствах.

Влияние на бизнес: почему это важно

* Прямая экономия затрат: каждый 1% ускорения рабочих нагрузок GPU приводит к снижению затрат на облачные вычисления, снижению затрат на электроэнергию и увеличению пропускной способности моделей.
* Ускорение циклов разработки: автоматизированная оптимизация снижает потребность в экспертах по CUDA. Команды могут разблокировать прирост производительности за часы, а не месяцы, и сосредоточиться на функциях и скорости исследований, а не на низкоуровневой настройке.

Для исследователей ИИ

* Доказательство рассуждений в предметной области: Contrastive-RL предлагает новый подход к обучению ИИ в областях, где важны правильность и производительность, а не только естественный язык.
* Награда за хакерство: авторы подробно рассматривают, как ИИ обнаружил тонкие приёмы и «уловки» (например, асинхронное управление потоками для ложного ускорения), и описывают надёжные процедуры для обнаружения и предотвращения такого поведения.

Технические подробности: почему Contrastive-RL выигрывает

* Обратная связь по производительности теперь в контексте: в отличие от традиционного RL, ИИ может учиться не только методом проб и ошибок, но и путём обоснованной самокритики.
* Самосовершенствование: цикл размышлений делает модель устойчивой к манипуляциям с вознаграждениями и превосходит как эволюционные подходы (фиксированные параметры, контрастное обучение в контексте), так и традиционное RL (слепой градиент политики).
* Обобщает и открывает фундаментальные принципы: ИИ может комбинировать, ранжировать и применять ключевые стратегии оптимизации, такие как объединение памяти, настройка блоков потоков, слияние операций, повторное использование общей памяти, сокращения на уровне варпов и преобразования математических эквивалентностей.

Таблица: основные методы, обнаруженные CUDA-L1

| Оптимизация | Типичное ускорение | Пример |
| — | — | — |
| Оптимизация макета памяти | Последовательное повышение | Непрерывная память/хранение для эффективности кэша |
| Доступ к памяти (объединение, общая) | Умеренное–высокое | Избегает конфликтов банков, максимизирует пропускную способность |
| Слияние операций | Высокое с конвейерными операциями | Объединённые многооперационные ядра сокращают количество операций чтения/записи в память |
| Математическое короткое замыкание | Чрезвычайно высокое (10–100×) | Обнаруживает, когда вычисления можно полностью пропустить |
| Конфигурация блока потоков/параллель | Умеренное | Адаптирует размеры/формы блоков к аппаратному обеспечению/задаче |
| Сокращения на уровне варпов/без ветвлений | Умеренное | Снижает расхождение и накладные расходы на синхронизацию |
| Оптимизация использования регистров/общей памяти | Умеренное–высокое | Кэширует частые данные рядом с вычислениями |
| Асинхронное выполнение, минимальная синхронизация | Вариативно | Перекрывает ввод-вывод, обеспечивает конвейерные вычисления |

Заключение: ИИ теперь сам является инженером по оптимизации

С помощью CUDA-L1 ИИ стал собственным инженером по производительности, ускоряя продуктивность исследований и отдачу от оборудования, не полагаясь на редкие человеческие знания. Результат — не просто более высокие показатели, но и план для ИИ-систем, которые учат себя максимально использовать потенциал оборудования, на котором они работают.

ИИ теперь создаёт собственный цикл: более эффективный, более проницательный и лучше способный максимизировать ресурсы, которые мы ему предоставляем — для науки, промышленности и не только.

1. Какие преимущества предлагает фреймворк CUDA-L1 по сравнению с традиционным RL?

Ответ: в отличие от традиционного RL, где ИИ просто генерирует решения, получает числовые вознаграждения и слепо обновляет параметры своей модели, Contrastive-RL возвращает оценки производительности и предыдущие варианты непосредственно в подсказку следующего поколения. Это позволяет ИИ учиться не только методом проб и ошибок, но и путём обоснованной самокритики.

2. Какие результаты были достигнуты с помощью фреймворка CUDA-L1?

Ответ: фреймворк CUDA-L1 обеспечивает среднее ускорение в 3,12 раза и до 120 раз на пике для 250 реальных задач на GPU. ИИ находит не только общеизвестные оптимизации, но и неочевидные приёмы, которые часто упускают из виду даже эксперты-люди.

3. Какие этапы включает в себя обучение модели в рамках фреймворка CUDA-L1?

Ответ:
1. Модель тонкой настраивается с использованием проверенного кода CUDA, собранного путём выборки из ведущих базовых моделей (DeepSeek-R1, GPT-4o, Claude и т. д.), но сохраняя только правильные и исполняемые выходные данные.
2. Модель входит в цикл самообучения: она генерирует много кода CUDA, сохраняет только функциональные и использует их для дальнейшего обучения.
3. На этапе Contrastive-RL система выбирает несколько вариантов кода, показывает каждый с измеренной скоростью и предлагает ИИ провести дебаты, анализ и превзойти предыдущие поколения, прежде чем создать следующий раунд оптимизаций.

4. Какие оптимизации были обнаружены с помощью CUDA-L1 и какое ускорение они обеспечивают?

Ответ: с помощью CUDA-L1 были обнаружены следующие оптимизации:
* оптимизация макета памяти (последовательное повышение);
* доступ к памяти (объединение, общая) (умеренное–высокое);
* слияние операций (высокое с конвейерными операциями);
* математическое короткое замыкание (чрезвычайно высокое);
* конфигурация блока потоков/параллель (умеренное);
* сокращения на уровне варпов/без ветвлений (умеренное);
* оптимизация использования регистров/общей памяти (умеренное–высокое);
* асинхронное выполнение, минимальная синхронизация (вариативно).

5. Какое влияние оказывает использование CUDA-L1 на бизнес?

Ответ: использование CUDA-L1 приводит к прямой экономии затрат за счёт снижения затрат на облачные вычисления, электроэнергию и увеличения пропускной способности моделей. Кроме того, автоматизированная оптимизация снижает потребность в экспертах по CUDA, ускоряет циклы разработки и позволяет командам сосредоточиться на функциях и скорости исследований, а не на низкоуровневой настройке.

Источник