Исследователи NVIDIA AI выпустили NitroGen: модель действий с открытым исходным кодом для универсальных игровых агентов

Команда исследователей NVIDIA AI выпустила NitroGen — модель действий с открытым исходным кодом для универсальных игровых агентов. Модель обучается играть в коммерческие игры напрямую по пикселям и действиям с геймпада, используя интернет-видео в большом масштабе.

Обучение NitroGen

NitroGen обучен на 40 000 часах игрового процесса более чем в 1000 играх. Модель поставляется с открытым набором данных, универсальным симулятором и предварительно обученной политикой.

Набор данных NitroGen

Сбор данных для NitroGen начинается с общедоступных видеороликов геймплея, которые включают наложения ввода, например, визуализации геймпада, размещаемые стримерами в углу экрана. Исследовательская группа собирает 71 000 часов необработанного видео с такими наложениями, затем применяет фильтрацию качества на основе плотности действий, которая оставляет 55% данных, около 40 000 часов, охватывающих более 1000 игр.

Архитектура модели NitroGen

Политика NitroGen основана на архитектуре GR00T N1 для воплощённых агентов. Она отбрасывает кодировщики языка и состояния, сохраняя кодировщик зрения и единственную головку действия.

Входные данные — одно RGB-изображение размером 256×256 пикселей. Трансформер зрения SigLIP 2 кодирует это изображение в 256 токенов изображения. Диффузионный трансформер, DiT, генерирует 16-шаговые фрагменты будущих действий.

Во время обучения шумные фрагменты действий встраиваются многослойным перцептроном в токены действий, обрабатываются стеком блоков DiT с самовниманием и перекрёстным вниманием к визуальным токенам, затем декодируются обратно в непрерывные векторы действий.

Выпущенная контрольная точка имеет 4,93 × 10^8 параметров. Модель описывается как тензор размером 21×16, где 17 измерений соответствуют состояниям двоичных кнопок, а 4 измерения хранят два двумерных вектора джойстика за 16 будущих временных шагов.

Результаты обучения и преимущества переноса

NitroGen обучается исключительно с помощью крупномасштабного клонирования поведения на наборе данных интернет-видео. В базовой модели нет обучения с подкреплением и нет разработки вознаграждений.

После предварительного обучения на полном наборе данных NitroGen 500M уже достигает нетривиальных показателей выполнения задач в нулевой оценке по всем играм в бенчмарке.

Для переноса в невидимые игры исследовательская группа выделяет название, предварительно обучает на оставшихся данных, а затем настраивает на выделенной игре при фиксированном бюджете данных и вычислений.

Ключевые выводы

* NitroGen — это модель действий с общим видением для игр. Она отображает RGB-кадры размером 256×256 напрямую в стандартизированные действия геймпада и обучается с помощью чистого клонирования поведения на игровых видео из интернета без какого-либо обучения с подкреплением.
* Набор данных NitroGen имеет большой масштаб и автоматически размечен по наложениям контроллера.
* Единое пространство действий контроллера обеспечивает перенос между играми. Действия представлены в общем пространстве размером около 20 измерений на временной шаг, что позволяет использовать единую политику во многих коммерческих играх Windows с помощью универсального симулятора в стиле Gymnasium.
* Политика диффузионного трансформатора с условным согласованием потоков. Модель использует кодировщик зрения SigLIP 2 плюс головку действия на основе DiT, обученную с условным согласованием потоков на 16-шаговых фрагментах действий, достигая надёжного управления на основе зашумленных данных в масштабе сети.
* Предварительное обучение на NitroGen улучшает производительность в играх. При тонкой настройке на выделенных названиях при том же бюджете данных и вычислений инициализация на основе NitroGen даёт последовательные относительные приросты в среднем на 10–25% и до 52% в боевых задачах с низким объёмом данных по сравнению с обучением с нуля.

Ознакомиться с документом и моделью можно здесь. Подписывайтесь на нас в Twitter, присоединяйтесь к нашему ML SubReddit с более чем 100 тысячами участников и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.

1. Какие ключевые особенности модели NitroGen делают её уникальной для игровых агентов?

Ответ: NitroGen уникален благодаря своей способности обучаться на основе интернет-видеороликов, используя общедоступные материалы для обучения напрямую по пикселям и действиям с геймпада. Модель не требует обучения с подкреплением и основана на архитектуре GR00T N1 для воплощённых агентов, что позволяет ей эффективно обрабатывать визуальные данные и генерировать действия.

2. Какие преимущества даёт использование модели NitroGen для разработчиков игр и исследователей в области искусственного интеллекта?

Ответ: использование модели NitroGen предоставляет разработчикам игр и исследователям возможность быстро и эффективно обучать агентов для различных игр без необходимости создания специализированных обучающих наборов данных. Это также позволяет проводить исследования в области переноса обучения между играми и улучшать производительность агентов в новых условиях.

3. Какие технические аспекты архитектуры модели NitroGen способствуют её способности обучаться на большом объёме данных?

Ответ: архитектура модели NitroGen включает в себя трансформер зрения SigLIP 2 для кодирования визуальных данных, диффузионный трансформер (DiT) для генерации будущих действий и многослойный перцептрон для встраивания шумных фрагментов действий в токены. Эти компоненты работают вместе, позволяя модели обучаться на большом объёме данных и адаптироваться к различным игровым условиям.

4. Какие результаты были достигнуты после предварительного обучения модели NitroGen на полном наборе данных?

Ответ: после предварительного обучения на полном наборе данных модель NitroGen 500M достигает нетривиальных показателей выполнения задач в нулевой оценке по всем играм в бенчмарке. Это свидетельствует о том, что модель способна эффективно обучаться на основе видеоматериалов и адаптироваться к различным игровым условиям без необходимости дополнительного обучения с подкреплением.

5. Какие выводы можно сделать о потенциале модели NitroGen для будущих исследований в области искусственного интеллекта и разработки игр?

Ответ: модель NitroGen представляет собой значительный шаг вперёд в области искусственного интеллекта и разработки игр. Она демонстрирует потенциал для будущих исследований в области обучения агентов на основе видеоматериалов, переноса обучения между играми и улучшения производительности агентов в различных игровых условиях. Это может привести к созданию более интеллектуальных и адаптивных игровых агентов в будущем.

Источник