NVIDIA выпускает C-RADIOv4 — унифицированный базовый блок для задач компьютерного зрения

NVIDIA AI выпустила C-RADIOv4 — новый агломеративный базовый блок для задач компьютерного зрения, который объединяет три сильные модели-учителя: SigLIP2-g-384, DINOv3-7B и SAM3, в одном кодировщике-ученике.

Как объединить SigLIP2, DINOv3 и SAM3 в один базовый блок для зрения?

Вместо того чтобы выбирать между моделью языка зрения, самообучаемой плотной моделью и моделью сегментации, C-RADIOv4 пытается приблизить все три одновременно с помощью одной базовой структуры.

C-RADIOv4 расширяет линейку AM-RADIO и RADIOv2.5, сохраняя аналогичную вычислительную стоимость и улучшая качество плотного прогнозирования, устойчивость разрешения и совместимость с декодером SAM3.

Ключевые идеи:
* Агломеративная дистилляция в RADIO. В семействе RADIO используется агломеративная дистилляция. Один ученик в стиле ViT обучается соответствовать как плотным картам признаков, так и сводным токенам от нескольких разнородных учителей.
* Стохастическое многоуровневое обучение. C-RADIOv4 использует стохастическое многоуровневое обучение, а не небольшой фиксированный набор разрешений.
* Удаление шума учителя с помощью сдвиговых эквивариантных потерь и MESA. Дистилляция из больших моделей зрения имеет тенденцию копировать их артефакты, а не только полезную структуру.
* Балансировка учителей с помощью сводной потери с учётом угловой дисперсии. Сводная потеря в предыдущих моделях RADIO использовала косинусное расстояние между вложениями ученика и учителя.

Параметры обучения

C-RADIOv4 использует стохастическое многоуровневое обучение, а не небольшой фиксированный набор разрешений. Размеры входных данных для образцов обучения взяты из двух разделов:
* Низкое разрешение: {128, 192, 224, 256, 384, 432}.
* Высокое разрешение: {512, 768, 1024, 1152}.

SigLIP2 изначально работает на 384 пикселях. Его характеристики повышаются в три раза с помощью FeatSharp, чтобы они соответствовали характеристикам SAM3 с разрешением 1152 пикселя. SAM3 обучается с мозаичным увеличением при 1152 × 1152.

Такая конструкция сглаживает кривую производительности в зависимости от разрешения и улучшает поведение при низком разрешении. Например, при линейном зондировании ADE20k C-RADIOv4-H достигает примерно:
* 55,20 mIoU при 512 px;
* 57,02 mIoU при 1024 px;
* 57,72 mIoU при 1536 px.

Результаты

* Классификация: на ImageNet-1k при нулевой классификации C-RADIOv4-H достигает около 83,09 % точности top-1.
* Плотное прогнозирование: C-RADIOv4-H улучшает показатели по сравнению с RADIOv2.5 и C-RADIOv3, а также соответствует или превосходит DINOv3, начиная примерно с 256 px.
* Probe3d: C-RADIOv4-H достигает лучших показателей NAVI и SPair в семействе RADIO.

Интеграция с SAM3 и развёртывание в режиме ViTDet

C-RADIOv4 разработан так, чтобы его можно было использовать в качестве замены базовой структуры Perception Encoder в SAM3. Декодер SAM3 и компоненты памяти остаются неизменными.

Для развёртывания C-RADIOv4 предоставляет конфигурацию в режиме ViTDet. Большинство блоков преобразователей используют оконное внимание, а некоторые — глобальное внимание. Поддерживаемые размеры окон варьируются от 6 × 6 до 32 × 32 токенов, при условии делимости с размером патча и разрешением изображения.

На A100 модель SO400M с размером окна не более 12 работает быстрее, чем кодировщик SAM3 ViT-L+ в широком диапазоне размеров входных данных, а модель Huge с размером окна 8 близка по задержке.

Это делает C-RADIOv4 практическим базовым блоком для задач с высоким разрешением, где полное глобальное внимание на всех уровнях слишком дорого.

Ключевые выводы

* Единый унифицированный базовый блок: C-RADIOv4 объединяет SigLIP2-g-384, DINOv3-7B и SAM3 в один кодировщик в стиле ViT, который поддерживает классификацию, поиск, плотное прогнозирование и сегментацию.
* Поведение при любом разрешении: стохастическое многоуровневое обучение на {128…1152} px и повышение дискретизации SigLIP2 с помощью FeatSharp стабилизируют производительность на разных разрешениях и отслеживают масштабирование DINOv3-7B с гораздо меньшим количеством параметров.
* Подавление шума с помощью сдвиговой эквивариантности: сдвиговая эквивариантная плотная потеря и сдвиговая эквивариантная MESA предотвращают копирование учеником граничных артефактов учителя, фокусируя обучение на семантике, зависящей от входных данных.
* Сбалансированная дистилляция нескольких учителей: нормализованная по угловой дисперсии сводная потеря уравнивает вклад SigLIP2 и DINOv3, сохраняя как выравнивание текста, так и качество плотного представления.
* Готовность к развёртыванию с SAM3 и ViTDet: C-RADIOv4 может напрямую заменить кодировщик восприятия SAM3, предлагает оконное внимание в режиме ViTDet для более быстрого вывода с высоким разрешением и распространяется по лицензии NVIDIA Open Model License.

1. Какие модели-учителя объединены в базовом блоке C-RADIOv4?

В базовом блоке C-RADIOv4 объединены три модели-учителя: SigLIP2-g-384, DINOv3-7B и SAM3.

2. Какие преимущества предоставляет C-RADIOv4 по сравнению с предыдущими моделями?

C-RADIOv4 улучшает качество плотного прогнозирования, устойчивость разрешения и совместимость с декодером SAM3, сохраняя при этом аналогичную вычислительную стоимость. Кроме того, он использует стохастическое многоуровневое обучение, что позволяет сгладить кривую производительности в зависимости от разрешения и улучшить поведение при низком разрешении.

3. Какие параметры обучения используются в C-RADIOv4?

В C-RADIOv4 используется стохастическое многоуровневое обучение. Размеры входных данных для образцов обучения взяты из двух разделов: низкое разрешение {128, 192, 224, 256, 384, 432} и высокое разрешение {512, 768, 1024, 1152}.

4. Какие результаты были достигнуты с использованием C-RADIOv4 в различных задачах?

C-RADIOv4 достигает высокой точности в классификации на ImageNet-1k (около 83,09% точности top-1), улучшает показатели по сравнению с RADIOv2.5 и C-RADIOv3 в плотном прогнозировании, а также соответствует или превосходит DINOv3, начиная примерно с 256 px. В Probe3d C-RADIOv4-H достигает лучших показателей NAVI и SPair в семействе RADIO.

5. Как C-RADIOv4 интегрируется с SAM3 и какие возможности предоставляет для развёртывания?

C-RADIOv4 разработан так, чтобы его можно было использовать в качестве замены базовой структуры Perception Encoder в SAM3. Для развёртывания C-RADIOv4 предоставляет конфигурацию в режиме ViTDet. Большинство блоков преобразователей используют оконное внимание, а некоторые — глобальное внимание. Поддерживаемые размеры окон варьируются от 6 × 6 до 32 × 32 токенов, при условии делимости с размером патча и разрешением изображения. Это делает C-RADIOv4 практическим базовым блоком для задач с высоким разрешением.

Источник