Обнаруживающие объекты с открытым словарём отвечают на текстовые запросы с помощью блоков. В дистанционном зондировании производительность в нулевом приближении падает, потому что классы детализированы, а визуальный контекст необычен.
Команда исследователей Google предлагает FLAME — стратегию одношагового активного обучения, которая основана на мощном детекторе с открытым словарём и добавляет крошечный механизм уточнения, который можно обучить почти в реальном времени на процессоре.
Метод и дизайн
1. Запустите детектор с открытым словарём в нулевом приближении, чтобы получить множество кандидатов для текстового запроса, например «дымовая труба».
2. Представьте каждого кандидата с помощью визуальных характеристик и его сходства с текстом.
3. Извлеките маргинальные выборки, которые находятся вблизи границы принятия решения, выполнив низкоразмерную проекцию с помощью PCA, затем оцените плотность, затем выберите неопределённую полосу.
4. Сгруппируйте эту полосу и выберите по одному элементу из каждого кластера для разнообразия.
5. Попросите пользователя пометить около 30 изображений как положительные или отрицательные.
6. При необходимости выполните ребалансировку с помощью SMOTE или SVM SMOTE, если метки искажены.
7. Обучите небольшой классификатор, например RBF SVM или двухуровневый MLP, чтобы принимать или отклонять исходные предложения. Базовая модель остаётся неизменной, поэтому вы сохраняете отзывчивость и обобщение, а механизм уточнения изучает точную семантику, которую имел в виду пользователь.
Наборы данных, базовые модели и настройка
Оценка использует два стандартных ориентира для обнаружения в дистанционном зондировании. DOTA содержит ориентированные рамки по 15 категориям на аэрофотоснимках высокого разрешения. DIOR содержит 23 463 изображения и 192 472 экземпляра по 20 категориям.
Сравнение включает в себя нулевую точку OWL ViT v2, а также OWL ViT v2, настроенную на RS WebLI. RS OWL ViT v2 улучшает среднюю точность в нулевом приближении до 31,827% в DOTA и 29,387% в DIOR, что становится отправной точкой для FLAME.
Понимание результатов
При адаптации с 30 кадрами FLAME на RS OWL ViT v2 достигает 53,96% AP в DOTA и 53,21% AP в DIOR, что является наивысшей точностью среди перечисленных методов. Сравнение включает SIoU, метод на основе прототипа с DINOv2, и метод с несколькими кадрами, предложенный исследовательской группой.
На DIOR класс «дымовая труба» улучшается с 0,11 в нулевом приближении до 0,94 после FLAME, что показывает, как механизм уточнения удаляет визуально похожие ложноположительные результаты из предложений с открытым словарём.
Ключевые выводы
* FLAME — это каскад одношагового активного обучения на основе OWL ViT v2.
* FLAME извлекает маргинальные выборки с помощью оценки плотности, обеспечивает разнообразие с помощью кластеризации, собирает около 30 меток и обучает лёгкий механизм уточнения, такой как RBF SVM или небольшой MLP, без тонкой настройки базовой модели.
* С 30 кадрами FLAME на RS OWL ViT v2 достигает 53,96% AP в DOTA и 53,21% AP в DIOR, превышая предыдущие базовые показатели с несколькими кадрами, включая SIoU и метод-прототип с DINOv2.
* На DIOR класс «дымовая труба» улучшается с 0,11 в нулевом приближении до 0,94 после FLAME, что показывает сильное подавление ложноположительных результатов.
* Адаптация выполняется примерно за 1 минуту для каждой метки на стандартном процессоре, что поддерживает специализацию почти в реальном времени.
* OWLv2 и RS WebLI обеспечивают основу для предложений в нулевом приближении.
В целом, FLAME демонстрирует практический путь к специализации обнаружения с открытым словарём в дистанционном зондировании, сочетая предложения RS OWL ViT v2 с механизмом уточнения масштаба процессора, который поднимает DOTA до 53,96% AP и DIOR до 53,21% AP.
1. Какие ключевые преимущества предлагает метод FLAME в контексте активного обучения для обнаружения объектов в дистанционном зондировании?
Ответ: FLAME предлагает несколько ключевых преимуществ, включая извлечение маргинальных выборок с помощью оценки плотности, обеспечение разнообразия с помощью кластеризации, обучение лёгкого механизма уточнения без тонкой настройки базовой модели. Это позволяет достичь высокой точности обнаружения объектов в дистанционном зондировании.
2. Какие наборы данных используются для оценки эффективности метода FLAME?
Ответ: Для оценки эффективности метода FLAME используются два стандартных ориентира для обнаружения в дистанционном зондировании: DOTA и DIOR. DOTA содержит ориентированные рамки по 15 категориям на аэрофотоснимках высокого разрешения, а DIOR содержит 23 463 изображения и 192 472 экземпляра по 20 категориям.
3. Какие базовые модели и методы настройки используются в сочетании с FLAME для достижения высокой точности обнаружения?
Ответ: В сочетании с FLAME используются базовые модели, такие как OWL ViT v2, а также методы настройки, включая RS WebLI. RS OWL ViT v2 улучшает среднюю точность в нулевом приближении до 31,827% в DOTA и 29,387% в DIOR, что становится отправной точкой для FLAME.
4. Как метод FLAME влияет на класс «дымовая труба» в наборе данных DIOR?
Ответ: На DIOR класс «дымовая труба» улучшается с 0,11 в нулевом приближении до 0,94 после применения FLAME. Это показывает, как механизм уточнения удаляет визуально похожие ложноположительные результаты из предложений с открытым словарём.
5. Сколько времени требуется для адаптации FLAME на стандартном процессоре?
Ответ: Адаптация FLAME выполняется примерно за 1 минуту для каждой метки на стандартном процессоре, что поддерживает специализацию почти в реальном времени.