Исследователи из EPFL представили FG2 на конференции CVPR: новая модель ИИ сокращает ошибки локализации на 28% для автономных транспортных средств в условиях отсутствия GPS

Передвижение по густонаселённым городским каньонам, таким как Сан-Франциско или Нью-Йорк, может стать кошмаром для GPS-систем. Высокие небоскрёбы блокируют и отражают спутниковые сигналы, что приводит к ошибкам определения местоположения на десятки метров. Для нас с вами это может означать пропущенный поворот. Но для автономного транспортного средства или робота-курьера такой уровень неточности означает разницу между успешным выполнением задачи и дорогостоящей неудачей.

Исследователи из Федеральной политехнической школы Лозанны (EPFL) в Швейцарии представили новый метод визуальной локализации во время конференции CVPR 2025. Их статья «FG2: Fine-Grained Cross-View Localization by Fine-Grained Feature Matching» представляет новую модель искусственного интеллекта, которая значительно улучшает способность наземных систем, таких как автономные автомобили, определять своё точное положение и ориентацию, используя только камеру и соответствующее аэрофотоснимок или спутниковое изображение.

Ключевые выводы:
* Высокая точность. Модель FG2 снижает среднюю ошибку локализации на 28% на тестовом наборе данных VIGOR, что является сложным эталоном для этой задачи.
* Человеческая интуиция. Вместо того чтобы полагаться на абстрактные дескрипторы, модель имитирует человеческое рассуждение, сопоставляя детализированные, семантически согласованные объекты — такие как бордюры, пешеходные переходы и здания — между наземной фотографией и аэрофотосъёмкой.
* Улучшенная интерпретируемость. Метод позволяет исследователям «видеть», что «думает» ИИ, визуализируя, какие именно объекты на наземных и аэрофотоснимках сопоставляются, что является значительным шагом вперёд по сравнению с предыдущими «чёрными ящиками».
* Слабо контролируемое обучение. Модель обучается сложным и согласованным сопоставлениям объектов без каких-либо прямых меток соответствия. Она достигает этого, используя только конечную позу камеры в качестве управляющего сигнала.

Проблема: видеть мир с двух разных углов

Основная проблема локализации в разных ракурсах — это разительное различие в перспективе между уличной камерой и видом сверху со спутника. Фасад здания, видимый с земли, выглядит совершенно иначе, чем его крыша на аэрофотоснимке. Существующие методы боролись с этим. Некоторые создают общий «дескриптор» для всей сцены, но это абстрактный подход, который не отражает то, как люди естественным образом определяют своё местоположение, замечая конкретные ориентиры. Другие методы преобразуют наземное изображение в вид с высоты птичьего полёта (BEV), но часто ограничиваются плоскостью земли, игнорируя важные вертикальные структуры, такие как здания.

FG2: сопоставление детализированных объектов

Метод FG2 от команды EPFL представляет собой более интуитивный и эффективный процесс. Он выравнивает два набора точек: один, созданный на основе изображения с уровня земли, и другой, взятый с аэрофотосъёмки.

Процесс сопоставления с 3D

Процесс начинается с того, что функции с изображения на уровне земли поднимаются в трёхмерное облако точек, центрированное вокруг камеры. Это создаёт трёхмерное представление непосредственного окружения.

Интеллектуальный сбор данных в BEV

Здесь происходит волшебство. Вместо того чтобы просто сгладить трёхмерные данные, модель учится интеллектуально выбирать наиболее важные объекты вдоль вертикального (высотного) измерения для каждой точки. Это позволяет модели правильно сопоставлять такие объекты, как фасады зданий, с их соответствующими крышами на аэрофотоснимке.

Сопоставление объектов и оценка позы

Как только наземный и аэрофотоснимки представлены в виде двумерных плоскостей точек с богатыми описаниями объектов, модель вычисляет сходство между ними. Затем она выбирает набор наиболее уверенных совпадений и использует классический геометрический алгоритм под названием Procrustes alignment для расчёта точной трёхмерной позы (x, y и yaw).

Непревзойдённая производительность и интерпретируемость

Результаты говорят сами за себя. На сложном наборе данных VIGOR, который включает изображения из разных городов в своём кросс-площадном тесте, FG2 снизила среднюю ошибку локализации на 28% по сравнению с предыдущим лучшим методом. Она также продемонстрировала превосходные возможности обобщения на наборе данных KITTI, который является основным в исследованиях автономного вождения.

Возможно, что ещё более важно, модель FG2 предлагает новый уровень прозрачности. Визуализируя сопоставленные точки, исследователи показали, что модель обучается семантически согласованным соответствиям без явного указания на это. Например, система правильно сопоставляет пешеходные переходы, дорожную разметку и даже фасады зданий на наземном снимке с их соответствующими местоположениями на аэрофотоснимке. Эта интерпретируемость чрезвычайно ценна для повышения доверия к автономным системам, критически важным для безопасности.

Метод FG2 представляет собой значительный скачок вперёд в области детальной визуальной локализации. Разработав модель, которая интеллектуально выбирает и сопоставляет объекты таким образом, который имитирует человеческую интуицию, исследователи EPFL не только побили предыдущие рекорды точности, но и сделали процесс принятия решений ИИ более понятным. Эта работа прокладывает путь для более надёжных систем навигации для автономных транспортных средств, дронов и роботов, приближая нас к будущему, в котором машины смогут уверенно ориентироваться в нашем мире, даже когда GPS отказывает им.

Источник

Оставьте комментарий