Группа исследователей из Meta Reality Labs и Университета Карнеги-Меллона представила MapAnything — архитектуру трансформера, которая напрямую выполняет регрессию факторизованной метрической геометрии 3D-сцен по изображениям и дополнительным входным данным с датчиков.
Почему универсальная модель для 3D-реконструкции?
Реконструкция 3D по изображениям исторически основывалась на фрагментированных конвейерах: обнаружение объектов, оценка позы по двум видам, корректировка связок, мультивидовая стереоскопия или монокулярный вывод глубины. Хотя такие модульные решения эффективны, они требуют настройки для конкретных задач, оптимизации и сложной постобработки.
Недавние модели трансформеров, такие как DUSt3R, MASt3R и VGGT, упростили часть этого конвейера, но оставались ограниченными: фиксированное количество видов, жёсткие предположения о камере или зависимость от связанных представлений, требующих дорогостоящей оптимизации.
MapAnything преодолевает эти ограничения:
* Принимает до 2000 входных изображений за один проход.
* Гибко использует дополнительные данные, такие как внутренние параметры камеры, позы и карты глубины.
* Создаёт прямые метрические 3D-реконструкции без корректировки связок.
Архитектура и представление
В основе MapAnything лежит трансформер с чередованием многовидовых представлений. Каждое входное изображение кодируется с помощью функций DINOv2 ViT-L, а дополнительные входные данные (лучи, глубина, позы) кодируются в одно и то же скрытое пространство с помощью неглубоких CNN или MLP. Обучаемый токен масштаба обеспечивает нормализацию метрики по видам.
Сеть выдаёт факторизованное представление:
* Направления лучей для каждого вида (калибровка камеры).
* Глубина вдоль лучей, прогнозируемая с учётом масштаба.
* Позы камеры относительно эталонного вида.
* Единый метрический масштабный коэффициент, преобразующий локальные реконструкции в глобально согласованную систему координат.
Эта явная факторизация позволяет избежать избыточности, позволяя одной и той же модели обрабатывать оценку монокулярной глубины, мультивидовую стереоскопию, структуру из движения (SfM) или дополнение глубины без специализированных блоков.
Стратегия обучения
MapAnything была обучена на 13 разнообразных наборах данных, охватывающих внутренние, внешние и синтетические области, включая BlendedMVS, Mapillary Planet-Scale Depth, ScanNet++, и TartanAirV2. Выпущены два варианта:
* Модель с лицензией Apache 2.0, обученная на шести наборах данных.
* Модель с лицензией CC BY-NC, обученная на всех тринадцати наборах данных для повышения производительности.
Ключевые стратегии обучения включают:
* Вероятностный отсев входных данных: во время обучения геометрические входные данные (лучи, глубина, поза) предоставляются с разной вероятностью, что обеспечивает устойчивость к гетерогенным конфигурациям.
* Выборка на основе ковидимости: обеспечивает наличие значимого перекрытия входных видов, поддерживая реконструкцию до 100+ видов.
* Факторизованные потери в логарифмическом пространстве: глубина, масштаб и поза оптимизируются с использованием масштабно-инвариантных и устойчивых регрессионных потерь для повышения стабильности.
Обучение проводилось на 64 графических процессорах H200 с использованием смешанной точности, проверки градиентов и планирования учебного процесса, масштабируясь от 4 до 24 входных видов.
Результаты тестирования
Многовидовая плотная реконструкция
На ETH3D, ScanNet++ v2 и TartanAirV2-WB MapAnything достигает современного уровня производительности (SoTA) по точечным картам, глубине, позе и оценке лучей. Она превосходит базовые модели, такие как VGGT и Pow3R, даже при использовании только изображений, и улучшает результаты с помощью калибровки или априорных данных о позе.
Например:
* Относительная ошибка точечной карты (rel) улучшается до 0,16 только с изображениями, по сравнению с 0,20 для VGGT.
* С изображениями + внутренними параметрами + позами + глубиной ошибка снижается до 0,01, при этом достигается >90% отношения инлайеров.
Двухвидовая реконструкция
По сравнению с DUSt3R, MASt3R и Pow3R MapAnything последовательно превосходит по точности масштаба, глубины и позы. Примечательно, что с дополнительными априорными данными она достигает >92% отношения инлайеров в двухвидовых задачах, значительно превосходя предыдущие модели с прямой связью.
Одновидовая калибровка
Несмотря на то что MapAnything не была специально обучена для одноизображений, она достигает средней угловой ошибки в 1,18°, превосходя AnyCalib (2,01°) и MoGe-2 (1,95°).
Оценка глубины
На бенчмарке Robust-MVD:
* MapAnything устанавливает новый SoTA для многовидовой метрической оценки глубины.
* С дополнительными входными данными её показатели ошибок конкурируют или превосходят специализированные модели глубины, такие как MVSA и Metric3D v2.
В целом, тесты подтверждают двукратное улучшение по сравнению с предыдущими методами SoTA во многих задачах, подтверждая преимущества унифицированного обучения.
Ключевые вклады
Исследовательская группа выделяет четыре основных вклада:
* Единая модель прямого прохода, способная обрабатывать более 12 задач, от монокулярной глубины до SfM и стерео.
* Факторизованное представление сцены, позволяющее явное разделение лучей, глубины, позы и метрического масштаба.
* Современный уровень производительности по разнообразным бенчмаркам с меньшим количеством избыточностей и более высокой масштабируемостью.
* Открытый исходный код, включая обработку данных, обучающие скрипты, тесты и предварительно обученные веса под лицензией Apache 2.0.
Заключение
MapAnything устанавливает новый стандарт в 3D-видении, объединяя несколько задач реконструкции — SfM, стерео, оценку глубины и калибровку — в рамках единой модели трансформера с факторизованным представлением сцены. Она не только превосходит специализированные методы по бенчмаркам, но и легко адаптируется к гетерогенным входным данным, включая внутренние параметры, позы и глубину. С открытым исходным кодом, предварительно обученными моделями и поддержкой более 12 задач MapAnything закладывает основу для действительно универсальной основы 3D-реконструкции.
1. Какие преимущества предлагает архитектура MapAnything по сравнению с предыдущими методами 3D-реконструкции?
Ответ: MapAnything предлагает несколько преимуществ по сравнению с предыдущими методами 3D-реконструкции. Во-первых, она способна обрабатывать более 12 задач, включая монокулярную глубину, SfM и стерео, в рамках единой модели трансформера. Во-вторых, MapAnything использует факторизованное представление сцены, что позволяет явное разделение лучей, глубины, позы и метрического масштаба. В-третьих, она достигает современного уровня производительности по разнообразным бенчмаркам с меньшим количеством избыточностей и более высокой масштабируемостью.
2. Какие данные может использовать MapAnything для создания 3D-реконструкций?
Ответ: MapAnything может использовать до 2000 входных изображений за один проход, а также дополнительные данные, такие как внутренние параметры камеры, позы и карты глубины. Это позволяет модели гибко адаптироваться к различным входным данным и создавать более точные 3D-реконструкции.
3. Какие стратегии обучения были использованы для MapAnything?
Ответ: Для обучения MapAnything были использованы несколько стратегий. Во-первых, вероятностный отсев входных данных во время обучения, что обеспечивает устойчивость к гетерогенным конфигурациям. Во-вторых, выборка на основе ковидимости, которая поддерживает реконструкцию до 100+ видов. В-третьих, факторизованные потери в логарифмическом пространстве, что оптимизирует глубину, масштаб и позу для повышения стабильности.
4. Какие результаты были достигнуты с помощью MapAnything на различных бенчмарках?
Ответ: На бенчмарках ETH3D, ScanNet++ v2 и TartanAirV2-WB MapAnything достигает современного уровня производительности (SoTA) по точечным картам, глубине, позе и оценке лучей. Например, относительная ошибка точечной карты (rel) улучшается до 0,16 только с изображениями, по сравнению с 0,20 для VGGT. С дополнительными входными данными ошибка снижается до 0,01, при этом достигается >90% отношения инлайеров.
5. Какие ключевые вклады исследовательской группы были выделены в статье?
Ответ: Исследовательская группа выделяет четыре основных вклада:
* Единая модель прямого прохода, способная обрабатывать более 12 задач, от монокулярной глубины до SfM и стерео.
* Факторизованное представление сцены, позволяющее явное разделение лучей, глубины, позы и метрического масштаба.
* Современный уровень производительности по разнообразным бенчмаркам с меньшим количеством избыточностей и более высокой масштабируемостью.
* Открытый исходный код, включая обработку данных, обучающие скрипты, тесты и предварительно обученные веса под лицензией Apache 2.0.