Как создать 3D-наборы данных для обучения ИИ в робототехнике без дорогостоящих традиционных подходов?
Команда исследователей из NVIDIA выпустила «ViPE: Video Pose Engine for 3D Geometric Perception», внеся ключевое улучшение в пространственный ИИ. Это решает центральную и сложную проблему, которая десятилетиями сдерживала развитие компьютерного зрения в 3D.
ViPE — это надёжный и универсальный механизм, предназначенный для обработки необработанных, неограниченных видеоматериалов и автоматического вывода критически важных элементов 3D-реальности:
* параметров внутренней калибровки камеры (intrinsics);
* точного движения камеры (pose);
* плотных метрических карт глубины (реальные расстояния для каждого пикселя).
Преодоление трудностей
Чтобы по-настоящему оценить масштаб этого прорыва, мы должны сначала понять, насколько сложна проблема, которую он решает.
Задача: раскрыть 3D-реальность из 2D-видео.
Конечная цель пространственного ИИ — позволить машинам, роботам, автономным транспортным средствам и очкам дополненной реальности воспринимать мир в 3D и взаимодействовать с ним. Мы живём в трёхмерном мире, но подавляющая часть наших записанных данных, от клипов со смартфонов до кинематографических материалов, зафиксирована в 2D.
Основная проблема: как надёжно и масштабно преобразовать 3D-реальность, скрытую внутри этих плоских видеопотоков?
Достижение этой точности на основе повседневных видеоматериалов, которые содержат дрожащие движения, динамические объекты и неизвестные типы камер, чрезвычайно сложно. Однако это необходимый первый шаг для практически любого продвинутого пространственного приложения.
Проблемы существующих подходов
В течение десятилетий в этой области приходилось выбирать между двумя мощными, но несовершенными парадигмами.
1. Ловушка точности (классический SLAM/SfM). Традиционные методы, такие как одновременная локализация и картографирование (SLAM) и структура из движения (SfM), основаны на сложной геометрической оптимизации. Они способны обеспечить высокую точность в идеальных условиях.
Непреодолимый недостаток: хрупкость. Эти системы обычно предполагают, что мир статичен. Появление движущегося автомобиля, бесструктурной стены или использование неизвестной камеры может привести к разрушению всей реконструкции. Они слишком хрупкие для хаотичной реальности повседневного видео.
2. Стена масштабируемости (сквозное глубокое обучение). Недавно появились мощные модели глубокого обучения. Обучаясь на обширных наборах данных, они усваивают устойчивые «априорные знания» о мире и впечатляюще устойчивы к шуму и динамизму.
Непреодолимый недостаток: непрактичность. Эти модели требуют больших вычислительных ресурсов. Их требования к памяти резко возрастают по мере увеличения длины видео, что делает обработку длинных видео практически невозможной. Они просто не масштабируются.
Этот тупик создал дилемму. Будущее продвинутого ИИ требует огромных наборов данных, аннотированных с идеальной 3D-геометрией, но инструменты, необходимые для создания этих данных, были либо слишком хрупкими, либо слишком медленными для массового внедрения.
ViPE: гибридный прорыв от NVIDIA
Именно здесь ViPE меняет правила игры. Это не просто постепенное улучшение; это хорошо продуманный и интегрированный гибридный конвейер, который успешно объединяет лучшее из обоих миров. Он использует эффективную математически строгую оптимизационную структуру классического SLAM и дополняет её мощной интуицией современных глубоких нейронных сетей.
Эта синергия позволяет ViPE быть точным, надёжным, эффективным и универсальным одновременно. ViPE предлагает решение, которое масштабируется без ущерба для точности.
Как это работает: внутри ViPE
Архитектура ViPE использует ключевую кадровую систему Bundle Adjustment (BA) для повышения эффективности.
Ключевые инновации:
1. Синергия мощных ограничений. ViPE достигает беспрецедентной точности, мастерски балансируя три критически важных входных параметра:
* плотный поток (Learned Robustness): использует изученную сеть оптического потока для надёжного соответствия между кадрами даже в сложных условиях;
* разреженные треки (Classical Precision): включает высокоразрешающее традиционное отслеживание объектов для захвата тонко детализированных данных, что резко повышает точность локализации;
* метрическая регуляризация глубины (Real-World Scale): ViPE интегрирует априорные данные из современных монокулярных моделей глубины для получения результатов в истинном масштабе реального мира.
2. Управление динамическими сценами реального мира. Чтобы справиться с хаосом видео в реальном мире, ViPE использует передовые инструменты сегментации, GroundingDINO и Segment Anything (SAM), для идентификации и маскировки движущихся объектов (например, людей, автомобилей). Интеллектуально игнорируя эти динамические области, ViPE обеспечивает расчёт движения камеры только на основе статической среды.
3. Высокая скорость и общая универсальность. ViPE работает с поразительной скоростью 3–5 FPS на одном GPU, что делает его значительно быстрее по сравнению с аналогичными методами. Кроме того, ViPE универсально применим, поддерживая различные модели камер, включая стандартные, широкоугольные/рыбий глаз и даже 360° панорамные видео, автоматически оптимизируя внутренние параметры для каждого.
4. Высокоточные карты глубины. Окончательный результат дополняется сложным этапом постобработки. ViPE плавно совмещает карты глубины с высокой детализацией с геометрически согласованными картами из своего основного процесса. Результат впечатляет: карты глубины, которые одновременно обладают высокой точностью и временной стабильностью.
Доказанная производительность
ViPE демонстрирует превосходную производительность, превосходя существующие некалиброванные базовые показатели оценки позы на ошеломляющие:
* 18% на наборе данных TUM (внутренняя динамика);
* 50% на наборе данных KITTI (вождение по городу).
Реальный прорыв: взрыв данных для пространственного ИИ
Наиболее значительный вклад этой работы заключается не только в самом двигателе, но и в его использовании в качестве крупномасштабной фабрики аннотаций данных для подпитки будущего ИИ. Отсутствие огромных, разнообразных, геометрически аннотированных видеоданных было основным препятствием для обучения надёжных 3D-моделей. ViPE решает эту проблему!
Исследовательская группа использовала ViPE для создания и публикации беспрецедентного набора данных, насчитывающего примерно 96 миллионов аннотированных кадров:
* Dynpose-100K++: почти 100 000 реальных интернет-видео (15,7 миллиона кадров) с высококачественными позами и плотной геометрией.
* Wild-SDG-1M: массивная коллекция из 1 миллиона высококачественных, сгенерированных ИИ видео (78 миллионов кадров).
* Web360: специализированный набор данных аннотированных панорамных видео.
Этот массовый выпуск обеспечивает необходимое топливо для следующего поколения 3D-фундаментальных моделей геометрии и уже доказывает свою эффективность при обучении продвинутым моделям генерации мира, таким как NVIDIA Gen3C и Cosmos.
Разрешая фундаментальные конфликты между точностью, надёжностью и масштабируемостью, ViPE предоставляет практичный, эффективный и универсальный инструмент, необходимый для раскрытия 3D-структуры практически любого видео. Его выпуск призван значительно ускорить инновации во всём спектре пространственного ИИ, робототехники и AR/VR.
Код NVIDIA AI доступен здесь.
Источники/ссылки:
* https://research.nvidia.com/labs/toronto-ai/vipe/
* https://github.com/nv-tlabs/vipe
* Наборы данных:
* https://huggingface.co/datasets/nvidia/vipe-dynpose-100kpp
* https://huggingface.co/datasets/nvidia/vipe-wild-sdg-1m
* https://huggingface.co/datasets/nvidia/vipe-web360
* https://www.nvidia.com/en-us/ai/cosmos/
Спасибо команде NVIDIA за лидерство в разработке идей и ресурсы для этой статьи. Команда NVIDIA поддержала и спонсировала этот контент/статью.
1. Какие проблемы решает технология ViPE и почему она важна для развития пространственного ИИ?
Технология ViPE решает центральную и сложную проблему, которая десятилетиями сдерживала развитие компьютерного зрения в 3D — преобразование 3D-реальности, скрытой внутри 2D-видео. Это необходимо для того, чтобы машины, роботы, автономные транспортные средства и очки дополненной реальности могли воспринимать мир в 3D и взаимодействовать с ним.
2. Какие недостатки есть у традиционных методов, таких как SLAM и SfM, и как ViPE решает эти проблемы?
Традиционные методы, такие как одновременная локализация и картографирование (SLAM) и структура из движения (SfM), основаны на сложной геометрической оптимизации и способны обеспечить высокую точность в идеальных условиях. Однако они хрупкие и не подходят для хаотичной реальности повседневного видео. ViPE использует эффективную математически строгую оптимизационную структуру классического SLAM и дополняет её мощной интуицией современных глубоких нейронных сетей. Это позволяет ViPE быть точным, надёжным, эффективным и универсальным одновременно.
3. Какие ключевые инновации используются в архитектуре ViPE для достижения высокой точности и универсальности?
Ключевые инновации в архитектуре ViPE включают:
* Синергия мощных ограничений: ViPE достигает беспрецедентной точности, мастерски балансируя три критически важных входных параметра — плотный поток, разреженные треки и метрическая регуляризация глубины.
* Управление динамическими сценами реального мира: ViPE использует передовые инструменты сегментации для идентификации и маскировки движущихся объектов, что позволяет обеспечить расчёт движения камеры только на основе статической среды.
* Высокая скорость и общая универсальность: ViPE работает с поразительной скоростью 3–5 FPS на одном GPU, что делает его значительно быстрее по сравнению с аналогичными методами. Кроме того, ViPE универсально применим, поддерживая различные модели камер.
* Высокоточные карты глубины: ViPE плавно совмещает карты глубины с высокой детализацией с геометрически согласованными картами из своего основного процесса.
4. Какие результаты демонстрирует ViPE на наборах данных TUM и KITTI?
ViPE демонстрирует превосходную производительность, превосходя существующие некалиброванные базовые показатели оценки позы на 18% на наборе данных TUM (внутренняя динамика) и на 50% на наборе данных KITTI (вождение по городу).
5. Как ViPE способствует созданию крупномасштабных наборов данных для обучения 3D-моделей?
Исследовательская группа использовала ViPE для создания и публикации беспрецедентного набора данных, насчитывающего примерно 96 миллионов аннотированных кадров. Этот массовый выпуск обеспечивает необходимое топливо для следующего поколения 3D-фундаментальных моделей геометрии и уже доказывает свою эффективность при обучении продвинутым моделям генерации мира, таким как NVIDIA Gen3C и Cosmos.