Роботы, предназначенные для поиска людей в частично обрушенных шахтах, должны быстро создавать карту местности и определять своё местоположение на этой карте при передвижении по опасной местности.
Исследователи начали разрабатывать мощные модели машинного обучения для выполнения этой сложной задачи, используя только изображения с бортовых камер робота. Однако даже лучшие модели могут обрабатывать лишь несколько изображений одновременно. В условиях реальной катастрофы, где каждая секунда на счету, поисково-спасательному роботу необходимо быстро преодолевать большие расстояния и обрабатывать тысячи изображений для выполнения своей миссии.
Решение проблемы
Чтобы преодолеть эту проблему, исследователи из MIT использовали идеи из современных моделей искусственного интеллекта и классического компьютерного зрения для разработки новой системы, способной обрабатывать произвольное количество изображений. Их система точно генерирует 3D-карты сложных сцен, таких как переполненный офисный коридор, за считанные секунды.
Система на основе ИИ постепенно создаёт и совмещает небольшие подкарты сцены, которые затем сшиваются вместе для реконструкции полной 3D-карты с оценкой положения робота в режиме реального времени.
В отличие от многих других подходов, их метод не требует калибровки камер или участия эксперта для настройки сложной системы. Более простой характер их подхода в сочетании со скоростью и качеством 3D-реконструкций облегчит масштабирование для применения в реальных условиях.
Применение
Помимо помощи поисково-спасательным роботам в навигации, этот метод может быть использован для создания приложений расширенной реальности для носимых устройств, таких как VR-гарнитуры, или для того, чтобы промышленные роботы могли быстро находить и перемещать товары внутри склада.
«Чтобы роботы могли выполнять всё более сложные задачи, им нужны более сложные представления карт окружающего мира. Но в то же время мы не хотим усложнять реализацию этих карт на практике. Мы показали, что можно создать точную 3D-реконструкцию за считанные секунды с помощью инструмента, который работает „из коробки“», — говорит Доминик Маджио, аспирант MIT и ведущий автор статьи, посвящённой этому методу.
Создание карты решения
В течение многих лет исследователи пытались решить важный элемент навигации роботов, называемый одновременной локализацией и картографированием (SLAM). В SLAM робот воссоздаёт карту своего окружения, ориентируясь в пространстве.
Традиционные методы оптимизации для этой задачи, как правило, терпят неудачу в сложных сценах или требуют предварительной калибровки бортовых камер робота. Чтобы избежать этих проблем, исследователи обучают модели машинного обучения выполнять эту задачу на основе данных.
Хотя их проще реализовать, даже лучшие модели могут обрабатывать только около 60 изображений с камеры за раз, что делает их непригодными для приложений, где роботу необходимо быстро перемещаться по разнообразной местности, обрабатывая тысячи изображений.
Для решения этой проблемы исследователи из MIT разработали систему, которая генерирует небольшие подкарты сцены вместо всей карты. Их метод «склеивает» эти подкарты вместе, создавая единую 3D-реконструкцию. Модель по-прежнему обрабатывает лишь несколько изображений за раз, но система может гораздо быстрее воссоздавать большие сцены, сшивая вместе небольшие подкарты.
«Это казалось очень простым решением, но когда я впервые попробовал его, я был удивлён, что оно работает не так хорошо», — говорит Маджио.
Более гибкий подход
Опираясь на идеи классического компьютерного зрения, исследователи разработали более гибкий математический метод, который может представлять все деформации в этих подкартах. Применяя математические преобразования к каждой подкарте, этот более гибкий метод может выровнять их таким образом, чтобы устранить неоднозначность.
На основе входных изображений система выдаёт 3D-реконструкцию сцены и оценки местоположения камеры, которые робот будет использовать для локализации себя в пространстве.
«Как только у Доминика появилась идея соединить эти два мира — подходы, основанные на обучении, и традиционные методы оптимизации, — реализация оказалась довольно простой», — говорит Карлоне. «Создание чего-то настолько эффективного и простого имеет потенциал для множества применений».
Их система работала быстрее с меньшей погрешностью при реконструкции, чем другие методы, не требуя специальных камер или дополнительных инструментов для обработки данных. Исследователи создали 3D-реконструкции в режиме, близком к реальному времени, сложных сцен, таких как интерьер часовни MIT, используя только короткие видеоролики, снятые на мобильный телефон.
Средняя погрешность в этих 3D-реконструкциях составила менее 5 сантиметров.
В будущем исследователи хотят сделать свой метод более надёжным для особенно сложных сцен и работать над его внедрением на реальных роботах в сложных условиях.
«Знание традиционной геометрии окупается. Если вы глубоко понимаете, что происходит в модели, вы можете добиться гораздо лучших результатов и сделать всё более масштабируемым», — говорит Карлоне.
Эта работа частично поддержана Национальным научным фондом США, Управлением военно-морских исследований США и Национальным исследовательским фондом Кореи. Карлоне, который в настоящее время находится в творческом отпуске в качестве научного сотрудника Amazon, завершил эту работу до того, как присоединился к Amazon.
1. Какие проблемы решает новая система, разработанная исследователями из MIT, и как она работает?
Ответ: новая система решает проблему обработки большого количества изображений для построения карт больших пространств. Она работает путём постепенного создания и совмещения небольших подкарт сцены, которые затем сшиваются вместе для реконструкции полной 3D-карты с оценкой положения робота в режиме реального времени.
2. Какие преимущества имеет метод, разработанный исследователями, по сравнению с традиционными методами оптимизации для задачи SLAM?
Ответ: метод, разработанный исследователями, имеет несколько преимуществ по сравнению с традиционными методами оптимизации для задачи SLAM. Во-первых, он не требует калибровки камер или участия эксперта для настройки сложной системы. Во-вторых, он более прост в реализации. В-третьих, он обеспечивает более высокую скорость и качество 3D-реконструкций, что облегчает масштабирование для применения в реальных условиях.
3. Какие потенциальные применения имеет метод, разработанный исследователями?
Ответ: метод, разработанный исследователями, может быть использован для помощи поисково-спасательным роботам в навигации, создания приложений расширенной реальности для носимых устройств, таких как VR-гарнитуры, а также для того, чтобы промышленные роботы могли быстро находить и перемещать товары внутри склада.
4. Какие ограничения имеют традиционные методы оптимизации для задачи SLAM, и как исследователи из MIT преодолели эти ограничения?
Ответ: традиционные методы оптимизации для задачи SLAM часто терпят неудачу в сложных сценах или требуют предварительной калибровки бортовых камер робота. Исследователи из MIT преодолели эти ограничения, разработав систему, которая генерирует небольшие подкарты сцены вместо всей карты и «склеивает» их вместе, создавая единую 3D-реконструкцию.
5. Какие перспективы развития имеет метод, разработанный исследователями?
Ответ: исследователи планируют сделать свой метод более надёжным для особенно сложных сцен и работать над его внедрением на реальных роботах в сложных условиях.