Исследователи из Массачусетского технологического института (MIT) разработали подход на основе генеративного искусственного интеллекта для планирования долгосрочных визуальных задач, таких как навигация роботов. Этот метод примерно в два раза эффективнее некоторых существующих техник.
Как работает метод
Их подход использует специализированную модель, работающую на стыке зрения и языка, чтобы воспринимать сценарий на изображении и моделировать действия, необходимые для достижения цели. Затем вторая модель переводит эти симуляции на стандартный язык программирования для задач планирования и уточняет решение.
В итоге система автоматически генерирует набор файлов, которые можно загрузить в классическое программное обеспечение для планирования, которое вычисляет план достижения цели. Эта двухступенчатая система генерирует планы со средним уровнем успеха около 70%, превосходя лучшие базовые методы, которые могут достигать только около 30%.
Важно, что система может решать новые задачи, с которыми она раньше не сталкивалась, что делает её хорошо подходящей для реальных условий, где обстановка может измениться в любой момент.
«Наша структура сочетает в себе преимущества моделей зрения и языка, таких как их способность понимать изображения, с мощными возможностями планирования формального решателя», — говорит Илюнь Хао, аспирант MIT в области аэронавтики и астронавтики и ведущий автор статьи об этом методе.
Преодоление визуальных задач
За последние несколько лет Фан и её коллеги изучали использование генеративных моделей искусственного интеллекта для выполнения сложных рассуждений и планирования, часто применяя большие языковые модели (LLM) для обработки текстовых входных данных.
Многие реальные задачи планирования, такие как роботизированная сборка и автономное вождение, имеют визуальные входные данные, с которыми LLM не могут справиться самостоятельно. Исследователи стремились расширить возможности в визуальной области, используя модели зрения и языка (VLM) — мощные системы искусственного интеллекта, которые могут обрабатывать изображения и текст.
Но VLM с трудом понимают пространственные отношения между объектами в сцене и часто не могут правильно рассуждать на протяжении многих шагов. Это затрудняет использование VLM для долгосрочного планирования.
С другой стороны, учёные разработали надёжные формальные планировщики, которые могут генерировать эффективные долгосрочные планы для сложных ситуаций. Однако эти программные системы не могут обрабатывать визуальные входные данные и требуют экспертных знаний для кодирования проблемы на языке, понятном решателю.
Система VLM-guided formal planning (VLMFP)
Фан и её команда создали автоматизированную систему планирования, которая использует преимущества обоих методов. Система под названием VLM-guided formal planning (VLMFP) использует две специализированные модели VLM, которые работают вместе, чтобы превратить задачи визуального планирования в готовые к использованию файлы для программного обеспечения формального планирования.
Исследователи сначала тщательно обучили небольшую модель, которую они называют SimVLM, специализироваться на описании сценария на изображении с помощью естественного языка и моделировании последовательности действий в этом сценарии. Затем гораздо более крупная модель, которую они называют GenVLM, использует описание от SimVLM для генерации набора начальных файлов на формальном языке планирования, известном как Planning Domain Definition Language (PDDL).
Файлы готовы к загрузке в классический решатель PDDL, который вычисляет пошаговый план для решения задачи. GenVLM сравнивает результаты решателя с результатами симулятора и итеративно уточняет файлы PDDL.
«Генератор и симулятор работают вместе, чтобы достичь одного и того же результата — симуляции действий, которая достигает цели», — говорит Хао.
Гибкий подход
VLMFP генерирует два отдельных файла PDDL. Первый — это файл домена, который определяет среду, допустимые действия и правила домена. Он также создаёт файл задачи, который определяет начальные состояния и цель конкретной задачи.
«Одним из преимуществ PDDL является то, что файл домена одинаков для всех экземпляров в этой среде. Это делает нашу структуру хорошей для обобщения на невидимые экземпляры в том же домене», — объясняет Хао.
Чтобы система могла эффективно обобщать, исследователям нужно было тщательно разработать достаточно данных для обучения SimVLM, чтобы модель научилась понимать задачу и цель, не запоминая шаблоны в сценарии. При тестировании SimVLM успешно описал сценарий, смоделировал действия и определил, была ли достигнута цель, примерно в 85% экспериментов.
В целом, структура VLMFP достигла уровня успеха около 60% на шести 2D-задачах планирования и более 80% на двух 3D-задачах, включая сотрудничество нескольких роботов и роботизированную сборку. Она также генерировала допустимые планы более чем для 50% сценариев, с которыми она раньше не сталкивалась, что значительно превосходит базовые методы.
«Наша структура может обобщаться, когда правила меняются в разных ситуациях. Это даёт нашей системе гибкость для решения многих типов задач визуального планирования», — добавляет Фан.
В будущем исследователи хотят, чтобы VLMFP мог работать с более сложными сценариями, и изучить методы выявления и устранения галлюцинаций, создаваемых VLM.
«В долгосрочной перспективе генеративные модели искусственного интеллекта могут выступать в качестве агентов и использовать нужные инструменты для решения гораздо более сложных задач. Но что значит иметь нужные инструменты, и как мы их внедряем? Ещё предстоит пройти долгий путь, но, включив в картину планирование на основе визуального восприятия, эта работа является важной частью головоломки», — говорит Фан.
Эта работа была частично профинансирована MIT-IBM Watson AI Lab.
1. Какие преимущества имеет метод VLMFP по сравнению с базовыми методами планирования?
Метод VLMFP использует две специализированные модели VLM, которые работают вместе, чтобы превратить задачи визуального планирования в готовые к использованию файлы для программного обеспечения формального планирования. Это позволяет системе автоматически генерировать набор файлов, которые можно загрузить в классическое программное обеспечение для планирования. В результате система достигает уровня успеха около 60% на шести 2D-задачах планирования и более 80% на двух 3D-задачах, что значительно превосходит базовые методы.
2. Какие модели используются в системе VLMFP и какие функции они выполняют?
В системе VLMFP используются две специализированные модели VLM: SimVLM и GenVLM. SimVLM специализируется на описании сценария на изображении с помощью естественного языка и моделировании последовательности действий в этом сценарии. GenVLM использует описание от SimVLM для генерации набора начальных файлов на формальном языке планирования, известном как Planning Domain Definition Language (PDDL).
3. Какие типы задач может решать система VLMFP?
Система VLMFP может решать задачи визуального планирования, включая сотрудничество нескольких роботов и роботизированную сборку. Она также может обобщаться, когда правила меняются в разных ситуациях, что даёт системе гибкость для решения многих типов задач визуального планирования.
4. Каков уровень успеха системы VLMFP при решении задач?
Структура VLMFP достигла уровня успеха около 60% на шести 2D-задачах планирования и более 80% на двух 3D-задачах. Она также генерировала допустимые планы более чем для 50% сценариев, с которыми она раньше не сталкивалась.
5. Какие перспективы развития системы VLMFP упоминаются в статье?
В будущем исследователи хотят, чтобы VLMFP мог работать с более сложными сценариями, и изучить методы выявления и устранения галлюцинаций, создаваемых VLM. Также упоминается, что в долгосрочной перспективе генеративные модели искусственного интеллекта могут выступать в качестве агентов и использовать нужные инструменты для решения гораздо более сложных задач.