Meta AI представляет Multi-SpatialMLLM: многофреймовое пространственное понимание с использованием мультимодальных больших языковых моделей

🚀 Мультимодальные языковые модели (MLLM) стали мощными ИИ-ассистентами, способными решать визуальные задачи. Но их изолированное использование в цифровой среде ограничивает потенциал 🌍. Для внедрения в реальные приложения (робототехника, автономные машины) им необходимо глубокое пространственное понимание!

Проблема: современные MLLM часто ошибаются в базовых spatial-задачах (например, путают лево/право 🧭). Ранее считалось, что причина — недостаток специализированных данных, и решения фокусировались на одиночных изображениях. Это ограничивало анализ статичными сценами, игнорируя динамику.

🔍 Что предлагают исследователи из Meta и CUHK?
Они создали Multi-SpatialMLLM — фреймворк, объединяющий:
1️⃣ Глубинное восприятие (depth perception)
2️⃣ Визуальное соответствие (visual correspondence)
3️⃣ Динамический анализ (объекты + движение камеры)

💡 Ключевые инновации:

MultiSPA — датасет из 27 млн примеров 🏗️, охватывающих 3D/4D сцены.

Обучение на 5 задачах: восприятие глубины, траектории объектов, размеры и т.д.

Использование GPT-4o 🧠 для генерации шаблонов QA.

Интеграция данных из Aria Digital Twin, ScanNet и других датасетов.

🎯 Результаты:

Улучшение на 36% против базовых моделей на бенчмарке MultiSPA.

Точность 80-90% в качественных задачах (против 50% у аналогов) ✅.

Даже в сложных задачах (предсказание движения камеры) — 18% точности (у других ≈0%) 📈.

На тесте BLINK показатель достиг 90% (+26.4% к базе).

🔥 Почему это важно?
Модель сохраняет общую функциональность MLLM, не «перегружаясь» на spatial-задачи, и открывает новые применения: от робототехники до аннотирования данных.

📌 Ссылки:

[Статья](https://example.com) | [Проект](https://example.com) | [GitHub](https://example.com)

Авторы: исследователи FAIR Meta и Китайского университета Гонконга.

👉 Обсуждение в [соцсетях](https://twitter.com) и [сообществе 95k+](https://reddit.com)!
#ИИ #КомпьютерноеЗрение #ML #Нейросети

Источник

Оставьте комментарий Отменить ответ