🚀 Мультимодальные языковые модели (MLLM) стали мощными ИИ-ассистентами, способными решать визуальные задачи. Но их изолированное использование в цифровой среде ограничивает потенциал 🌍. Для внедрения в реальные приложения (робототехника, автономные машины) им необходимо глубокое пространственное понимание!
Проблема: современные MLLM часто ошибаются в базовых spatial-задачах (например, путают лево/право 🧭). Ранее считалось, что причина — недостаток специализированных данных, и решения фокусировались на одиночных изображениях. Это ограничивало анализ статичными сценами, игнорируя динамику.
🔍 Что предлагают исследователи из Meta и CUHK?
Они создали Multi-SpatialMLLM — фреймворк, объединяющий:
1️⃣ Глубинное восприятие (depth perception)
2️⃣ Визуальное соответствие (visual correspondence)
3️⃣ Динамический анализ (объекты + движение камеры)
💡 Ключевые инновации:
- MultiSPA — датасет из 27 млн примеров 🏗️, охватывающих 3D/4D сцены.
- Обучение на 5 задачах: восприятие глубины, траектории объектов, размеры и т.д.
- Использование GPT-4o 🧠 для генерации шаблонов QA.
- Интеграция данных из Aria Digital Twin, ScanNet и других датасетов.
🎯 Результаты:
- Улучшение на 36% против базовых моделей на бенчмарке MultiSPA.
- Точность 80-90% в качественных задачах (против 50% у аналогов) ✅.
- Даже в сложных задачах (предсказание движения камеры) — 18% точности (у других ≈0%) 📈.
- На тесте BLINK показатель достиг 90% (+26.4% к базе).
🔥 Почему это важно?
Модель сохраняет общую функциональность MLLM, не «перегружаясь» на spatial-задачи, и открывает новые применения: от робототехники до аннотирования данных.
📌 Ссылки:
- [Статья](https://example.com) | [Проект](https://example.com) | [GitHub](https://example.com)
Авторы: исследователи FAIR Meta и Китайского университета Гонконга.
👉 Обсуждение в [соцсетях](https://twitter.com) и [сообществе 95k+](https://reddit.com)!
#ИИ #КомпьютерноеЗрение #ML #Нейросети