Люди естественно учатся, связывая зрительные и слуховые ощущения. Например, наблюдая за игрой на виолончели, мы понимаем, что движения музыканта создают звуки, которые слышим. 🎻
Новый подход от исследователей MIT и других институтов улучшает способность ИИ обучаться аналогичным образом. Это может быть полезно в журналистике, кинопроизводстве 🎥 (для автоматического подбора видео и аудио) или в робототехнике, где роботы смогут лучше понимать окружающий мир через связь звука и изображения.
Улучшенная модель CAV-MAE Sync учится сопоставлять аудио и видео без ручной разметки. Она разбивает звук на короткие фрагменты и связывает каждый из них с конкретным кадром. Например, точно определяет, как звук хлопающей двери 🚪 соответствует её визуальному закрытию.
Ключевые улучшения:
1. Точная синхронизация: Кадр связывается только с аудио, которое звучит в этот момент.
2. Баланс задач: Модель совмещает контрастное обучение (поиск связей) и реконструкцию (восстановление данных).
3. «Свобода действий»: Добавление глобальных и регистрационных токенов помогает разделить задачи, улучшая точность.
Результаты: Модель превзошла предыдущие версии и современные аналоги в поиске видео по аудиозапросу и классификации сцен (например, лай собаки 🐕 или игра на инструменте).
Планы на будущее:
- Интеграция в крупные языковые модели (LLM) для создания мультимедийных ИИ.
- Работа с текстовыми данными для разработки аудиовизуальных систем нового уровня. 🚀
Финансирование: Федеральное министерство образования Германии и MIT-IBM Watson AI Lab.
«Мы создаём ИИ, который обрабатывает мир как человек — через одновременный анализ звука и изображения. В будущем это откроет новые возможности для инструментов вроде ChatGPT», — Эндрю Рудиченко, соавтор исследования.
Исследование представлено на конференции CVPR 2024. 🌐