ИИ самостоятельно учится связывать зрение и звук без участия человека

Люди естественно учатся, связывая зрительные и слуховые ощущения. Например, наблюдая за игрой на виолончели, мы понимаем, что движения музыканта создают звуки, которые слышим. 🎻

Новый подход от исследователей MIT и других институтов улучшает способность ИИ обучаться аналогичным образом. Это может быть полезно в журналистике, кинопроизводстве 🎥 (для автоматического подбора видео и аудио) или в робототехнике, где роботы смогут лучше понимать окружающий мир через связь звука и изображения.

Улучшенная модель CAV-MAE Sync учится сопоставлять аудио и видео без ручной разметки. Она разбивает звук на короткие фрагменты и связывает каждый из них с конкретным кадром. Например, точно определяет, как звук хлопающей двери 🚪 соответствует её визуальному закрытию.

Ключевые улучшения:
1. Точная синхронизация: Кадр связывается только с аудио, которое звучит в этот момент.
2. Баланс задач: Модель совмещает контрастное обучение (поиск связей) и реконструкцию (восстановление данных).
3. «Свобода действий»: Добавление глобальных и регистрационных токенов помогает разделить задачи, улучшая точность.

Результаты: Модель превзошла предыдущие версии и современные аналоги в поиске видео по аудиозапросу и классификации сцен (например, лай собаки 🐕 или игра на инструменте).

Планы на будущее:

  • Интеграция в крупные языковые модели (LLM) для создания мультимедийных ИИ.

  • Работа с текстовыми данными для разработки аудиовизуальных систем нового уровня. 🚀

Финансирование: Федеральное министерство образования Германии и MIT-IBM Watson AI Lab.

«Мы создаём ИИ, который обрабатывает мир как человек — через одновременный анализ звука и изображения. В будущем это откроет новые возможности для инструментов вроде ChatGPT», — Эндрю Рудиченко, соавтор исследования.

Исследование представлено на конференции CVPR 2024. 🌐

Источник

Оставьте комментарий