Временной поиск в видео: как современные модели справляются с анализом длинных видео и что предлагает фреймворк T

Понимание длинных видео, длительность которых варьируется от нескольких минут до часов, представляет собой серьёзную задачу в области компьютерного зрения. Особенно сложно стало после того, как задачи по анализу видео вышли за рамки коротких клипов. Одна из ключевых трудностей заключается в эффективном выявлении нескольких релевантных кадров из тысяч в длинном видео, необходимых для ответа на заданный вопрос.

Большинство современных визуальных языковых моделей (VLM), таких как LLaVA и Tarsier, обрабатывают сотни токенов на изображение, что делает пофрамовый анализ длинных видео вычислительно затратным. Для решения этой проблемы приобрела популярность новая парадигма, известная как временной поиск. В отличие от традиционного временного определения, которое обычно выявляет непрерывные сегменты в видео, временной поиск направлен на извлечение редкого набора высокорелевантных кадров, разбросанных по всей временной шкале — это подобно поиску «иголки в стоге сена».

Несмотря на достижения в механизмах внимания и видеотрансформерах, улучшающих временное моделирование, эти методы всё ещё сталкиваются с ограничениями в захвате долгосрочных зависимостей. Некоторые подходы пытаются преодолеть это путём сжатия видеоданных или выбора определённых кадров для уменьшения размера входных данных. Хотя существуют тесты для оценки понимания длинных видео, они в основном оценивают производительность на основе последующих задач по вопросно-ответной системе, а не напрямую оценивают эффективность временного поиска.

Исследователи из Стэнфорда, Северо-Западного и Карнеги-Меллона пересмотрели методы временного поиска для понимания длинных видео, представив LV-HAYSTACK — обширный тест с 480 часами реальных видео и более 15 000 аннотированных примеров вопросно-ответной системы. Они сформулировали задачу как поиск нескольких ключевых кадров из тысяч, подчеркнув ограничения текущих моделей. Для решения этой проблемы они предложили фреймворк T, который переосмысливает временной поиск как пространственный поиск, используя адаптивные методы увеличения масштаба во времени и пространстве. T значительно повышает производительность, снижая при этом вычислительные затраты, и улучшает точность моделей, таких как GPT-4o и LLaVA-OV, используя гораздо меньше кадров.

Исследование вводит задачу временного поиска (TS) для улучшения понимания видео в визуальных языковых моделях с длинным контекстом. Цель состоит в том, чтобы выбрать минимальный ключевой кадр из видео, который сохраняет всю информацию, необходимую для ответа на заданный вопрос. Предложенный фреймворк T выполняет это в три этапа: обоснование вопроса, итеративный временной поиск и выполнение задачи. Он определяет релевантные объекты в вопросе, находит их во фреймах, используя модель пространственного поиска, и обновляет стратегию отбора кадров на основе оценок уверенности.

Оценённый на тесте LV-HAYSTACK, фреймворк T демонстрирует повышенную эффективность и точность при значительно меньших вычислительных затратах. Исследование оценивает предложенный фреймворк T на нескольких наборах данных и задачах, включая LV-HAYSTACK, LongVideoBench, VideoMME, NExT-QA, EgoSchema и Ego4D LongVideo QA. T интегрирован в открытые и проприетарные визуальные языковые модели, последовательно улучшая производительность, особенно в случае длинных видео и ограниченного количества кадров.

Источник

Оставьте комментарий