Даже мощные модели ИИ, работающие с длинным контекстом, плохо справляются с отслеживанием объектов и подсчётом их количества в длинных и запутанных видеопотоках. Поэтому следующее конкурентное преимущество получат модели, которые предсказывают, что будет дальше, и выборочно запоминают только удивительные, важные события, а не просто покупают больше вычислительных мощностей и увеличивают размер контекстных окон.
Команда исследователей из Нью-Йоркского университета и Стэнфорда представляет Cambrian-S — семейство пространственно ориентированных видео-мультимодальных больших языковых моделей, вместе с супербенчмарком VSI Super и набором данных VSI 590K для тестирования и обучения пространственному сверхчувственному восприятию в длинных видео.
От ответов на видеовопросы к пространственному сверхчувственному восприятию
Исследовательская группа рассматривает пространственное сверхчувственное восприятие как развитие способностей, выходящих за рамки только лингвистического мышления. Этапы включают:
* семантическое восприятие;
* потоковое познание событий;
* неявное трёхмерное пространственное познание;
* прогнозирующее моделирование мира.
Большинство современных видео-MLLM (мультимодальных больших языковых моделей) используют разреженные кадры и полагаются на языковые априорные данные. Они часто отвечают на контрольные вопросы, используя подписи или отдельные кадры, а не непрерывные визуальные доказательства. Диагностические тесты показывают, что несколько популярных видео-бенчмарков можно решить с ограниченным или только текстовым вводом, поэтому они не сильно проверяют пространственное восприятие.
Cambrian-S нацелен на более высокие стадии этой иерархии, где модель должна запоминать пространственные схемы во времени, рассуждать о расположении объектов и их количестве и предвидеть изменения в трёхмерном мире.
VSI Super — стресс-тест для непрерывного пространственного восприятия
Чтобы выявить разрыв между текущими системами и пространственным сверхчувственным восприятием, исследовательская группа разработала VSI Super — двухчастный бенчмарк, который работает на произвольно длинных видеозаписях в помещении.
* VSI Super Recall (VSR) оценивает долгосрочное пространственное наблюдение и запоминание. Аннотаторы-люди берут видео с обходом помещений из ScanNet, ScanNet++ и ARKitScenes и используют Gemini для вставки необычного объекта, такого как плюшевый мишка, в четыре кадра в разных пространственных положениях. Эти отредактированные последовательности объединяются в потоки длительностью до 240 минут. Модель должна сообщить о порядке появления объекта, что является сложной задачей визуального поиска с последовательным запоминанием.
* VSI Super Count (VSC) измеряет непрерывный подсчёт при изменении точек обзора и комнат. Бенчмарк объединяет клипы с туром по комнате из VSI Bench и запрашивает общее количество экземпляров целевого объекта во всех комнатах. Модель должна обрабатывать изменения точек обзора, повторные посещения и переходы между сценами и вести кумулятивный подсчёт.
Когда Cambrian-S 7B оценивается на VSI Super в потоковом режиме со скоростью 1 кадр в секунду, точность на VSR падает с 38,3% при 10 минутах до 6,0% при 60 минутах и становится нулевой после 60 минут. Точность VSC близка к нулю при любой длине. Gemini 2.5 Flash также ухудшается на VSI Super, несмотря на длинное контекстное окно, что показывает: простого масштабирования контекста недостаточно для непрерывного пространственного восприятия.
VSI 590K — пространственно ориентированные инструкции
Чтобы проверить, может ли масштабирование данных помочь, исследовательская группа создаёт VSI 590K — пространственный корпус инструкций с 5 963 видео, 44 858 изображениями и 590 667 парами вопрос-ответ из 10 источников.
Источники включают трёхмерные аннотированные реальные сканы помещений, такие как ScanNet, ScanNet++ V2, ARKitScenes, S3DIS и Aria Digital Twin, смоделированные сцены из ProcTHOR и Hypersim, а также псевдоаннотированные веб-данные, такие как YouTube RoomTour и наборы данных роботов Open X Embodiment и AgiBot World.
Набор данных определяет 12 типов пространственных вопросов, таких как подсчёт объектов, абсолютное и относительное расстояние, размер объекта, размер комнаты и порядок появления. Вопросы генерируются на основе трёхмерных аннотаций или реконструкций, так что пространственные отношения основаны на геометрии, а не на текстовых эвристиках.
Семейство моделей Cambrian-S и пространственные характеристики
Cambrian-S основан на Cambrian-1 и использует языковые основы Qwen2.5 с параметрами 0,5B, 1,5B, 3B и 7B с визуальным кодировщиком SigLIP2 SO400M и двухслойным соединителем MLP.
Обучение состоит из четырёх этапов. Этап 1 выполняет выравнивание языка и зрения на парах изображений и текста. Этап 2 применяет настройку инструкций для изображений, эквивалентную улучшенной настройке Cambrian-1. Этап 3 расширяется до видео с общей настройкой инструкций для видео на смеси из 3 миллионов образцов, называемой Cambrian-S 3M. Этап 4 выполняет настройку пространственных инструкций для видео на смеси VSI 590K и подмножестве данных третьего этапа.
На VSI Bench Cambrian-S 7B достигает 67,5% точности и превосходит открытые исходные базовые показатели, такие как InternVL3.5 8B и Qwen VL 2.5 7B, а также проприетарный Gemini 2.5 Pro более чем на 16 абсолютных пунктов. Модель также поддерживает высокую производительность на Perception Test, EgoSchema и других общих видео-бенчмарках, поэтому акцент на пространственном восприятии не разрушает общие возможности.
Прогнозирующее восприятие с латентным предсказанием кадров и неожиданностью
Чтобы выйти за рамки статического расширения контекста, исследовательская группа предлагает прогнозирующее восприятие. Они добавляют заголовок латентного предсказания кадров, который представляет собой двухслойный MLP, предсказывающий латентное представление следующего видеокадра параллельно с предсказанием следующего токена.
На этапе 4 обучения модель использует среднеквадратичную ошибку и потери косинусного расстояния между предсказанными и истинными латентными признаками, взвешенные по отношению к потере языкового моделирования. Подмножество из 290 000 видео из VSI 590K, сэмплированных со скоростью 1 кадр в секунду, зарезервировано для этой цели. Во время этого этапа соединитель, языковая модель и обе выходные головки обучаются совместно, в то время как визуальный кодировщик SigLIP остаётся замороженным.
Во время вывода косинусное расстояние между предсказанными и фактическими признаками становится оценкой неожиданности. Кадры с низкой неожиданностью сжимаются перед сохранением в долговременной памяти, а кадры с высокой неожиданностью сохраняются с более подробной информацией. Буфер памяти фиксированного размера использует неожиданность, чтобы решить, какие кадры объединить или удалить, а запросы извлекают кадры, наиболее релевантные вопросу.
Для VSR эта система памяти, управляемая неожиданностью, позволяет Cambrian-S поддерживать точность при увеличении длины видео, сохраняя при этом стабильное использование памяти GPU. Он превосходит Gemini 1.5 Flash и Gemini 2.5 Flash на VSR при всех протестированных длительностях и избегает резкого ухудшения, наблюдаемого в моделях, которые только расширяют контекст.
Для VSC исследовательская группа разработала схему сегментации событий, управляемую неожиданностью. Модель накапливает признаки в буфере событий, и когда кадр с высокой неожиданностью сигнализирует об изменении сцены, он суммирует этот буфер в ответ на уровне сегмента и сбрасывает буфер. Агрегирование ответов сегментов даёт окончательный подсчёт.
Ключевые выводы
Cambrian-S и VSI 590K показывают, что тщательная разработка пространственных данных и мощные видео-MLLM могут значительно улучшить пространственное познание на VSI Bench, но они всё ещё терпят неудачу на VSI Super, поэтому масштаб сам по себе не решает проблему пространственного сверхчувственного восприятия.
VSI Super, благодаря VSR и VSC, намеренно создан из произвольно длинных видеозаписей в помещении, чтобы подчеркнуть непрерывное пространственное наблюдение, запоминание и подсчёт, что делает его устойчивым к расширению контекстного окна методом грубой силы и стандартной разреженной выборке кадров.
Бенчмаркинг показывает, что передовые модели, включая Gemini 2.5 Flash и Cambrian S, резко ухудшаются на VSI Super, даже когда длина видео остаётся в пределах их номинальных ограничений по контексту, что свидетельствует о структурной слабости текущих архитектур с длинным контекстом.
Модуль прогнозирования восприятия, основанный на латентном предсказании кадров и неожиданности, использует ошибку предсказания следующего латентного кадра, или неожиданность, для управления сжатием памяти и сегментацией событий, что даёт существенные преимущества на VSI Super по сравнению с базовыми показателями длинного контекста, сохраняя при этом стабильное использование памяти GPU.
Редакционные комментарии
Cambrian-S — это полезный стресс-тест для текущих видео-MLLM, поскольку он показывает, что VSI SUPER — это не просто более сложный бенчмарк, он выявляет структурный сбой архитектур с длинным контекстом, которые всё ещё полагаются на реактивное восприятие.
Модуль прогнозирования восприятия, основанный на латентном предсказании кадров и неожиданности, является важным шагом, поскольку он сочетает пространственное восприятие с внутренним моделированием мира, а не только с масштабированием данных и параметров. Это исследование сигнализирует о переходе от пассивного понимания видео к прогнозирующему пространственному сверхчувственному восприятию как следующей цели проектирования для мультимодальных моделей.
1. Почему традиционные модели ИИ плохо справляются с отслеживанием объектов в длинных видеопотоках?
Ответ: традиционные модели ИИ плохо справляются с отслеживанием объектов в длинных видеопотоках, потому что они не способны предсказывать события и выборочно запоминать важные моменты. Они просто увеличивают размер контекстных окон и количество вычислительных мощностей, что не решает проблему.
2. Какие этапы включает в себя развитие способностей пространственного сверхчувственного восприятия у ИИ?
Ответ: развитие способностей пространственного сверхчувственного восприятия у ИИ включает в себя несколько этапов:
* семантическое восприятие;
* потоковое познание событий;
* неявное трёхмерное пространственное познание;
* прогнозирующее моделирование мира.
3. Какие задачи решает бенчмарк VSI Super?
Ответ: бенчмарк VSI Super решает две задачи:
* VSI Super Recall (VSR) оценивает долгосрочное пространственное наблюдение и запоминание.
* VSI Super Count (VSC) измеряет непрерывный подсчёт при изменении точек обзора и комнат.
4. Почему масштабирование данных не решает проблему пространственного сверхчувственного восприятия?
Ответ: масштабирование данных не решает проблему пространственного сверхчувственного восприятия, потому что передовые модели, включая Gemini 2.5 Flash и Cambrian S, резко ухудшаются на VSI Super, даже когда длина видео остаётся в пределах их номинальных ограничений по контексту. Это свидетельствует о структурной слабости текущих архитектур с длинным контекстом.
5. Какие преимущества даёт модуль прогнозирования восприятия, основанный на латентном предсказании кадров и неожиданности?
Ответ: модуль прогнозирования восприятия, основанный на латентном предсказании кадров и неожиданности, даёт несколько преимуществ:
* он использует ошибку предсказания следующего латентного кадра, или неожиданность, для управления сжатием памяти и сегментацией событий;
* он сочетает пространственное восприятие с внутренним моделированием мира, а не только с масштабированием данных и параметров;
* он позволяет сохранить стабильное использование памяти GPU, поддерживая точность при увеличении длины видео.