Компания Meta AI представила V-JEPA 2 — масштабируемую мировую модель с открытым исходным кодом, предназначенную для обучения на видео в интернет-масштабе. Модель позволяет обеспечить надёжное визуальное понимание, прогнозирование будущего состояния и планирование без необходимости дополнительных данных.
Основываясь на архитектуре прогнозирования с совместным встраиванием (JEPA), V-JEPA 2 демонстрирует, как самообучение на основе пассивного интернет-видео в сочетании с минимальными данными о взаимодействии роботов может стать модульной основой для интеллектуальных физических агентов.
Масштабируемый самообучающийся предварительный тренинг на 1 млн часов видео
V-JEPA 2 предварительно обучена на более чем 1 млн часов видео в интернет-масштабе в сочетании с 1 млн изображений. Используя цель визуального маскирования, модель обучается восстанавливать замаскированные пространственно-временные фрагменты в скрытом пространстве представлений.
Этот подход позволяет избежать неэффективности прогнозирования на уровне пикселей, сосредотачиваясь на предсказуемой динамике сцены и игнорируя нерелевантный шум.
Для масштабирования предварительного обучения JEPA до такого уровня исследователи Meta предложили четыре ключевых метода:
* Масштабирование данных: создан набор данных из 22 млн образцов (VideoMix22M) из общедоступных источников, таких как SSv2, Kinetics, HowTo100M, YT-Temporal-1B и ImageNet.
* Масштабирование модели: ёмкость кодировщика была расширена до более чем 1 млрд параметров с использованием ViT-g.
* График обучения: принята стратегия прогрессивного разрешения и расширено предварительное обучение до 252 тыс. итераций.
* Пространственно-временное увеличение: обучение проводилось на постепенно более длинных и высокоразрешающих клипах, достигая 64 кадров при разрешении 384×384.
Эти конструктивные решения позволили достичь средней точности 88,2% по шести эталонным задачам, включая SSv2, Diving-48, Jester, Kinetics, COIN и ImageNet, превзойдя предыдущие базовые показатели.
Понимание через обучение с использованием замаскированных представлений
V-JEPA 2 демонстрирует сильные способности к пониманию движения. На эталонном тесте Something-Something v2 она достигает 77,3% точности по верхнему уровню, превосходя такие модели, как InternVideo и VideoMAEv2. Для понимания внешнего вида она остаётся конкурентоспособной с современными моделями предварительного обучения по тексту и изображениям, такими как DINOv2 и PEcoreG.
Представления кодировщика были оценены с помощью внимательных проб, подтвердив, что самообучение может привести к передаче и доменно-независимым визуальным характеристикам, применимым к различным задачам классификации.
Временные рассуждения через ответы на видеовопросы
Для оценки временных рассуждений кодировщик V-JEPA 2 согласован с мультимодальной большой языковой моделью и оценивается по нескольким задачам ответа на видеовопросы. Несмотря на отсутствие языкового контроля во время предварительного обучения, модель достигает:
* 84,0% в PerceptionTest;
* 76,9% в TempCompass;
* 44,5% в MVP;
* 36,7% в TemporalBench;
* 40,3% в TOMATO.
Эти результаты опровергают предположение о том, что для согласования визуального и языкового компонентов требуется совместное обучение с самого начала, демонстрируя, что предварительно обученный видеокодер может быть согласован постфактум с сильным обобщением.
V-JEPA 2-AC: обучение скрытым мировым моделям для планирования в робототехнике
Ключевым нововведением в этом выпуске является V-JEPA 2-AC — вариант предварительно обученного кодировщика, зависящий от действий. Настроенная только на 62 часах немаркированного видео с роботом из набора данных Droid, V-JEPA 2-AC обучается прогнозировать будущие встраивания видео в зависимости от действий и поз робота.
Архитектура представляет собой трансформатор на 300 млн параметров с блочно-причинным вниманием, обученный с использованием метода принудительного обучения учителя и цели развёртывания.
Это позволяет планировать без дополнительных данных, минимизируя расстояние между воображаемыми будущими состояниями и визуальными целями с помощью метода перекрёстной энтропии (CEM). Модель достигает высоких результатов в таких задачах, как достижение, захват и перемещение объектов на невидимых роботах-манипуляторах в разных лабораториях.
Бенчмарки: надёжная производительность и эффективность планирования
По сравнению с базовыми показателями, такими как Octo (клонирование поведения) и Cosmos (скрытые диффузионные мировые модели), V-JEPA 2-AC:
* выполняет планы примерно за 16 секунд на шаг (против 4 минут для Cosmos);
* достигает 100% успеха в задачах достижения цели;
* превосходит другие модели в задачах захвата и манипулирования объектами разных типов.
Примечательно, что модель работает с использованием монокулярной RGB-камеры без калибровки или специфической для среды настройки, что подтверждает способность обобщения изученной мировой модели.
Заключение
Meta AI V-JEPA 2 представляет собой значительный прорыв в области масштабируемого самообучающегося обучения для физического интеллекта. Отделяя обучение наблюдению от условности действий и используя крупномасштабное пассивное видео, V-JEPA 2 демонстрирует, что общие визуальные представления могут быть использованы как для восприятия, так и для управления в реальном мире.