В среду Meta представила новую модель V-JEPA 2 — «мировую модель», предназначенную для помощи ИИ-агентам в понимании окружающего мира.
V-JEPA 2 является развитием модели V-JEPA, выпущенной Meta в прошлом году и обученной на более чем миллионе часов видео. Эти данные призваны помочь роботам или другим ИИ-агентам взаимодействовать с физическим миром, предсказывая, как такие явления, как гравитация, повлияют на развитие событий.
Подобные причинно-следственные связи формируются у маленьких детей и животных по мере развития их мозга. Например, когда вы играете с собакой в апорт, она (в идеале) понимает, как удар мяча о землю заставит его отскочить вверх, или как ей следует побежать туда, куда мяч приземлится, а не туда, где он находится в данный момент.
Meta приводит примеры ситуаций, где робот, например, видит мир «от первого лица»: держит тарелку и лопатку, приближаясь к плите с готовыми яйцами. ИИ может предсказать, что следующим логичным действием будет использование лопатки для перемещения яиц на тарелку.
По заявлению Meta, V-JEPA 2 работает в 30 раз быстрее, чем модель Cosmos от Nvidia, которая также направлена на улучшение «физического» интеллекта. Впрочем, компании могут использовать разные методики оценки своих моделей.
«Мы уверены, что мировые модели откроют новую эру для робототехники, позволив ИИ-агентам в реальном мире помогать с бытовыми и физическими задачами без необходимости в астрономических объемах обучающих данных», — пояснил глава отдела ИИ Meta Янн Лекун в видеообращении.