日前,Meta方面发布并开源全新世界模型V-JEPA 2(Video Joint Embedding Predictive Architecture 2)。据了解,V-JEPA 2是其于2024年发布的V-JEPA 模型升级版本,主要基于视频素材进行训练,拥有12亿参数。据Meta方面介绍,V-JEPA2在训练过程中使用了超过100万小时的视频数据,涵盖多种场景和交互内容
据悉,V-JEPA 2的技术突破主要体现在自我监督学习、遮挡预测机制、抽象表征学习、世界模型架构、高效迁移能力5个方面。以自我监督学习为例,V-JEPA2无需依赖大量标注数据,就可通过自我监督学习从未标注的视频中提取知识,显著降低数据准备成本。
性能方面,V-JEPA 2在多项基准测试中表现优异。例如在运动理解上,该模型在Something-Something v2数据集实现了77.3%的top-1准确率。在人类动作预期任务中,该模型在Epic-Kitchens-100数据集实现了39.7%的recall-at-5分数,超越了现有所有任务特定模型,并且与英伟达的Cosmos模型相比,V-JEPA 2的运行速度更是前者的30倍。
对此Meta首席AI科学家Yann LeCun表示,“我们相信世界模型将开启机器人技术的新纪元,使现实世界中的AI智能体能够在不需要海量机器人训练数据的情况下,有效协助人类完成日常家务和体力劳动”。
值得一提的是,为了更好地评估模型从视频理解和推理物理世界的能力,日前Meta方面还发布了三个新的基准测试,其中包括IntPhys 2、MVPBench和CausalVQA。
其中,IntPhys 2用于衡量模型区分场景是否符合物理学的能力,是在IntPhys基准的基础上扩展而来;MVPBench是通过选择题来衡量视频语言模型对物理世界的理解能力;CausalVQA则是衡量模型回答与物理因果关系有关问题的能力。
【本文图片来自网络】