

近日,Meta 的 AI 科学家 Yann LeCun 提出了一个有关世界模型的新概念,旨在推动机器理解和模拟真实世界。该概念被视为在人工智能领域实现重大突破的关键一步。据悉,LeCun 此前在 Meta FAIR 以及高等研究实践学院 EHESS 开展研究,长期以来致力于开发能够像人类一样理解世界的 AI 系统。
LeCun 详细阐述了一个名为视觉联合嵌入预测架构(V-JEPA)的非生成型世界模型,它与 OpenAI 的 Sora 等生成式 AI 模型形成对比。V-JEPA 的目标是通过预测缺失的信息片段,从而学习对世界的抽象表示。与直接生成像素不同,V-JEPA 侧重于理解隐藏在视觉数据背后的基本结构。通过这种方式,AI 系统能够更好地理解周围世界的运作方式。
具体来说,LeCun 提出了一种名为 “缺失块预测” 的训练方法,用于训练 AI 模型理解视频中的隐藏信息。这意味着模型需要预测被遮挡或缺失的部分,从而学习理解不同对象和事件之间的关系。LeCun 认为,这种方法能够使 AI 系统更好地理解世界的运作方式,而不是简单地复制已有的数据,进而推动 AI 在理解世界方面的能力。
V-JEPA 在三个不同的基准测试中进行了评估:IntPhys(直观物理)、GRASP(抓取姿势)和 InfLevel(推理水平)。结果表明,V-JEPA 在视觉常识推理、抓取预测和情境推理等方面表现出色,甚至超越了 Gemini1.5Pro 和 Qwen2-VL-72B 等大型多模态模型。
V-JEPA 的主要优势在于其计算效率,它能够处理 128 倍长的视频序列,从而更好地学习世界的动态。此外,它还使用了 115 兆像素的大型图像块进行预训练。LeCun 表示,V-JEPA 有望实现更强大的推理能力,并为开发能够理解世界运作方式的 AI 系统奠定基础,最终使 AI 能够更好地适应复杂多变的环境。
总而言之,LeCun 相信 AI 模型需要理解世界的 “工作原理” 才能真正实现通用人工智能。V-JEPA 的核心在于通过预测隐藏信息来训练 AI 理解真实世界的运作方式,从而推动 AI 系统更好地理解和模拟真实世界。Meta 正在将 JEPA 架构应用于各种模态,并探索其在构建更智能的 AI 系统方面的潜力,期望 AI 能够像人类一样进行推理和解决问题。
总结:
人工智能科学家正在努力让 AI 能够像人类一样理解世界,从而推动 AI 的发展。
V-JEPA 通过预测缺失的信息片段来学习对世界的抽象表示,在多个基准测试中表现出色。
Meta 正在探索 AI 如何更好地理解和模拟真实世界,期望构建出更智能的 AI 系统。