李飞飞的最新长文引爆硅谷，震撼科技界的真相曝光！

2小时前发布aiwei

摘要：

李飞飞在文章中探讨了空间智能作为人工智能（AI）未来的重要领域，强调其在世界模型构建中的核心作用。文章指出，空间智能不仅是理解和互动的基础，还推动创造力和科学进步。李飞飞提到，尽管当前的AI技术如大语言模型（LLMs）在知识处理上表现出色，但在空间感知和与物理世界的互动中仍存在显著局限。为了实现真正具备空间智能的AI，必须构建更复杂的世界模型，推动AI在各领域的应用，以增强人类能力并改善生活质量。

从文字到世界：空间智能是AI的未来新篇章

空间智能，作为人工智能（AI）的下一个前沿领域，正在逐步展现其重要性。最近，AI领域的领军人物李飞飞发表了一篇长文，系统地探讨了什么是空间智能、其重要性以及如何构建能够解锁这一能力的世界模型。

在这篇文章中，李飞飞不仅提出了“真正具有空间智能的世界模型”所需的三个核心能力，还分享了World Labs在新一代任务函数、数据、模型架构与学习表示方面的最新进展，以及世界模型在创造力、机器人、科学、医疗和教育等多个领域的巨大潜力。这一信息的发布引发了广泛的关注和讨论，成为热文和热搜话题。

将空间智能融入世界模型（LWMs）有望推动大语言模型（LLMs）实现质的飞跃。当因果推理能力和能效达到相应水平时，我们将迎来通向通用人工智能的新拐点。

李飞飞的这篇文章，从文字到世界，带我们深入探讨这一主题。回顾历史，1950年，当计算机仍然在进行简单的自动化计算时，艾伦·图灵提出了一个至今仍令人深思的问题：机器能思考吗？他展望未来，认为智能或许可以被“构建”，而非“诞生”。这一洞见开启了持续至今的人工智能研究之旅。在我25年的AI研究生涯中，图灵的愿景始终激励着我，但我们离这一愿景还有多远？答案并不简单。

如今，以大语言模型为代表的前沿AI技术，已经开始改变人类获取与处理知识的方式。然而，它们仍然是“黑暗中的文字匠”：能够流利表达，却缺乏真实经验；知识丰富，但根基薄弱。空间智能的引入，将彻底改变我们创造和交互现实与虚拟世界的方式，推动叙事、创造力、机器人学和科学发现等领域的变革。

自我进入这一领域以来，视觉与空间智能的探索一直是我的“北极星”。这也是我为何花费多年时间构建ImageNet——这一首个大规模视觉学习与评测数据集。它与神经网络算法、现代算力（如GPU）共同孕育了现代AI的基石。因此，我与联合创始人Justin Johnson、Christoph Lassner、Ben Mildenhall共同创建了World Labs，旨在首次真正实现这一可能性。

在这篇文章中，我将探讨空间智能的定义、重要性以及如何构建能够解锁它的“世界模型”——这一技术将深刻重塑创造力、具身智能与人类进步。AI从未像今天这样令人振奋，生成式AI模型如LLM已经从研究室走入日常生活，成为数十亿人创作、生产与交流的工具。它们展现了曾被认为不可能的能力，生成连贯的文本、代码、逼真的图像，甚至短视频。

然而，许多潜能仍未被挖掘。自动化机器人的梦想依然遥远；在疾病治疗、新材料发现和粒子物理等领域的研究进展仍需加速。真正能够理解并赋能人类创作者的AI，无论是学习复杂分子化学概念的学生，还是构建虚拟世界的电影人，依然未能实现。

要理解这些能力为何难以实现，我们需要回顾空间智能的演化及其对我们理解世界的影响。视觉长期以来是人类智能的基石，而其力量源自更为根本的感知能力。在漫长的进化过程中，这种从外部世界获取信息的能力逐渐复杂化，形成了能够解释世界并协调生物与环境互动的神经系统。许多科学家认为，“感知—行动”循环是智能进化的核心机制。

空间智能在我们与物理世界的互动中扮演着基础性的角色，贯穿我们日常生活的每一个细节。无论是停车时估算车尾与路缘的距离，还是在拥挤的人群中穿行而不碰撞，这一能力都在直觉中自然而然地发生。婴儿在学习语言之前，通过玩耍与环境的互动来认识世界，这些都体现了人类独特的空间智能。

空间智能同样是我们想象力与创造力的基石。讲故事的人在脑中构建出丰富的世界，并用各种媒介将之传达给他人。从原始的洞穴壁画到现代电影，这种以空间为基础的想象构成了人与虚拟世界交互体验的基础。在工业应用中，对物体、场景与动态交互环境的模拟则支撑着从工业设计到机器人训练等无数关键场景。

历史上那些塑造文明的关键时刻中，空间智能常常扮演着核心角色。古希腊的埃拉托色尼通过对阴影的几何思考，计算出了地球的周长；而哈格里夫斯发明的“珍妮纺纱机”则源于对空间的深刻洞察。沃森与克里克揭示DNA结构的突破，也依赖于他们亲手搭建的三维分子模型。这些案例中，空间智能推动了文明的进步。

空间智能是支撑人类认知的基石，无论是被动观察还是主动创造，它都在默默发挥作用。它驱动我们的推理与规划，塑造我们与世界的互动方式。虽然大多数人不会像埃拉托色尼那样发现新的真理，但我们几乎时时刻刻都在以同样的方式理解这个复杂的世界。

然而，遗憾的是，当前的AI尚无法以这样的方式思考。尽管过去几年取得了巨大进步，最先进的多模态大语言模型（MLLMs）在一定程度上具备了空间感知能力，但它们的局限性依然显而易见。例如，在估计距离、方向和大小等任务上，表现往往不如随机猜测。当前的顶级AI擅长阅读、写作和模式识别，但在与物理世界的交互上却存在根本性局限。

我们人类理解世界的方式是整体性的，超越了简单的视觉感知，理解事物在空间上的关系、语义上的意义以及现实中的重要性。缺乏空间智能，AI就与物理现实脱节，无法安全地驾驶汽车、引导家庭与医院中的机器人，也无法创造新的沉浸式学习与娱乐体验。

为了实现拥有空间智能的AI，我们需要构建更具雄心的世界模型（World Models）。这是一种全新的生成式模型，能够在理解、推理、生成与交互方面超越当前LLM的极限。世界模型不仅能在语义、物理、几何与动态层面上理解并生成复杂的虚拟或真实世界。

在World Labs，我们的研究团队正致力于这一目标的基础性突破。我们相信，空间智能的潜力巨大，能够深刻改变人类的未来。通过AI，我们能够增强人类能力，创造出更美好的生活。空间智能的应用将横跨科学、医疗和教育等多个领域，推动人类文明的进步。

随着研究的不断深入，我们正朝着一个崭新的未来迈进。AI的最终目标是增强人类的能力，而非取而代之。空间智能的实现将为我们带来更丰富的生活体验，让我们在追求创造与发现的过程中，收获更多的成就与快乐。让我们共同期待这一伟大愿景的实现。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/8idd1cnm