热闹的世界模型与背后的镜花水月

来源：证券之星财经

2026-06-30 13:50:37

2026年6月，斯坦福的李飞飞教授发了一篇长文。这位AI界举足轻重的学者，花了整整一篇文章的篇幅，只为回答一个最朴素的问题——世界模型，到底是什么。

差不多同一时间，大洋彼岸的黄仁勋正站在聚光灯下，皮衣锃亮，嗓门洪亮。他向全世界宣布：物理AI的时代来了。世界模型，就是打开这个时代的钥匙——它能让AI理解物理规律，让机器人自主操作，让自动驾驶汽车真正上路。

一个在台上喊口号，一个在台下翻字典。一个已经把世界模型讲成了下一场工业革命的发动机，另一个还在为这个词究竟指什么而犯愁。

这画面，有点荒诞。但荒诞的背后，藏着一个更荒诞的事实——世界模型，大概是这两年整个AI领域最热闹、也最混乱的一个词。

命名狂欢：人人都是世界模型

世界模型热闹，热闹在它是个筐，什么都能往里装。

一个能生成火焰视频的模型，叫世界模型。一个能凭空生成可玩游戏的语言模型，也叫世界模型。一个能精确模拟燃烧过程的物理引擎，还是叫世界模型。只要跟"世界"沾点边，跟"模型"沾点边，往自己脑门上贴这块金字招牌，好像都没毛病。

这倒也不奇怪。每一波技术浪潮来临的时候，都会经历这么一段"抢帽子"的混战。区块链火的时候，白皮书里不写个"去中心化"，都不好意思发币；元宇宙火的时候，但凡能渲染个3D界面的，都自称元宇宙公司。世界模型如今走的，也是这条老路。帽子先抢到手，内涵以后再填——反正听的人也未必分得清。

李飞飞倒是想给这场混乱立个规矩。她在那篇长文里，把市面的世界模型分成三类：渲染器只管"看起来像"，生成漂亮的像素和视频，物理对不对另说；模拟器追求结构精确，输出的不是画面，而是几何数据、材质参数、碰撞网格这类东西；规划器则负责在感知和行动之间搭桥，让智能体行动前能预判世界的变化。

分得挺清楚。但这个分类本身，就泄露了天机——如果连"世界模型是什么"都得用一整篇文章来厘清，那这个领域，离技术收敛还远着呢。

智源研究院院长王仲远从另一个角度又切了一刀。他把当前的技术路线归为四类：以语言为中心的(像VLA)、以像素为中心的(像视频生成)、以三维结构为中心的(像3D重建)、以视觉表征为中心的(像JEPA系列)。每一类都自称世界模型，每一类离真正能理解、预测、交互物理世界的"基座模型"，都还差着十万八千里。更要命的是，这四条路之间不存在清晰的优劣排序，更不存在一个公认的"正确方向"。

大家都在赶路，但没人知道目的地长什么样，也没人知道彼此是不是在往同一个地方赶。

数据天堑：想走也没路

概念混乱，是"不知道往哪走"。数据匮乏，则是"想走也没路"。

训练一个能理解物理世界的模型，需要的数据，和训练大语言模型的数据，完全是两码事。大语言模型的燃料，是互联网上几乎无限的文本——网页、书籍、论文、论坛帖子，抓过来就能用，几乎白捡。可物理世界的数据呢？

一个杯子从桌边掉下来会碎。这件事，人看一眼就懂。但要让AI学会这个因果关系，需要的是带有精确几何、物理标注、动作标签的多模态交互数据。这种东西，比互联网视频稀缺好几个数量级。文本是捡来的，物理数据得一个一个去采——成本之差，天壤之别。

更麻烦的是，就算有了数据，也未必是对的数据。王仲远坦言，真实物理世界的多模态交互数据极度匮乏，而不同技术路线对数据的需求又各不相同。以具身智能为例，机器人在流水线上能完成特定任务，但不具备泛化性——原因就在于，它缺的是对世界常识、物理规律的通用理解。眼下世界模型所谓"成功"的应用，还局限在自动驾驶、电子游戏这些特定领域。而这些领域的数据规模和多样性，远远撑不起一个通用世界模型。

合成数据一度被当成解药。用物理仿真引擎和游戏引擎生成大量虚拟数据，成本比采集真实数据低得多，听起来挺美。但这条路，坑也不少。各种物理仿真工具固然能模拟世界，可人类自己掌握的物理知识、引擎规则、算法都还不够完备，仿真始终到不了百分之百的真实。仿真环境里物体的运动规律，跟真实世界之间始终隔着一层——业内管这叫"仿真到现实的鸿沟"。

AI生成的几何体，看着没问题，暗地里面重叠、尺寸不对，一旦送进物理引擎一算，结果就荒谬了。用有缺陷的数据训练模型，模型学到的也只能是个有缺陷的世界。垃圾进，垃圾出——这句计算机科学的老话，在世界模型这儿，一个字都没过时。

架构迷思：三条路，各说各话

数据和概念之外，还横着一道更深的问题：就算有了正确的数据、清晰的定义，世界模型该用什么架构去搭，谁也说不准。这不只是技术选型的事，而是整个领域在根本假设上就谈不拢。

眼下几条代表性路线，各有各的算盘。

谷歌的Genie3走的是"世界模拟器"的路子，造出一个像电子游戏般、能根据用户输入实时演进的交互式视频环境。你一声令下"下雨"，整个世界就动态响应。画面和用户双向奔赴，支持长时间连贯探索。听着挺玄乎。可说到底，它的内核还是视频生成的逻辑——它"演"得像，并没有真正"懂"背后的物理因果。一个会画雨的画家，和一个懂水循环的气象学家，终究不是一回事。

李飞飞的World Labs团队走的是另一条——以三维结构为中心，不妨叫它"空间路线"。他们搞出的Marble模型，能生成持久的、可下载的3D环境，用户一句提示就能生成一个可导出的3D世界。但批评者不客气：Marble看起来更像一条3D渲染流水线，而不是机器人的大脑。它捕捉的是"表面是什么样子"，并没有内置"这个世界为什么会这样运转"的物理规律。人看到斜坡上的球，知道它会滚下来；机器人要做同样的判断，还得知道质量、摩擦、速度这些参数。会画球，不等于会算球。

还有一条更"哲学"的路——杨立昆主导的JEPA架构，不妨叫它"认知路线"。老爷子的核心思想是：预测下一个表征，而不是预测下一个数据。模型没必要浪费算力去生成像素，只需专注于捕捉那些能用于决策的世界状态。这条路在理论上最接近认知科学里的"心智模型"概念——大脑并不存储世界的每一个像素，而是存一个抽象的内部表征，用来推理和预测。想法漂亮。但漂亮的想法和能落地的工程之间，往往隔着一整个太平洋。从抽象表征到实际行动，中间的工程鸿沟，还长着呢。

三条路，三种哲学。一条相信"看得见的就是世界"，一条相信"搭得起来的就是世界"，一条相信"想得到的就是世界"。谁对谁错？现在没人敢拍这个板。

离世界还有多远

世界模型离世界有多远？这问题，给不了一个简单的数字答案。

从概念看，它还隔着一层"定义之雾"——所有人都在用同一个词说不同的事，共识本身就遥不可及。从数据看，它还隔着一片"数据之海"——真实物理世界的交互数据，稀缺到让最乐观的研究者都皱眉。从架构看，它还隔着一道"范式之墙"——视频生成、三维重建、潜空间预测，每条路都有自己的理论支撑，也都有自己的致命软肋。

但世界模型这关，可能比当年的深度学习更难过。深度学习处理的是模式识别——从数据里找统计规律。世界模型要处理的是因果推理——理解为什么物体会这样运动、为什么事件会这样发生。这两种能力之间，隔着的也许不是几年的技术迭代，而是某种根本性的认知范式转换。从"找规律"到"懂因果"，这一步，迈起来比想象的难得多。

(文章来源：公众号退一步看看)

特别推荐

欧洲40℃热浪带火中国空调

证券之星资讯

2026-06-30

溢价近7倍，恒为科技欲借钱收购AI公司，支柱业务收入缩水，投资收益“扮靓”净利

证券之星资讯

2026-06-30

物理AI等待的世界模型离大规模应用还要多久

证券之星资讯

2026-06-30

首页股票财经基金导航

举报专区联系我们

热闹的世界模型与背后的镜花水月

相关个股

相关阅读

特别推荐