来源:证券之星财经
2026-06-30 13:50:37
2026年6月,斯坦福的李飞飞教授发了一篇长文。这位AI界举足轻重的学者,花了整整一篇文章的篇幅,只为回答一个最朴素的问题——世界模型,到底是什么。
差不多同一时间,大洋彼岸的黄仁勋正站在聚光灯下,皮衣锃亮,嗓门洪亮。他向全世界宣布:物理AI的时代来了。世界模型,就是打开这个时代的钥匙——它能让AI理解物理规律,让机器人自主操作,让自动驾驶汽车真正上路。
一个在台上喊口号,一个在台下翻字典。一个已经把世界模型讲成了下一场工业革命的发动机,另一个还在为这个词究竟指什么而犯愁。
这画面,有点荒诞。但荒诞的背后,藏着一个更荒诞的事实——世界模型,大概是这两年整个AI领域最热闹、也最混乱的一个词。
命名狂欢:人人都是世界模型
世界模型热闹,热闹在它是个筐,什么都能往里装。
一个能生成火焰视频的模型,叫世界模型。一个能凭空生成可玩游戏的语言模型,也叫世界模型。一个能精确模拟燃烧过程的物理引擎,还是叫世界模型。只要跟"世界"沾点边,跟"模型"沾点边,往自己脑门上贴这块金字招牌,好像都没毛病。
这倒也不奇怪。每一波技术浪潮来临的时候,都会经历这么一段"抢帽子"的混战。区块链火的时候,白皮书里不写个"去中心化",都不好意思发币;元宇宙火的时候,但凡能渲染个3D界面的,都自称元宇宙公司。世界模型如今走的,也是这条老路。帽子先抢到手,内涵以后再填——反正听的人也未必分得清。
李飞飞倒是想给这场混乱立个规矩。她在那篇长文里,把市面的世界模型分成三类:渲染器只管"看起来像",生成漂亮的像素和视频,物理对不对另说;模拟器追求结构精确,输出的不是画面,而是几何数据、材质参数、碰撞网格这类东西;规划器则负责在感知和行动之间搭桥,让智能体行动前能预判世界的变化。
分得挺清楚。但这个分类本身,就泄露了天机——如果连"世界模型是什么"都得用一整篇文章来厘清,那这个领域,离技术收敛还远着呢。
智源研究院院长王仲远从另一个角度又切了一刀。他把当前的技术路线归为四类:以语言为中心的(像VLA)、以像素为中心的(像视频生成)、以三维结构为中心的(像3D重建)、以视觉表征为中心的(像JEPA系列)。每一类都自称世界模型,每一类离真正能理解、预测、交互物理世界的"基座模型",都还差着十万八千里。更要命的是,这四条路之间不存在清晰的优劣排序,更不存在一个公认的"正确方向"。
大家都在赶路,但没人知道目的地长什么样,也没人知道彼此是不是在往同一个地方赶。
数据天堑:想走也没路
概念混乱,是"不知道往哪走"。数据匮乏,则是"想走也没路"。
训练一个能理解物理世界的模型,需要的数据,和训练大语言模型的数据,完全是两码事。大语言模型的燃料,是互联网上几乎无限的文本——网页、书籍、论文、论坛帖子,抓过来就能用,几乎白捡。可物理世界的数据呢?
一个杯子从桌边掉下来会碎。这件事,人看一眼就懂。但要让AI学会这个因果关系,需要的是带有精确几何、物理标注、动作标签的多模态交互数据。这种东西,比互联网视频稀缺好几个数量级。文本是捡来的,物理数据得一个一个去采——成本之差,天壤之别。
更麻烦的是,就算有了数据,也未必是对的数据。王仲远坦言,真实物理世界的多模态交互数据极度匮乏,而不同技术路线对数据的需求又各不相同。以具身智能为例,机器人在流水线上能完成特定任务,但不具备泛化性——原因就在于,它缺的是对世界常识、物理规律的通用理解。眼下世界模型所谓"成功"的应用,还局限在自动驾驶、电子游戏这些特定领域。而这些领域的数据规模和多样性,远远撑不起一个通用世界模型。
合成数据一度被当成解药。用物理仿真引擎和游戏引擎生成大量虚拟数据,成本比采集真实数据低得多,听起来挺美。但这条路,坑也不少。各种物理仿真工具固然能模拟世界,可人类自己掌握的物理知识、引擎规则、算法都还不够完备,仿真始终到不了百分之百的真实。仿真环境里物体的运动规律,跟真实世界之间始终隔着一层——业内管这叫"仿真到现实的鸿沟"。
AI生成的几何体,看着没问题,暗地里面重叠、尺寸不对,一旦送进物理引擎一算,结果就荒谬了。用有缺陷的数据训练模型,模型学到的也只能是个有缺陷的世界。垃圾进,垃圾出——这句计算机科学的老话,在世界模型这儿,一个字都没过时。
架构迷思:三条路,各说各话
数据和概念之外,还横着一道更深的问题:就算有了正确的数据、清晰的定义,世界模型该用什么架构去搭,谁也说不准。这不只是技术选型的事,而是整个领域在根本假设上就谈不拢。
眼下几条代表性路线,各有各的算盘。
谷歌的Genie3走的是"世界模拟器"的路子,造出一个像电子游戏般、能根据用户输入实时演进的交互式视频环境。你一声令下"下雨",整个世界就动态响应。画面和用户双向奔赴,支持长时间连贯探索。听着挺玄乎。可说到底,它的内核还是视频生成的逻辑——它"演"得像,并没有真正"懂"背后的物理因果。一个会画雨的画家,和一个懂水循环的气象学家,终究不是一回事。
李飞飞的World Labs团队走的是另一条——以三维结构为中心,不妨叫它"空间路线"。他们搞出的Marble模型,能生成持久的、可下载的3D环境,用户一句提示就能生成一个可导出的3D世界。但批评者不客气:Marble看起来更像一条3D渲染流水线,而不是机器人的大脑。它捕捉的是"表面是什么样子",并没有内置"这个世界为什么会这样运转"的物理规律。人看到斜坡上的球,知道它会滚下来;机器人要做同样的判断,还得知道质量、摩擦、速度这些参数。会画球,不等于会算球。
还有一条更"哲学"的路——杨立昆主导的JEPA架构,不妨叫它"认知路线"。老爷子的核心思想是:预测下一个表征,而不是预测下一个数据。模型没必要浪费算力去生成像素,只需专注于捕捉那些能用于决策的世界状态。这条路在理论上最接近认知科学里的"心智模型"概念——大脑并不存储世界的每一个像素,而是存一个抽象的内部表征,用来推理和预测。想法漂亮。但漂亮的想法和能落地的工程之间,往往隔着一整个太平洋。从抽象表征到实际行动,中间的工程鸿沟,还长着呢。
三条路,三种哲学。一条相信"看得见的就是世界",一条相信"搭得起来的就是世界",一条相信"想得到的就是世界"。谁对谁错?现在没人敢拍这个板。
离世界还有多远
世界模型离世界有多远?这问题,给不了一个简单的数字答案。
从概念看,它还隔着一层"定义之雾"——所有人都在用同一个词说不同的事,共识本身就遥不可及。从数据看,它还隔着一片"数据之海"——真实物理世界的交互数据,稀缺到让最乐观的研究者都皱眉。从架构看,它还隔着一道"范式之墙"——视频生成、三维重建、潜空间预测,每条路都有自己的理论支撑,也都有自己的致命软肋。
但世界模型这关,可能比当年的深度学习更难过。深度学习处理的是模式识别——从数据里找统计规律。世界模型要处理的是因果推理——理解为什么物体会这样运动、为什么事件会这样发生。这两种能力之间,隔着的也许不是几年的技术迭代,而是某种根本性的认知范式转换。从"找规律"到"懂因果",这一步,迈起来比想象的难得多。
(文章来源:公众号退一步看看)
证券时报网
2026-06-30
证券时报网
2026-06-30
证券时报网
2026-06-30
证券时报网
2026-06-30
证券时报网
2026-06-30
证券时报网
2026-06-30
证券之星资讯
2026-06-30
证券之星资讯
2026-06-30
证券之星资讯
2026-06-30