改变物理世界，从云栖大会看AI的下一代变革

来源：21世纪经济报道

媒体

2024-09-20 19:07:51

（原标题：改变物理世界，从云栖大会看AI的下一代变革）

21世纪经济报道记者董静怡杭州报道

在OpenAI发布ChatGPT后的22个月里，AI发展速度超过任何历史时期。

在过去的一年多时间里，大模型技术进步迅速，现在能处理文本、语音、视觉等多模态任务，并执行复杂编程和高难度学科问题；推理成本指数级降低，已经远远超过摩尔定律，阿里云的API价格一年内下降97%。

尽管发展迅速，但依然处于AGI（通用人工智能）变革的早期。19日，阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在云栖大会上表示，生成式AI最大的想象力，绝不是在手机屏幕上做一两个新的超级app，而是接管数字世界，改变物理世界。

“当前，众多企业在应用大模型时，已经远远不限于一个手机了。”阿里云智能集团首席技术官周靖人向21世纪经济报道记者表示，企业在整合模型能力与业务场景方面，已经拓展到更广泛的设备和平台，信息的输入输出与各种终端设备之间的交互日益增多。

本届云栖大会，阿里云的重点从模型本身扩展到物理世界的应用落地，端侧大模型的应用带来更大的想象力。在论坛上，吴泳铭特别强调了自动驾驶和机器人这两个热门应用场景，大模型技术的赋能将为行业落地带来变革。

“人们对新技术革命，往往对短期高估，又对长期低估。”吴泳铭表示，“但新技术革命会在人们的怀疑中成长，让很多人在迟疑中错过。”

站在AGI的起点

在这一年多里，生成式AI加速发展。

投融资数据显示，尽管去年人工智能私人投资整体下降，但对生成式人工智能的投资激增，该领域投资金额比2022年（约30亿美元）增长近九倍，达到252亿美元。生成式人工智能领域的主要参与者，包括OpenAI、Anthropic、Hugging Face和Inflection，都获得了一轮可观的融资。

国内外大模型加速迭代，呈现出以下特点：其一，参数量持续攀升，从百亿到千亿，甚至万亿，大模型的参数量不断刷新纪录；其二，多模态处理能力提升，大模型在处理文本、图像、声音等多种模态数据方面的能力不断进步；其三，应用领域不断拓展，大模型在医疗、金融、教育等众多领域都展现出广泛应用前景。

算力作为推动大模型持续迭代的关键因素，也在持续突破。英伟达、AMD等芯片制造商相继发布了新一代GPU产品，这些高性能计算芯片为大模型的训练和推理提供了强大动力。国内，以阿里云为代表的云计算巨头纷纷升级其计算服务，推出了基于最新AI芯片的云计算实例，大幅提升了大模型训练的效率。

“全世界先进模型竞争的投入门槛，将达到数十亿、数百亿美元的级别。”吴泳铭在论坛上表示，AI具备创造能力、帮助人类解决复杂问题的路径清晰可见，也打开了AI在各行业场景中广泛应用的可能性。

“很长一段时间，AI的焦点主要集中在模拟人类的感知能力，比如自然语言理解、语音识别、视觉识别。但是生成式AI的崛起，带来了质的飞跃，AI不再仅仅局限于感知，而是首次展现了思考推理和创造的力量。”吴泳铭表示。

过去三十年，互联网连接了人、信息、商业和工厂，通过连接提高了世界的协作效率，创造了巨大的价值，改变了人们的生活方式。而生成式AI是通过生产力的供给创造了新的价值，提高了整个世界的生产力水平。这种价值创造，可能是移动互联网连接价值的十倍、几十倍。

吴泳铭认为，AI最大的想象力不在手机屏幕，而是接管数字世界，改变物理世界。“我们认为生成式AI将逐渐渗透数字世界，并接管数字世界，物理世界的大部分事物都会具备AI能力，形成下一代的具备AI能力的全新产品，并与云端AI驱动的数字世界连接产生协同效应。”吴泳铭表示。

在他看来，AI模型可以通过对物理世界数据的Token化，理解真实世界的方方面面，比如人类行走、奔跑、驾驶车辆、使用工具，绘画、作曲、写作、表达、教学、编程的技巧，甚至是开公司创业。理解之后，AI就可以模仿人类去执行物理世界的任务。这将带来新的产业革命。

“可以想见，AI驱动的数字世界连接着具备AI能力的物理世界，将会大幅提升整个世界的生产力，对物理世界的运行效率产生革命性的影响。”吴泳铭表示。

突破自动驾驶的上限

如何改变物理世界？自动驾驶是一个重要领域。

9月19日，小鹏汽车董事长CEO何小鹏驾驶“全球首款AI汽车”P7+亮相2024云栖大会，这款车搭载了业内领先的端到端大模型。过去2年，小鹏汽车与阿里云共建的AI算力规模提升超4倍。

大模型渗透端侧，汽车行业正在发生这样的变革。

自动驾驶技术，包括现有算法，主要基于规则。NVIDIA全球副总裁、汽车事业部负责人吴新宙表示，现有的算法栈通常包含许多由人类工程师设计的信号，例如，自动驾驶系统需要知道其他车辆的位置、速度和加速度，甚至需要精确到极高的程度，以便在三维空间中进行规划。然而，这种基于人类设计的信号或特征往往会限制算法栈的性能上限。

其一，行为量化。吴新宙表示，人类驾驶行为具有高度的灵活性，而基于规则的自动驾驶算法栈往往会过度量化人类行为。尽管算法栈可能包含多种行为状态，但量化的行为往往导致车辆驾驶显得机械。

其二，通用性限制。为了训练模型，尤其是感知模型，需要大量的数据集来快速修复特定的Corner case（边缘情况），这导致了巨大的工程量和测试量。而算法的通用性在面对未见过的数据时会受到挑战，当遇到数据覆盖不足的罕见场景，车辆可能无法正确反应。

其三，逻辑推理能力。驾驶主要涉及小脑问题，通常不需要复杂的逻辑推理。但在处理Corner case时，逻辑推理是必要的。现有的算法栈在时间记忆和逻辑推理方面的能力较弱。

通过“端到端”大模型的应用，上述限制可以得到有效解决。吴泳铭在论坛上表示，人工智能模型能够直接从海量的人类驾驶视觉数据中学习，从而赋予汽车超越大多数驾驶员的驾驶技能。

吴新宙表示，数据驱动的方法可以使车辆行为更加拟人化。大模型通过互联网量级的数据训练，对物理世界的理解远超汽车驾驶场景，从而显著提升自动驾驶的性能上限。此外，大模型在时序和空间上的强关联能力，能够形成强大的记忆能力，有效解决逻辑推理问题。

“端到端的大模型帮助我们可以将未来的自动驾驶的高度做得更高，且下限也可以得到提高。”何小鹏在论坛上表示，“对于最普通的用户，从现在到未来的36个月，可以让我们每一个人在每一个城市都像老司机一样开车，这是端到端大模型对于用户的一个强感知。”

今年5月，小鹏汽车就在国内率先实现端到端自动驾驶量产上车，并在全国范围内迅速落地。业界普遍认为，未来端到端智驾的算力需求还将进一步扩大，上亿元投入仅是智驾算力的入场券。

机器人泛化的基础

机器人行业也是下一个迎来巨变的行业。

事实上，在一些特定领域，如工业机器人、服务机器人等，其应用已经非常成熟，可以通过编好的程序替代人力高效完成工作。但业内对于机器人的期待显然不止在于特定场景的特定任务，更高的泛化性、更强的智能能力是机器人大规模应用的基础。

“为什么现在具身智能还是感觉这么智障，就是因为它没有灵魂，它没有脑子。”个人开发者、知名技术博主张子豪向21世纪经济报道记者表示。

尽管一些机器人的神经系统、控制系统、感知系统以及骨骼、关节和电机可能非常先进，但它们缺少类似于人脑的高级认知功能。因此，许多机器人只能停留在基础的操作层面，无法执行更复杂的任务，常常需要外部控制，无法实现真正的自主应用。

而大模型的融入则使得机器人的“大脑”更加智能，与人类的交互更加顺畅。张子豪向记者表示，传统机器人缺乏泛化能力、多样性和对通用指令的理解，而AGI能够将任意指令转换为机器人的动作。简而言之，大模型可以直接调用程序接口，给机器人发指令，调度机器人执行动作。

同时，它们能够理解大量世界的先验知识，并具备对三维物理世界的理解。张子豪举例称，曾试验让机械臂将一个绿色方块移动到“李云龙”的脸上，而机器人真的能够识别出“李云龙”。

在以往的模型中，这是不可能实现的，因为要让机器人识别需要专门训练一个模型，并使用特定的数据集进行训练。但现在，借助多模态大模型，机器人天生就具备了这种能力。

这种泛化和通用性是机器人规模应用的基础。吴泳铭在论坛上表示，未来，所有可移动的物体都可能转变为智能机器人，这些机器人可能包括工厂中的机械臂、建筑工地上的起重机、仓库内的搬运工、火灾现场的消防员，以及家庭中的宠物狗、保姆和助理等。

不过，把机器人完全交给大模型做“甩手掌柜”也是行不通的。某初创机器人企业负责人向记者表示，很多时候大模型的意图理解是不稳定的，很多任务还是依托于局部小模型。

“小模型目的就是提升具体场景下某些任务执行的精确可靠，大部分都是定制化的。它们场景明确，数据可靠，有针对性的训练。”该负责人表示，这也考验着不同机器人企业的能力。

而大模型可以与小模型结合应用，更好地发挥小模型能力。北京大学助理教授、北大-银河通用具身智能联合实验室主任王鹤在论坛上表示，大型模型可以充当监控器（Monitor），在小型模型执行任务的过程中，实时监控其表现，确保任务正确无误地进行。“比如药盒不慎掉落，大模型能够及时识别问题，并采取措施，指导机器人捡起药盒。”

未来，业内仍然期待能将通用感知、规划和执行能力融合在一起的大模型赋能机器人，使其能够更智能、更灵活地执行各种任务。

正如吴泳铭所设想，“未来，工厂里会有很多机器人，在AI大模型的指挥下生产机器人。现在每个家庭里有一两辆车，未来每个家庭可能会有两三个机器人，帮助人们提升生活当中的效率。”