来源:汽车之家
2025-05-07 20:32:54
(原标题:李想:智能辅助驾驶目前是黎明前的黑暗 我们愿意去解决问题)
汽车之家 资讯 日前,理想汽车CEO李想开启第二季AI Talk,描述了理想汽车关于智能驾驶辅助方面接下来的发展方向。
以下是实录内容:(持续更新中)
1. 距离上次的AI talk过去了130天,你最大的进步是什么?你有成为一个更智能的李想吗?
我觉得这130天我觉得我更高兴看到的是整个中国的进步,对吧?我觉得包括DeepSeek,包括千问在内的,可以让中国无论是基座模型,还是reasoning推理模型,还是后边的多模态,已经跟美国的距离基本上拉近了,或者基本上在一个水平线上了。而且中国的企业做出来这些模型效率也更高,无论是在预训练上,在训练的层面,还是在后边的整个推理层面,我们做了很多的深层的工程的改造。我觉得也让整个的中国的人工智能领域更有信心。也包含后边我看到一些比较惊喜的,在Agent(智能体)上面的一些突破,无论是Manus还是这个还是Genspark,我觉得其实这些方面做的都非常的好。
嗯,所以我说这个其实是非常惊喜的,那如果从我们自己个人而言,这也树立了我们把 AI 做得更好的这个信心。今天大家在讲语言模型,但我还是认为语言模型只是世界的一个重要的组成部分,但并不是全部,我们要想去理解物理世界,我们要想让一个终端或者一个机器人能够在物理世界和数字世界里运行,其实要做的工作还有非常多。我觉得这个其实是让我们也更加坚信,这条路走下去是对的。
2. 那你有变成一个更智能的李想吗?
我觉得没有那么大的变化。如果从实际的角度而言,人工智能发展这么好,但我每天工作时间并没有减少,还是在增加。
3. 是啊,这是为什么?
大部分人在使用,或者说我见到的几乎所有人,其实还是在把它当成一个信息工具来使用。那如果是信息工具的话,其实AI作为一个信息工具不是完美的,因为它最后一定要给你个next token(下个词元),一定要给你一个结果。而且大家今天使用的时候会先点上联网搜索,先去通过Rag(检索增强生成)联网搜索一些索引信息。但往往其实索引的信息源,就已经失真和不准确了,所以最后推理的过程,(虽然)很认真地在做推理,但是你明显都看到这个过程和结果已经开始有问题了。所以某种程度而言,如果我们不对这套机制进行一个改造的话,它某种程度仍然是在做熵增,在增加大量的无效信息、无效结果、无效结论。
我觉得这是一个很大的挑战,我就在思考一个问题,还是要站在真正用户价值的角度,如果大家在拼命地使用AI,大家在为AI做投资,但是我的工作时长并没有减少,我的工作结果也没有变好,那这个问题到底在哪里?所以这也是过去几个月我跟很多人在聊,在思考,我们内部在讨论非常多的一个问题。我觉得很多时候不要把东西缠绕到一起,我们可以先做一个分类,因为人类历史上也会有类似这些的分类。今天,通过一个对话的方式,无论文本多么长,其实它都是个信息工具,我觉得信息工具对大家而言更重要的其实是参考作用。
再往下,AI变好了以后,它会变成一些辅助工具。比如我们今天做的辅助驾驶,大家在车上用人工智能的语音方式来进行导航,来查找美团,来调取音乐,它会让我们的效率更高,但它仍然离不开我们。所以这时候,这种角色比较像什么呢?它确实比原来的使用体验会更好了,但它是个辅助的一个工具。
我觉得什么时候才能真正改变我们的工作的成果以及减少我们的工作时长,我觉得它必须变成生产工具。我自己认为Agent(智能体)最重要的评判条件是它是否是个生产工具、它是否真正能替代我去完成专业的工作、它是否真的在产生有效的生产力、它是否真的在解决我工作中那最重要的8小时的时间。对,我觉得这个是我接下来对Agent(智能体)最重要的衡量,也是我觉得Agent(智能体)的意义所在。
4. 这是你对于工具的三个分级,信息工具、辅助工具和生产工具。
对,我觉得人工智能变成生产工具,然后才是真正人工智能爆发的时刻。
5. 所以最过去130天其实最大的变化是外部的环境。
对,国际环境在发生重大的变化。然后技术也在发生变化,但技术最大的变化还是中国在人工智能方面带来的变化。美国的变化反而没那么大。
6. 你从DeepSeek身上学到了什么?
我觉得DeepSeek我能学到最好的一个方式是DeepSeek运用了人类的最佳实践,它极简的运用了人的最佳实践。比如说其实他在做DeepSeek V3的时候,其实V3是一个MoE(混合专家模型)的,671B的一个模型。我觉得MoE(混合专家模型)是个非常好的架构。它相当于把一堆专家组合在一起,然后每一个是一个专家能力。它做这个专家能力是怎么来构建的?其实挺明显的,就当我们想去构建能力的时候,DeepSeek给你展示了一个最佳实践,第一步一定要先搞研究。我觉得这是非常重要的。就是任何的时候,当我们想去改变能力和提升能力的时候,第一步一定是搞研究,搞完研究以后其实才搞研发。然后搞完研发以后,我觉得第三步是要把能力表达出来。然后第四步是能力变成业务的价值。
这四个步骤是个极简的人类最佳实践,但我们经常做着就忘掉了,看到什么东西就直接去启动研发,而没有去搞研究。我们自己也很受益,其实无论我们是在端到端和VLM(视觉语言模型)上,还是今天做VLA(视觉语言行动模型)的时候,我们的研究团队其实表现得非常好。
包括你可以看国外的像李飞飞,其实她在引用辅助驾驶的时候,也经常会引用我们的关于辅助驾驶方面的这些研究的论文。那我觉得这个其实挺重要。那研究跑通了以后,研发效率会变得非常的高。但是研发又非常在意价值,他能够把价值表达出来,然后变成业务,那我觉得这是一个很重要的过程。
7. 我很好奇在就是DeepSeek全球爆火的时候,你这个春节是怎么过的?
春节过得挺好的,还带着孩子去看哪吒2。那其实我印象应该是1月20号然后DeepSeek R1上线的,然后到后边开源,我们也在对DeepSeek做了很多的这个整个的研究,就是我们也在研究DeepSeek很多东西为什么做得好。包括整个的训练和推理的效率,也包括这些一个MoE(混合专家模型)模型部署上去对内存占用的这些挑战。
其实我们自己已经开始在芯片上来写FP8(8 位浮点数格式)的整个的工程的优化了。因为我们自己有编译团队。那比较有意思的一点是,我没有上来敢跟模型团队直接聊,我先跟谢炎(理想汽车CTO)聊了一下,我说我们本身要做VLA(视觉语言行动模型),然后VLA一个很重要的计划是到今年的这个9月份的时候能够做一个非常好的语言模型出来,才能再往下去训练VLA(视觉语言行动模型)。
但是今天看的话说我们自己预测的我们到9月份做的模型,能力是否比DeepSeek V3加R1更强?我说至少我听到你们说的东西,我说不如那个强,对吧?而且它开源开得如此的彻底。然后我们是否应该基于它的开源,去做我们的 VLA(视觉语言行动模型)的L(language 语言)的部分,并且我们基于这个L(language 语言)的部分,比如说其实我在理想同学用的话可能就是个VL(视觉和语言),它没有A(action 行动),对吧?就把vision(视觉)和language(语言)其实放在一起,包括要做成端到端的,然后语音的这样的一个方式。
我觉得我们原来本来应该是9月份以后才能做这些工作,我们是否应该站在巨人的肩膀上就去做了?然后谢炎(理想汽车CTO)说肯定应该这么做。
那时候我们比较担心陈伟(理想汽车基座模型负责人)会怎么想,对吧?因为这个压力是挺大的。然后我们发现陈伟比我们还坚决。他说这个会加速我们往下一步的这个工作,我们应该以这个为基础,加速VLA(视觉语言行动模型),加速端到端的多模态这样的一个进展,然后研究团队也都在研究我们如何在芯片上也跑到同样的训练和推理的效率,大家都在同步地进行工作。
我跟谢炎(理想汽车CTO)打的最多的电话,我们还有一个专门的人工智能的战略小组,我们就在里边不停地聊,发现大家并不纠结,因为我们知道我们家企业的基因,还是要为用户推出最好的产品和服务。
整个拥抱DeepSeek的这个过程比我们想象得要快,所以这是今天其实我们VLA(视觉语言行动模型)推出的速度也会比原来的预期的要快。
8. 你怎么看梁文锋(DeepSeek创始人)啊?你觉得他是怎么找到你说的这个人类最佳实践呢?
我只跟他聊过一次,是去年的9月份,印象特别深,应该是ChatGPT的o1发布前的几天。我自己个人感觉,两个特点,第一他是个特别自律的人。明显你跟他沟通的过程中其实能够看到,第二个是我个人认为其实他是会在全世界范围之内去研究和学习最佳实践和最好的方法论的这样一个人。
9. 怎么理解自律?
我觉得自律的最大特点就是能够坚守这些你相信的东西,能够坚守这些最佳实践,能跟人性的一些懒惰、走捷径,这些方面做对抗。
我觉得让我们更加敬佩他,包括我们的开源。我觉得DeepSeek的出现对我们加速做VLA(视觉语言行动模型)是巨大的帮助。过去我们打算要到今年年底才能做出一个像样的,能够满足我们需求的语言模型,但DeepSeek一开源,我们就加速了9个月的时间,所以给我们带来了巨大的收益和帮助,我们受到了那么大的帮助,所以我们在想我们能对社会做点什么贡献,所以我们就把自研的整车操作系统理想星环OS给开源了。没有大家想的那么复杂,我自己内心,包括谢炎(理想汽车CTO)的内心就是DeepSeek给我们带来那么大的帮助,我们应该给对社会贡献点什么。不让行业那么卷。说白了纯粹是感谢DeepSeek。
10. 自研了四年吗?
对,那真的是做得好,明显得好。如果你做的不好的东西出去开源不就丢人吗?
11. 所以这是一种情怀,而不是一个公司战略,对吗?
不是公司战略。
12. 这很有意思。 DeepSeek感觉带来了更多的善良和善意。
是的。
13. 你有没有想过DeepSeek为什么不是你做的?
我觉得我只能做最好的自己。我的人生经历,我进入了汽车行业,我做汽车的网站,我其实一直在自己的长板的延长线上继续来做。从最开始做个人网站,到做产品的IT网站,到做汽车网站,最后希望能够改变汽车行业,推出更好的产品,汽车叠加下一代的信息技术。这个其实是我的一个延长线。他(梁文锋 DeepSeek创始人)的延长线其实就是从人工智能开始的,他在浙大学的就是人工智能,那是他的延长线,本身我也相信,量化交易的公司,对于整个模型的能力,对模型的理解,对于本身工程的能力,不会比任何互联网公司差,甚至可能还要更强。
14. 在春节之后很多人都来问我这个问题,就说理想还做基座模型。既然都有DeepSeek,为什么还要做基座模型?
因为我们的业务,意味着其实我们并不是说只是做好语言模型就够了,我们车上其实要有对话,然后又有多模态,那这个仍然其实需要我们自己去训练一个根据我们自己需要的一个基座模型,包括我要去做VLA(视觉语言行动模型),因为这个VLA里边,哪怕V(vision 视觉)和L(language 语言)都和正常的是不一样的,就是这个我需要3D的vision(视觉),还有高清的2D的vision(视觉)的,然后token(词元)要用预训练,必须得涉及到更专业的车领域的语义语料,交通领域的语义语料,我们面向的家庭用户的语义语料,然后来做训练,还有也包含其实还有很多的时候,一个重要的是说大家在做VLA(视觉语言行动模型)训练的时候,很多时候在做基座的时候说我要把VL(视觉和语言)也要连在一起,然后把VL(视觉和语言)的组合语料放进去,那这些无论是OpenAI还是DeepSeek,它都没有这样的数据,它也没有这样的场景和需求,也不去解决这样的问题,那只能我自己来做了。只是好处是说VLA(视觉语言行动模型)里边的这个language(语言),我可以站在巨人的肩膀上,但是它只是我其中的一部分。
15. 所以一方面是拥抱了DeepSeek,另一方面你们把基座模型的团队还拆出去了,并且加大了投入,是吗?
我觉得首先训练卡比他们今年的预期我们应该多买了3倍。
16. 你要训多大的模型?
并不是一个固定的,就是我们现在的话,做出来的一个不同的版本,比如说我们给理想同学用的,会是一个300B的模型,就大概是个3000亿(参数)的一个模型,我们给辅助驾驶运用的VLA(视觉语言行动模型)的,其实VL(视觉和语言)的部分,是个32B的模型。那包含其实我们真正工作中用的也会去用那个3000亿的这个模型,就大概现在是这样的两个版本。
17. 你现在觉得给基座模型打多少分?你希望2025年提升到多少?
结果还没呈现呢。这才几月啊?我觉得没有什么捷径,我觉得还是我认为其实虽然我们借用了一些能力,但是你没有办法直接去吃第十个包子。如果你规则算法都做不好,你根本不知道怎么去做端到端,如果你端到端没有做到一个非常极致的水平,你连VLA(视觉语言行动模型)怎么去训练都不知道。
18. 那今年2月5号,也就是春节之后,你们的第一个AI的例会,你说DeepSeek更像是Linux推出,而你们要去追逐安卓时刻,你们准备怎么去争夺安卓时刻?
这个东西是一个比喻,比如说安卓其实是基于Linux开发出来的一个手机操作系统。那我们以语言作为基础,我们的VLA(视觉语言行动模型)就是把vision(视觉)这部分做成最强的,然后把action(行动)也做好,然后借助了L(language),就是语言的这个能力。那其实我觉得VLA(视觉语言行动模型)就比较像在汽车或者交通领域的更重要的一个大模型或者操作系统,我觉得这是我们的机会所在。
19. 我们来聊聊你们最近在做的VLA(视觉语言行动模型)的架构。今天的辅助驾驶其实走到了一个新的十字路口上,有的人说甚至觉得辅助驾驶应该被叫停。你怎么想?
我觉着我们这么多年,从规则算法,做到了端到端+VLM,然后今天真正的迈入到了VLA(视觉语言行动模型)的阶段,我觉得比较像什么?比较像黎明前的黑暗吧。我觉得黎明马上就要来了。但是会先经历一个黑暗的过程,之所以有黑暗是因为要迎来黎明。我觉得这是今天这么一个阶段。
正因为辅助驾驶行业遇到了问题,我最喜欢、最开心的方式,就是去解决行业解决不了的问题,我觉得这是我们自己坚决相信的。就跟我们推出增程,就是为了解决电池成本高、充电难的问题。我们推出5C也是为了解决充电慢、等待时间长这样的问题。我们愿意去解决各种行业遇到的问题,包括我们做操作系统,也是因为过去的时候,传统的那种车控和智控的操作系统性能差,开发缓慢,芯片匹配周期长的这些问题。我觉得这些问题(存在)恰恰是我们的价值所在。
20. 为什么人类一定需要辅助驾驶呢?为什么科技不能就此止步呢?
只要人类会雇佣专业司机。我觉得人工智能技术其实就是把类似这样的一些功能和角色,去变成真正的生产力、生产工具,然后去进行替代。
21. 什么是VLA(视觉语言行动模型)?你能从用户语言来讲,不要用技术语言。
我觉得VLA(视觉语言行动模型)我们定义的一个方式是叫,因为VLA(视觉语言行动模型)机器人领域也在讲,对于我们理想汽车而言,VLA是一个司机大模型,像人类的司机一样去工作的一个模型。那我觉得到达VLA(司机大模型)它不是一个突变的过程,其实它是一个进化的过程。
经历了三个阶段。我觉得第一个阶段是我们从2021年开始,通过机器学习的感知,配合后边的规则算法,包括规划、控制、执行这些规则算法分段式的。我觉得第一个阶段比较像什么?比较像昆虫动物的智能。它有既定的规则,还要依赖于高精地图,就比较像蚂蚁的行动和完成任务的一个方式。
22. 它能理解的世界也很有限。
非常之有限,我觉得这是第一个阶段,而且效率比较低,也是个很麻烦的事情。它(规则算法)就这样一个规模的脑子,包括它的整个模型规模大概就只有几百万的一个参数,它就那么小的一个脑子,你让它去完成复杂的事情,几乎不可能的。所以你就不停地限定、限定,几乎把它做成了一个有轨交通的方式。这跟蚂蚁非常相似。
第二个阶段就是我们从2023年开始搞研究,2024年推出的端到端。端到端比较像什么呢?端到端比较像哺动物的智能,比如像马戏团里的一些动物,向人类学习怎么骑自行车。它学了人类的这些行为,人类怎么去做出各种的行为的开车。但是它对物理世界并不理解,它只是看到了一个什么样的三维的图像,知道自身的速度,并给出了一个什么样的轨迹,所以它应付大部分的泛化是没有问题的,去面对它从来没有学到的、特别复杂的,其实就会遇到问题。所以这时候我们也会配合,视觉语言模型 VLM,然后放进来。但是我们能够用到的视觉语言模型这些开源的,用在交通上的能力都非常的有限,所以只能起到一些非常有限的辅助的一个作用。我觉得第二个阶段就是哺乳动物智能运作的一个方式。
我觉得到了VLA(司机大模型),就是完全人类的运作方式了。它会像人类一样的,用3D的vision(视觉)和2D的组合,去看整个真实的物理世界,也包含它能够去看懂导航软件,这样的软件是怎么在运行的,而不是像VLM(视觉语言模型)那样只能看到一张图片。另外一方面,它有自己的整个脑系统,不但要看到物理世界,还能够理解这个物理世界。它有它的language(语言),然后它也有它的CoT(思维链),有推理的一个能力。我觉得第三个,它能够像人类一样的,真正地去执行这样的行动。我觉得这个其实是VLA(视觉语言行动模型)产生的一个,放在我们的汽车,辅助驾驶领域,我们把它称之为VLA的司机大模型。
23. 你也可以讲讲VLA(司机大模型)这三个它的关系是什么,以及怎么训的。
我还是讲一下怎么训的,并把这个关系表达清楚了。我觉得第一个其实是训练的环节。训练环节第一个部分是什么呢?要训出来一个VL(视觉和语言)的基座,就vision(视觉)和language(语言)的基座。我们目前在训的,当前的这个版本,是一个32B的,就是320亿云端的一个基座模型,所以先训这个。这里边的话,跟过去的时候这些语言模型的差异在于什么呢?第一在于我要放入更多vision(视觉)的语料,放入vision(视觉)的token(词元)。vision(视觉) 里面包含两个部分,一部分是 3D上的vision(视觉),物理世界 3D 的 vision(视觉) 要放进去,第二个是高清的、2D的vision(视觉)。因为今天的话,大家看到各种多模态的开源 VLM(视觉语言模型) 里边,它整个 2D vision(视觉)的清晰度太低,所以看的距离不够。那我们放进去的基本上图像分辨率提升了10倍。我觉得这是非常之重要的。这是一个部分,是vision(视觉)的token(词元)和语料。
第二个是要放入language(语言),跟交通、驾驶相关的足够多的这方面的语料。这是language(语言)的部分。
第三个还有一个很重要的,是大家可能容易忽略的,就我们必须放入很多VL(视觉和语言)联合的语料,就是三维图像和对世界的理解语义要同时产生的。比如我举一个例子,我要把导航的地图和车辆对导航地图的理解一起放进去。
25. 这是你们自己的?
比如我要放入一个,看到导航以后人类做了一个什么判断,然后这个判断我们的车辆是怎么记录的。把这个语料放进去。其实整个 VL (视觉和语言)基座模型训练的时候,包含了三个部分,数据是vision(视觉)的数据,language(语言)的数据和VL(视觉和语言)联合的数据。然后它形成一个VL(视觉和语言)的一个基座。同时我要把这个基座干什么呢?我要蒸馏下来,然后变成一个 3.2B 端侧的蒸馏模型。因为我要保证它运行速度足够得快,然后无论是两个Orin-X还是Thor-U上能够流畅地运行。蒸馏下来是一个3.2B,8个专家组成的MoE(混合专家模型)模型。如果直接跑3.2B一个完整模型的话,双Orin-X和Thor-U的帧率是达不到的,token(词元)的整个输出率是达不到的这是第一个步骤,这是预训练的环节。
第二个步骤是什么?第二个步骤是做后训练。后训练是什么呢?后训练其实是我把它变成VLA(司机大模型)。我要把action(行动)放进来。action(行动)的部分后训练什么呢?其实仍然是一种模仿学习。特别像你去驾校学开车,就相当于我训练VLA(司机大模型),把它组合成一个VLA(司机大模型)的端到端的一个方式,这是第二个部分。这个时候大概模型规模就会从3.2B大概扩大到接近4B,大概这么一个规模。
同时,它一方面是个VLA(司机大模型),能够直接从视觉,到理解,到最后的输出。但是我们的CoT(思维链)就会很短,我不会做超长的CoT(思维链),我的CoT(思维链)链条一般两步到三步,我不会再做更多的,否则延时太长,没有办法满足交通或者机器人的安全。另外当我 action(行动)做完以后,我还会做一个diffusion(扩散模型)的预测,就是下边会发生什么样的时长的一个场景。这个主要根据性能会做出来4到8秒的一个diffusion(扩散模型)的轨迹和环境的预测。我觉得这是第二个部分,比较像人去驾校学开车这样的一个环节。
第三个部分是什么?是强化,是要做强化的训练,比较像人到社会上开车了。所以强化我们分成两个部分,第一个部分先做RLHF(基于人类反馈的强化学习学习),带有人类反馈的,所以我们有很多人类数据。就是当它这样的话,人类就会接管,当它那样的话,人类不会接管。包括人类的一些习惯,所以拿这块来做一个带有人类反馈的强化训练。包括我们安全的对齐都是在这个强化的环节完成的,你除了要遵守交通规则以外,你要遵守比如中国的,大家的驾驶习惯。你的开车习惯能够融入社会,首先要开得跟整个社会环境上的大家一样好,不能给别人带来麻烦,对吧?而不是个新手在路上的时候,你变成一个阻碍。第二个部分是纯粹的RL(强化学习),是(拿RL模型放到)我们的世界模型来做训练。这块儿的目的什么呢?就是开得比人类更好。这块儿的话,我们中间不会给人类的反馈,只会给一个结果,就是从a点到b点要开过去。但是会有三类的训练要求,第一个是我们可以通过G 值(加速度数值)来判断它的舒适性,给舒适性的反馈。第二个是做碰撞的反馈,它碰撞了这个强化就没有完成。第三个是交通规则的反馈,如果它违反交通规则就没有完成。所以是舒适、交通规则和碰撞事故,让它自己来做整个强化的训练。当这三个步骤完成了以后,VLA(司机大模型)能够跑在车端的模型其实就产生了。
大概是这么一个方式。跟人非常像,先学习世界、交通和人类的这些知识,这是预训练的环节。后训练的环节相当于去驾校,认真地去学开车。第三个环节相当于到社会上来开车,也是我们训练的一个过程,要通过人类的RLHF(基于人类反馈的强化学习学习)跟人类做对齐,然后跟社会的环境来对齐。另外一方面,通过纯RL(强化学习)的强化,以及我们自己在世界模型里生成的数据拿它做强化训练,从而开得比人类更好,能够解决更复杂的问题,或者说,比人类的平均值要好得多,大概是这么一个过程。
这还没有完,这时有了VLA(司机大模型)。但人类是怎么跟VLA(司机大模型)工作的时候,其实我要搭建一个司机的Agent(智能体)。司机的Agent(智能体)是什么呢?是人类以自然语言的方式,就是你跟一个司机怎么说话,你跟一个正常的驾驶员,假设你有男朋友,你男朋友在开车,你怎么跟他说,你就怎么跟司机Agent来说。或者一个代驾,你怎么跟他说就说了。这里边的话,如果是一些短指令,通用的短指令VLA(司机大模型)直接就处理了,不需要再经过云端。如果是一些复杂的指令,其实先要到云端的 32B那里,VL(视觉和语言)处理完以后,(因为它理解交通的一切) ,整个交给VLA(司机大模型)来进行处理,大概这么运行的一个过程。
说白了它最后的一个好处是说它能够像人类司机一样去理解物理世界,能够像人类司机一样去开车,去处理复杂的问题,也能像人类司机一样跟其他人类进行沟通。这是最后我们交付到用户那里的产品。(编译/汽车之家 秦超)
盖世汽车
2025-05-08
快科技
2025-05-08
汽车之家
2025-05-08
快科技
2025-05-08
汽车之家
2025-05-08
盖世汽车
2025-05-08
证券之星资讯
2025-05-08
证券之星资讯
2025-05-07
证券之星资讯
2025-05-07
询价信息已提交