来源:21世纪经济报道
媒体
2025-12-22 21:04:09
(原标题:地平线吕鹏:端到端是基石,做不好端到端就做不好VLA)
21世纪经济报道记者 易思琳
今年前三个季度,国内20万元以上乘用车市场份额占比30%,13万元以下市场份额则高达50%,但后者多数车型尚未配备城区辅助驾驶功能。这一广阔的蓝海市场,正吸引着地平线、Momenta等智驾厂商加速布局,全力抢占市场先机。
今年4月,地平线正式推出基于征程6系列芯片的城区辅助驾驶解决方案——HSD(Horizon SuperDrive)。尽管并非该赛道的先行者,但地平线已快速迈入大规模量产阶段。11月,随着星途ET5正式上市,地平线的HSD解决方案同步实现量产;另一款搭载该方案的车型深蓝L06也于同期发售。两款车型上市短短两周后,地平线HSD的激活量便突破12000辆,量产落地成效显著。
除了推出全新的解决方案,地平线还通过生态拓展加速市场渗透。12月初的地平线技术生态大会上,公司公布了两大生态推进举措:一是拓展生态合作模式,新增算法服务模式“HSD Together”,并已与日本电装、大众的合资公司CARIZON(酷睿程)、HCT(智驾大陆)达成合作;二是引入更多生态合作伙伴,元戎启行、卓驭等企业已加入其生态体系。
缺乏芯片研发能力的算法公司、软硬研发实力薄弱的车企,正纷纷向地平线聚拢。地平线接下来的目标,是让城区辅助驾驶功能下沉至10万元国民车型,实现技术普惠,并计划在未来3-5年内达成千万级量产规模。
地平线敢于定下这一目标,底气源于其在智驾端到端方案上的长期坚守与深耕。据地平线工程师透露,公司自2024年底便集中力量主攻端到端技术,90%的研发人力均投入到该方案的研发与量产落地工作中。
WA/VLA皆需端到端支撑
《21汽车·一见Auto》:地平线是目前行业内少数坚定选择端到端路线的厂商。现在市面上的智驾方案非常多,有很多公司已经开始选择做VLA,也有一些公司像地平线一样深耕端到端。在外界环境不断变化的背景下,地平线为何坚信自己能把端到端做好?
吕鹏:核心底气来自地平线过去丰富的技术积累。最早的端到端其实是地平线的uni AD,当时获得CVPR的最佳论文,那是我们最早基于Transformer提出的端到端架构。现在不管是VLA还是World Model,本质上来说是没有冲突的,因为所有的东西都建立在要有一个非常完整的端到端底座。本身的技术架构都是端到端,在这里面,你是否要引入新的模态?我们的判断是:如果端到端做得不够坚固,性能没有做得足够好,是很难去把更多新东西带进来解决这些问题的。
端到端,其实相当于是人的一个直觉模型。如果你的直觉模型不够完善,光靠思考推理去解决一些场景是很难的,而且这些思考推理反倒会带来一些新的问题。
我们的坚定,源于对技术逻辑的清晰认知,既要把每一步的技术做扎实,又要充分了解下一代技术的优势与短板,要在解决问题的同时把优势发挥到最大。而这一切的核心,在于软硬结合,用更好的硬件去支撑大算力,同时通过软硬协同的优化去释放出来更多的性能,真正在体验端为消费者带来收益,而不光是在一些名词上获得收益。
《21汽车·一见Auto》:地平线HSD的端到端版本,最核心的技术亮点是什么?这一技术方案的基座又是什么?
吕鹏:端到端往简单了说,是很好描述的,就是光子进,轨迹再输出。目前,地平线是除特斯拉之外,少数拥有真正意义上最完整的一段式端到端系统的企业。过去很多系统,虽然营销的词会讲端到端,但有很多都是两段式的端到端。
《21汽车·一见Auto》:什么是两段式端到端?
吕鹏:所谓两段式的端到端,并不是一个模型,而是一个感知的模型加上一个规控的模型。在规控的模型里,你会发现信息的传递是丢失的,因为这个模型的训练是靠感知白名单的检测结果去进行训练的。而真正的端到端,它其实有很多高维的feature是在模型里面进行无损的传递,信息量要更高,就像人开车一样,你可能不知道那个路口具体有多少人会离你多远,但你能凭借感觉很好地开过去,这种感觉就是一段式端到端才能提供的。
《21汽车·一见Auto》:为什么会有两段式的端到端存在?
吕鹏:一段式的端到端做得不够完善的话,它的输出轨迹有特别多的缺陷,这会导致模型没办法控车,怎么办呢?大家就退而求其次地去解模型,加上了一堆后处理,对横向、纵向的轨迹做修正。当你不断通过规则去做修正的时候,这些规则就会限制模型的上限,端到端模型的优势又发挥不出来,会有很强烈的横纵向割裂感。比如开车的时候,车可能突然横向打一把再加速,正常人不会这么开。
《21汽车·一见Auto》:如何分辨一段式和两段式端到端?
吕鹏:消费者不太需要关注这些名词。对于消费者角度来说,最直观的就是开车时他是否真的愿意在城市里去使用这个系统,有没有足够的安心?对于从业者来说,分辨起来其实没有那么复杂,主要看模型输出轨迹的连贯性和拟人性好不好,特别是交互情况下模型的整个动作是按照场景step by step的,还是行云流水的。这是一段式端到端中很重要的判断点。只有行云流水的时候,里面才没有太多的规则、行动比较一致,不会有场景的割裂感。
《21汽车·一见Auto》:此前体验地平线HSD的时候,有产品经理分享了一个非常小的tips——变道的时候,旁边有一个框出现的就是两段式,没有框的是一段式,能这样简单理解吗?
吕鹏:这种说法不算是特别(严谨)。这只是HMI上的显示问题,厂家不做显示,也能达到一样的结果。核心还是看是否连贯,以及能否控制车速。正常来说,你在一段式的端到端里面是没有办法设定到规定车速的,因为对于模型来说,你只能告诉他期望的车速是多少,它会朝着期望的车速去逼近,但未必会一定到那个车速。
《21汽车·一见Auto》:智驾的技术路线,不同的车企和供应商都给了不同的方案。理想、元戎启行选择了VLA,华为和小鹏选择去掉了“L(language)”的WA、VA模型,地平线怎么看不同的智驾路线之争?
吕鹏:不管是WA还是VLA都是基于端到端做的。没有端到端的基座,很难把一些新的模态做引入,也就没办法更好地提升产品性能。这才是基座的意义。其他东西都只是辅助性,比如language。模型一定不是以language为核心去做开发,而是把language作为辅助项,再结合端到端的基座,这样才符合我们人类开车的状态。
人开车的时候,95%以上的时间开得非常轻松的,你不会有太多的思考,只在极度一些复杂的场景下,会加入一些理解、思考和推理,这也就说明了在AI重构智能驾驶的情况下,instinct model(直觉模型)一定要做得足够好,这样才能在此基础上,加入一些语言或者其他辅助性的模型,才能更好的智能。
没有扎实的端到端,高阶智驾就是空中楼阁
《21汽车·一见Auto》:在未来更智能的端到端里,最关键的核心技术是什么?
吕鹏:随着产品性能越来越强,仿真闭环很关键。因为稀疏的场景是需要通过仿真去生成一些simulation和validation。随着端到端的不断成熟,遇到问题的场景会越来越稀疏。虽然新技术也会有帮助,但万变不离其宗。如果没有一个很好的端到端基座,其他都是空中楼阁。
《21汽车·一见Auto》:按照这个逻辑,未来最理想的智驾方案,是否在端到端的基础上叠加世界模型或者强化学习的模块?
吕鹏:直觉模型做得足够强,解决了95%甚至99%的场景,剩下的需要认知推理的场景再加上思维链的理解能力,这是比较理想化的状态。但是一切都要回归原点,也就是端到端场景下的直觉模型一定要先做得足够好,再把其他的东西进行提升。
《21汽车·一见Auto》:地平线内部是否有布局VLA或者下一代的智驾方案?作为智驾供应商,接下来的竞争核心应聚焦哪些领域?
吕鹏:核心还是要回归产品体验和安全性。现在我们没有必要太多关注于各种新名词和新概念,因为本质上都是端到端,最终还是要看智驾方案的体验够不够好,系统够不够安全,它有没有很好的市场认可度,这些才是最关键的。技术上,我们肯定会做好预研和储备。
《21汽车·一见Auto》:此前与一位智驾企业CEO交流时,他认为端到端更像是模仿学习,基于GPT架构的VLA,才是强化学习。但如果给端到端的基座去加一个世界模型,相当于是给纯电车加了一个涡轮增压,他认为没必要。你如何回应这一观点?
吕鹏:我觉得核心还是要看最终产品的收益是什么。少部分场景确实需要强化学习来解决,包括language这些维度的信息,最后一定是辅助项。所谓辅助项,不是说去解决复杂的思维链,而是帮助去训练模型。这么多摄像头的输入,最终输出只有一个踏板方向盘。如何把这个模型训好,这里面有巨大的难度。
《21汽车·一见Auto》:如果地平线下一代智驾方案包含VLA技术,是否会全盘抛弃当前的端到端技术?
吕鹏:当然不会。没有好的端到端,VLA一定做不好,这是基础。
21世纪经济报道
2025-12-22
财闻
2025-12-22
21世纪经济报道
2025-12-22
财闻
2025-12-22
智通财经
2025-12-22
和讯财经
2025-12-22
证券之星资讯
2025-12-22
证券之星资讯
2025-12-22
证券之星资讯
2025-12-22