|

财经

HBM,新大战

来源:半导体行业观察

2025-07-11 09:02:39

(原标题:HBM,新大战)

公众号记得加星标⭐️,第一时间看推送不会错过。

在AI模型参数量呈指数级增长的时代背景下,数据中心正经历一场从"算力至上"向"带宽驱动"的深刻变革。在这场算力架构革新的浪潮中,HBM(High Bandwidth Memory,高带宽存储器)正悄然崛起,成为支撑大模型计算的核心基础设施。

步入"后AI"时代,HBM已不仅仅是高性能AI芯片(如GPU、TPU)的标配组件,更演变为半导体巨头间激烈角逐的战略制高点。

无论是三星、SK海力士,还是美光,这些存储领域的领军企业都不约而同地将HBM视为未来营收增长的关键引擎。它们似乎达成了一个共识:要想在存储市场称霸,就必须率先掌握HBM这一核心技术。

那么,在这场没有硝烟的竞争中,都有哪些技术值得关注呢?让我们一起来深入分析分析。

定制化是唯一出路?

定制化可能是HBM的最终归宿之一。

事实上,早在两年多以前,HBM初步崭露头角之际,海力士和三星就讨论过定制化这一趋势,伴随着云巨头纷纷定制自己的AI芯片,对HBM的需求只增不减,定制化借此成为了必然需求之一。

而在去年8月,SK海力士副总裁柳成洙表示:“所有M7(Magnificent 7,指的是标准普尔500指数中的七大科技股:苹果、微软、谷歌Alphabet、亚马逊、Nvidia、Meta和特斯拉。)公司都来找我们,要求我们做定制HBM(高带宽内存)。”

而在今年6月,韩国媒体表示,SK海力士已同时锁定了英伟达、微软(MS)、博通(Broadcom)等有望成为定制HBM市场“重量级客户”的公司。其近期已与英伟达、微软、博通达成协议,将向其供应定制型HBM,并已开始根据各家公司的需求开展设计工作。

据悉,SK海力士是以其最大客户英伟达的供货计划为核心,优先确定其他客户名单。业内人士表示:“考虑到SK海力士的产能以及各大科技公司AI服务的推出时程,无法一口气满足M7全部客户的需求”,但也指出“考虑到HBM市场情况的变动,未来或将新增若干客户”。

SK海力士也在今年4月宣布,从第七代HBM(HBM4E)开始将转向定制化,其已和台积电展开合作。计划在HBM4基础裸片上采用台积电的先进逻辑(Logic)工艺,预计其首批定制HBM产品预计将于明年下半年问世,

值得一提的是,由于SK海力士成功拿下了多家重量级客户,其在下一代定制HBM市场中延续主导地位的可能性大大提升。根据TrendForce的数据,SK海力士目前在HBM市场的占有率约为50%,远超三星电子(30%)和美光(20%)。若仅看最新的HBM3E产品,SK海力士的市占率更是高达70%。

另一方面,三星电子也被曝正就定制HBM的供应问题与多家客户进行讨论。鉴于其近期已成功向全球第二大AI芯片厂商AMD供应HBM3E,业界预计其不久后也将拿下HBM4及定制HBM的客户。据称,目前三星已在就HBM4产品与博通、AMD等客户进行具体协商。

与两家韩国厂商相比,远在美国的美光显得迟钝了不少。今年6月,美光云内存业务部高级副总裁兼总经理 Raj Narasimhan 表示,HBM4 的生产计划将与客户的下一代 AI 平台准备情况紧密结合,以确保无缝集成和及时扩大产量以满足市场需求。

其表示,除了向主流客户提供最新的 HBM4 之外,客户还在寻求定制版本,下一代 HBM4E 的开发也正在进行中。与特定客户合作开发定制化的 HBM 解决方案,将进一步提升内存产品的价值。


这时候,可能很多人想问了,定制HBM都有哪些好处,为什么DRAM厂商和云巨头都趋之若鹜呢?

受限需要明确的是,定制化HBM(cHBM)的关键在于将基础芯片(base die)的功能集成进由SoC团队设计的逻辑芯片(logic die)中。这包括控制I/O接口、管理DRAM堆叠、以及承载用于诊断和维护的直接访问(DA)端口。

这一集成过程需要与DRAM厂商紧密合作,但它赋予SoC设计人员更大的灵活性和更强的对HBM核心芯片堆栈访问的控制能力。设计人员可以更紧密地集成内存与处理器芯片,并根据具体应用在功耗、性能与面积(PPA)之间进行优化。

SoC设计人员可以自由配置和实例化自己的HBM内存控制器,通过DFI2TSV桥接与HBM DRAM堆栈直接交互。逻辑芯片还可以集成增强功能,如可编程的高质量内建自测试(BIST)控制器、芯粒间适配器(D2D adapter)以及高速接口(如通用芯粒互连标准 UCIe),从而实现与处理器芯片在完整3D堆栈中的通信。由于该芯片使用逻辑制程而非DRAM制程制造,因此可以复用现有设计。

而定制HBM的一个重要优势在于显著减少中介层(interposer)在数据路径中引入的延迟,降低相关的功耗与性能损失。它通过复用现有的高速裸芯片互连(如UCIe),有效地将内存与处理器芯片距离拉近。这种灵活性可应用于多种场景,比如云服务提供商用于边缘AI应用,对成本和功耗要求极高的场合,以及用于复杂AI/机器学习计算场景,追求最大容量和吞吐率的系统等。

不过,定制HBM目前也面临着一些挑战,其整个理念仍属新兴,技术也处于早期发展阶段。如同所有创新一样,前路必然伴随挑战。将基础芯片功能集成至逻辑芯片意味着终端用户需从芯片生命周期管理(SLM)的视角考量整个生命周期——从设计、试产、量产,到现场应用。例如,在晶圆级HBM芯片堆叠后,DRAM单元缺陷的筛查责任将落到终端用户身上。这带来了一些问题,比如用户该如何处理供应商推荐的特定DRAM算法?以及用户能否在计划性停机期间,进行全面的HBM现场测试与诊断?

目前来看,要成功部署定制HBM,需要一个完整的生态系统,汇集IP提供商、DRAM厂商、SoC设计方以及ATE(自动测试设备)公司。例如,由于互连数量多、密度高,传统ATE已无法用于定制HBM测试。

总而言之,定制HBM已经成为一大趋势,不论厂商是否喜欢,它都将在HBM4标准中占据相当重要的地位。

混合键合,绕不开的技术难题?

除了定制化外,混合键合(Hybrid Bonding)也是未来HBM重要的发展方向之一。

目前,随着堆叠层数的不断增加,传统焊接技术面临显著的挑战。目前所使用的助焊剂(Flux)虽能去除金属表面氧化物并促进焊料流动,但其残留物会引发堆叠间隙增大、热应力集中等问题,尤其在高带宽内存(HBM)等精密封装领域,这一矛盾更为突出。

而包括三星、SK海力士甚至是美光,都在考虑在下一代HBM中采用混合键合技术。


先来了解一下目前HBM芯片的键合技术。在传统的倒装芯片键合中,芯片被“翻转”,以便其焊料凸块(也称为 C4 凸块)与半导体基板上的接合焊盘对齐。整个组件被放置在回流炉中,并根据焊料材料均匀加热至 200ºC-250ºC 左右。焊料凸块熔化,在接合和基板之间形成电气互连。

随着互连密度的增加和间距缩小到 50µm 以下,倒装芯片工艺面临一些挑战。由于整个芯片封装都放入烤箱中,芯片和基板会因热量而以不同的速率膨胀(即不同的热膨胀系数,CTE),从而产生变形,导致互连出现故障。然后,熔融焊料会扩散到其指定区域之外。

这种现象称为焊料桥接,会导致相邻焊盘之间出现不必要的电连接,并可能造成短路,从而导致芯片出现缺陷。这就是TCB(Thermal Compression Bonding 热压键合)工艺发挥作用的地方,因为它可以解决间距缩小到某个点以下时倒装芯片工艺出现的问题。

TCB的优势在于,热量是通过加热工具头局部施加到互连点上,而不是在回流焊炉(倒装芯片)中均匀施加。这样可以减少向基板的热量传递,从而降低热应力和 CTE 挑战,实现更强大的互连。对芯片施加压力以提高粘合质量并实现更好的互连。典型的工艺温度范围在 150ºC-300ºC 之间,压力水平在 10-200MPa 之间。

TCB 允许的接触密度比倒装芯片更高,在某些情况下每平方毫米可达到 10,000 个接触点,但更高精度的主要缺点是吞吐量较低。虽然倒装芯片机每小时可以达到超过 10,000 个芯片的吞吐量,但 TCB 的吞吐量则在 1,000-3,000 个芯片的范围内。

标准的 TCB 工艺还需要使用助焊剂。在加热过程中,铜可能会氧化并导致互连故障,助焊剂是一种用于去除铜氧化物的涂层。但当互连间距缩小到 10µm 以上时,助焊剂会变得更难清除,并会留下粘性残留物,这会导致互连发生微小变形,从而造成腐蚀和短路。

无助焊剂键合技术(Fluxless Bonding)由此应运而生,但无助焊剂键合技术只能进一步缩小间距尺寸至20μm,最大可达10μm,仅能作为过渡技术来使用,而当I/O间距小于10μm时,就需要用到混合键合技术了。

混合键合技术通过铜与铜的直接连接(copper-to-copper bonding),实现DRAM芯片堆叠,无需传统的凸点(bump)结构,这种方式不仅能显著缩小芯片尺寸,还能将能效与整体性能提升一倍以上。

据业内人士透露,截至5月7日,三星电子与SK海力士正推进将混合键合技术用于其下一代HBM产品的量产。预计三星最快将于明年在HBM4(第六代HBM)中采用该技术,而SK海力士则可能在第七代产品HBM4E中率先引入。

当前的第五代HBM——HBM3E仍使用热压键合技术,在芯片间通过加热加压及凸点连接方式进行固定堆叠。三星主要从其子公司SEMES以及日本新川电机(SHINKAWA)采购TC设备,SK海力士则依赖韩美半导体和韩华半导体。而向英伟达提供HBM的美国美光(Micron)也采购韩美和新川的设备。

随着混合键合市场的初步开启,该技术有望引发半导体设备领域的一场重大洗牌。一旦成功导入,混合键合将可能成为未来HBM堆叠的主流工艺。

为抢占先机,美国的应用材料公司已收购全球唯一具备混合键合先进设备量产能力的企业——荷兰Besi公司9%的股份,并率先将其混合键合设备导入系统级半导体市场,抢占应用先机。

与此同时,韩美半导体与韩华半导体也在加速研发下一代芯片堆叠设备,这两家韩国厂商不仅在迅速推进混合键合设备研发,还在积极开发无助焊剂键合设备,以此来增强市场竞争力。

如果说定制化HBM是DRAM厂商和云巨头间的角力的话,那么混合键合就是DRAM厂商与键合设备厂商之间的对弈,伴随着HBM在今年下半年正式迈入HBM4时代,混合键合所受到的关注度可能会进一步提高。

还有哪些新技术?

值得一提的是,在今年6月,韩国国家级研究机构——韩国科学技术院(KAIST)发布了一份长达371页的研究论文,系统性地描绘了HBM技术从HBM4一路发展到HBM8的演进路径。内容涵盖带宽、容量、I/O接口宽度、热设计等方面的提升,以及封装方式、3D堆叠结构、嵌入式NAND存储的内存中心架构,甚至包括基于机器学习的功耗控制方法。

值得强调的是,这份文档并非商业公司发布的产品路线图,而是基于目前产业趋势和科研进展,对未来HBM技术潜在演变的学术预测,但它也足以让我们一窥未来HBM的可能发展方向。


先来看下HBM4至HBM8的各代产品技术特色:

HBM4:定制化设计的先锋

HBM4作为新一代HBM技术的开端,最大的创新在于定制化基础裸片设计。通过集成NMC(近存计算)处理器和LPDDR控制器,HBM4实现了对HBM和LPDDR的直接访问,无需CPU介入。这一设计显著减少了数据传输延迟,提升了整体系统效率。

HBM4支持多种灵活的数据传输模式,包括GPU与HBM的直接读写、HBM与LPDDR间的数据迁移,以及GPU通过HBM间接访问LPDDR。双命令执行能力的引入进一步提升了多任务处理效率,为复杂的AI工作负载提供了有力支撑。

HBM5:3D近存计算的突破

HBM5将3D近存计算技术推向新的高度。通过集成NMC处理器裸片和缓存裸片,并采用专用TSV互连和电源网络,HBM5实现了高能效的计算架构。分布式电源/接地和热TSV阵列的引入有效降低了IR压降,提高了散热效率。

特别值得关注的是,HBM5开始引入AI设计代理优化技术,通过智能算法优化TSV布局和去耦电容放置,显著减少了电源噪声诱导抖动(PSIJ)。这一创新不仅提升了系统稳定性,还为后续产品的智能化设计奠定了基础。

HBM6:多塔架构的创新

HBM6的最大亮点是四塔(Quad-Tower)架构的引入。四个DRAM堆叠共享一个基础裸片,通过8,096个I/O通道实现8 TB/s的惊人带宽。这一架构设计不仅提升了带宽性能,还通过资源共享提高了成本效益。

L3缓存的集成是HBM6的另一个重要创新。通过减少对HBM的直接访问需求,L3缓存显著提升了LLM推理性能。实测数据显示,HBM6的L3缓存嵌入使HBM访问减少73%,延迟降低87.3%。交叉开关网络的引入实现了HBM集群互连,优化了高吞吐量、低延迟的LLM推理性能。

HBM7:混合存储生态

HBM7构建了一个完整的混合存储生态系统。通过集成高带宽闪存(HBF),形成HBM-HBF存储网络,总容量达到17.6 TB,能够满足大规模AI推理的存储需求。与3D堆叠LPDDR的结合进一步扩展了存储层次,在玻璃中介层上实现了4096 GB/s的互连带宽。

嵌入式冷却结构的全面应用是HBM7的重要特征。通过热传输线和流体TSV技术,实现了从芯片到冷却流体的高效热传递。LLM辅助的交互式强化学习(IRL)技术的引入,使得去耦电容放置和PSIJ优化更加智能化和精准化。

HBM8:全3D集成时代

HBM8代表了HBM技术的巅峰,实现了真正的全3D集成和HBM中心计算。双面中介层设计支持GPU-HBM-HBM、GPU-HBM-HBF和GPU-HBM-LPDDR等多种3D扩展架构,为不同应用场景提供了灵活的配置选择。

全3D GPU-HBM集成架构是HBM8的核心创新,GPU位于存储堆叠顶层,不仅有利于散热,还实现了存储与计算的无缝融合。AI设计代理的全面应用使得3D布局和布线优化更加智能化,考虑了热-信号完整性的协同优化。

从整体发展趋势来看,HBM技术的演进呈现出明显的量级跃升特征。在带宽方面,从HBM4的2.0 TB/s到HBM8的64 TB/s,实现了32倍的惊人增长。这一突破主要通过两个维度实现:一是I/O数量的大幅增加,从2,048个增至16,384个;二是数据速率的稳步提升,从8 Gbps增长至32 Gbps。

而在容量扩展方面,单模块容量从HBM4的48 GB提升至HBM8的240 GB,这一提升通过增加堆叠层数和单裸片容量共同实现。同时,功耗从75W逐步增长至180W,虽然功耗有所上升,但考虑到性能的大幅提升,整体能效比仍有显著改善。

关键技术创新路径

HBM技术演进的另一个显著特征是3D集成技术的持续突破。从HBM4开始,技术路线逐步从传统的微凸点键合过渡到无凸点Cu-Cu直接键合技术。这一转变不仅显著减少了接触电阻,还大幅提高了互连密度,为后续的高密度3D堆叠奠定了基础。

TSV(硅通孔)技术作为3D集成的核心,实现了垂直堆叠裸片间的高效电气连接。通过缩短互连长度,TSV技术有效降低了RC延迟和功耗,为高带宽数据传输提供了硬件保障。到HBM8阶段,同轴TSV技术的引入进一步提升了信号完整性,支持32 Gbps的高速数据传输。

中介层技术的发展同样令人瞩目。从单一的硅中介层发展到硅-玻璃混合中介层,这一创新突破了纯硅中介层的尺寸限制,同时保持了优异的信号完整性。混合中介层技术结合了硅中介层的高带宽特性和玻璃中介层的大尺寸扩展能力,为复杂的多塔架构提供了技术支撑。

值得关注的是,随着HBM性能的不断提升,散热问题成为制约技术发展的关键瓶颈。HBM技术路线图展现了一条清晰的冷却技术演进路径,从传统的风冷逐步升级为更加先进的冷却方案。

HBM4采用直冷式液冷(D2C)技术,直接对芯片进行液体冷却,相比传统风冷具有更高的散热效率。到HBM5和HBM6阶段,浸没式冷却技术成为主流,将整个模块浸入绝缘冷却液中,实现更加均匀和高效的散热。

最为先进的是HBM7和HBM8采用的嵌入式冷却技术,通过流体TSV(F-TSV)和微通道结构,实现了芯片级的精准冷却。这种技术通过热传输线(TTL)将热量从HBM裸片直接传递到冷却流体,实现了前所未有的散热效率。

当然,HBM技术的演进带来了显著的性能提升。在LLM推理方面,HBM6的四塔架构使LLaMA3-70B模型的推理吞吐量提升126%。在能效方面,HBM7的NMC架构减少了数据移动,使GEMM工作负载的功耗降低30%以上。

系统级扩展能力的提升同样令人瞩目。HBM8的全3D架构支持多GPU-HBM集群,总带宽可达1,024 TB/s,为Exascale计算提供了强大的存储支撑。这些性能提升不仅满足了当前AI应用的需求,还为未来的人工通用智能(AGI)奠定了技术基础。

从定制化HBM到混合键合,从新一代中介层到融合型存储架构,HBM技术正在加速演进,迭代节奏愈发迅猛。

但在这场高度复杂的技术竞赛中,唯有具备系统级视野、并能深度整合多维工艺与生态资源的玩家,才有机会脱颖而出。随着SK海力士将基础裸片代工交由台积电,DRAM厂商在HBM制造流程中的主导能力已逐步减弱。这一技术体系已不再是单一厂商可以独自完成的任务,而是一个需要多方协同、跨界整合的新战场。

究竟是SK海力士、三星,还是美光将在未来占据上风,答案仍未揭晓。但可以确定的是,在后AI时代,HBM的竞争才刚刚开始,而且只会愈演愈烈。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4091期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢

求推荐

AI蓝媒汇

2025-07-11

半导体行业观察

2025-07-11

半导体行业观察

2025-07-11

半导体行业观察

2025-07-11

半导体行业观察

2025-07-11

半导体行业观察

2025-07-11

证券之星资讯

2025-07-11

首页 股票 财经 基金 导航