来源:半导体行业观察
2025-10-18 08:51:55
(原标题:CPO真的要来了)
公众号记得加星标,第一时间看推送不会错过。
来 源: 内容编译自nextplatform 。
如果博通表示,共封装光学器件已准备好迎接黄金时段,并且可以与将交换机 ASIC 连接到光纤电缆的其他方式竞争,那么博通不太可能是错的。
现代博通公司在光通信领域拥有悠久而深厚的专业知识,而且这些专业知识都是通过收购获得的。这一传承可以追溯到最初的惠普公司,一直延续到其分拆出来的安捷伦科技公司。安捷伦科技后来被一些私募股权公司收购了部分股权,并更名为安华高科技公司。另一条光通信专业知识线则源自1996年从朗讯科技分拆出来的AT&T贝尔实验室,这条光通信专业知识线一直延伸到杰尔系统公司,后者后来被LSI Logic收购,LSI Logic又被安华高科技公司收购。当然,安华高科技公司在2016年以370亿美元的价格收购了博通的交换机ASIC和其他芯片业务。这在当时似乎是一个令人难以置信的高价,但在人工智能时代,这却是一个具有预见性的数字。
数据中心中关于 CPO 的反对者一直很多,但多年来,博通的技术人员一直告诉我们,在交换机内部使用 CPO 不仅可以提高交换机的可靠性、降低数据中心网络的功耗,还能降低成本。(最终,出于同样的原因,CPO 或光学中介层之类的东西会被添加到各种计算引擎中,到那时,我们将拥有更具可塑性的机架,不再为了延迟而追求机架密度。)
过去几年来,CPO 的这些说法让很多人难以接受。但是,随着博通准备为其 Tomahawk 系列以太网交换机 ASIC 推出第三代 CPO 附加组件,来自博通第二代 CPO 技术的实际大规模部署的数据已经出来了,结果显而易见。我们稍后会介绍 Meta Platforms 使用基于博通“Bailly”Tomahawk 5 CPO 交换机 ASIC 的交换机所做的测试。现在,让我们看看博通的 CPO 交换机 ASIC 路线图及其含义,我们如何解读 Bailly ASIC 的数据,以及未来的“Davisson”Tomahawk 6 CPO 设备将如何变得更好,更适合主流化。
由于诸多复杂原因,我们一直未能撰写关于第一代“Humboldt” Tomahawk 4 CPO 交换机芯片的文章。该芯片于 2021 年 1 月发布,并被中国超大规模计算公司腾讯部署为开发平台。(博通以月球陨石坑命名其 CPO 交换机 ASIC,而月球陨石坑又以历史上地球上的名人以及各种与月球特征相关的拉丁语和英语名称命名。)
Tomahawk 4 CPO ASIC 拥有 25.6 Tb/秒的总交换容量,就像它所基于的普通 TH4 一样,并且有四个 3.2 Tb/秒的光学引擎,可提供 12.8 Tb/秒的带宽(可分配为 400 Gb/秒或 800 Gb/秒的端口)以及 12.8 Tb/秒的电气通道,可以以相同的方式分配。重要的是,CPO 上的 800 Gb/秒端口功耗约为 6.4 瓦,而在同一台 Tomahawk 4 交换机上运行不带 CPO 的常规可插拔光学器件的功耗约为 16 瓦到 18 瓦。Humboldt ASIC 具有远程激光模块,但如果激光器或光学器件出现问题,则必须更换整个交换机。
如果能看到上面右边图表中的端口数量,而不仅仅是变化,那就太好了。
第二代 Bailly CPO 交换机 ASIC 基于51.2 Tb/秒的 Tomahawk 5 芯片,于 2023 年开始向一些超大规模厂商发货,博通在设备上安装了八个 6.4 Tb/秒的光学引擎,完全没有电气连接。SerDes 的运行速度为每通道 100 Gb/秒,800 Gb/秒的带宽(即八个通道)功耗为 5.5 瓦,与 Humboldt 端口相比功耗降低了 14.1%,远低于可插拔光学器件的功耗。Bailly CPO 交换机芯片仅支持光纤链路,并已被一些超大规模厂商采用(我们知道 Meta Platforms,推测腾讯也是如此)。Bailly 设计采用可拆卸激光器,这意味着它们可以在现场更换,这让许多潜在的交换机买家放心,他们对大型共享激光源可能在现场发生故障感到担忧,这是可以理解的。
好消息是,在大规模并行 AI 集群中,如果一个可插拔光学模块发生故障,整个工作都会停止。因此,就这一点而言,一个可插拔光学模块故障与一个激光器故障(导致整个交换机损坏)一样糟糕。(当工作负载跨越所有加速器和所有交换机时,就会发生这种情况。)
这让我们想到了明年推出的 Davisson TH6 CPO 设备,博通目前正在向早期试用客户发货。顾名思义,Davisson 交换机芯片基于我们六月份介绍过的 Tomahawk 6 ASIC。TH6的 CPO 版本采用了一种由四个 Serdes 芯片包裹的数据包处理引擎,这些引擎拥有 100 Gb/秒的原生速度,并采用 PAM4 调制,从而为每个信号提供两位,每通道有效带宽为 200 Gb/秒。 (TH6 还有另一个版本,它具有 50 Gb/秒的本机信令和 PAM4 调制,可提供每通道 100 Gb/秒的有效带宽,就像 TH4 和 TH5 一样。)在 102.4 Tb/秒的 ASIC 上,您可以获得以 1.6 Tb/秒运行的 64 个端口或以 800 Gb/秒运行的 128 个端口——或者更重要的是,以 200 Gb/秒运行的 512 个端口,这对于某些类型的推理工作负载和适度的训练工作负载来说已经足够了,只需直接连接即可将一个 ASIC 链接到 512 个 XPU。Broadcom 补充说,Davisson 芯片与原装 Tomahawk 6 一样,可以在双层网络中将 131,072 个 XPU 连接在一起。规格表上说超过 100,000,但这是准确的数字。
Davisson TH6 CPO 的诸多亮点之一是,交换机的激光模块现在可以现场更换,而不仅仅是通过交换机前面板拆卸,而且不再靠近焊接在其上的交换机 ASIC 和光接口,因此也不再需要担心它们产生的热量,因为这些热量会干扰激光器,甚至导致激光器损坏。这使得激光器更加可靠,也更易于维护。博通表示,800 Gb/秒端口的功耗约为 3.5 瓦,比相同带宽的 Tomahawk 5 CPO 端口低 36.4%,比相同带宽的可插拔光模块低 70% 以上。
这在很大程度上是通过博通与台湾半导体制造公司合作开发的紧凑型通用光子引擎 (COUPE) 封装技术实现的,该技术用于在 TH6 封装周围添加 16 个 6.4 Gb/秒的光学引擎,其尺寸约为 120 毫米 x 120 毫米,而 Bailly 的尺寸为 75 毫米 x 75 毫米。
以下是 Broadcom 的 Bailly CPO 交换机的压力测试设备:
以下是在超大规模 Meta Platforms 上测试的 Bailly CPO 交换机生产行之一:
“在过去的五年里,我们一直在不断发展、学习和进步,”博通光学系统部门营销和运营副总裁 Manesh Mehta 告诉The Next Platform。“我认为我们真正关注的是几个领域。首先,我们清楚地看到,我们的客户开始真正对我们正在构建的 CPO 平台的可靠性和链路性能感到兴奋和重视,这基本上是一个高密度光学引擎,使用高度可扩展的代工厂和基于 OSAT 的制造技术构建,然后将该光学引擎焊接到带有核心 ASIC 封装的公共基板上。其次,Meta 两周前展示的是,他们在 Bailly 上运行的第一个 100 万设备小时,没有观察到任何链路抖动。这些链路抖动导致 XPU 的计算时间效率低下或利用不足,并导致所有检查点重试。”
那么,你可能会问,什么是链路抖动?是不是某种用更奇怪的肉做成的奇怪香肠?不,它是指通信链路(端口、通道等等)在出现电缆故障、软件配置问题、连接不良、光收发器上积尘以及其他几十种可能的原因时,从正常状态循环到断开状态。链路抖动就像二手车市场里那些用手摇的管状气球一样。
Meta Platforms 的技术人员在论文中写道:“据我们所知,这是系统级 CPO 技术运行的最高设备小时数。在实验期间,每个单元都连续运行,没有中断,也没有清除 FEC(前向纠错)计数器,而且我们在链路中没有发现任何故障或不可纠正码字 (UCW)。 ”
测试运行期间,一个端口出现了一些异常,后来追溯到有故障的光纤电缆。
但整篇论文中都有一点很重要:“所证明的光链路平均故障间隔时间 (MTBF) 下限可以轻松支持 24K GPU AI 集群,训练效率达到 90% 以上,且互连故障不会成为瓶颈。”
Meta 补充道,与可重定时插拔光纤模块相比,Bailly CPO 交换机光纤模块每 100 Gb/秒通道的功耗降低了 65%。以下是论文中提供的数据:
线性驱动可插拔光纤或 LPO 的功耗约为 10 瓦,这是因为网络路径中没有 DSP,交换机 ASIC 驱动信号处理本身,因此与可插拔光纤相比可以降低功耗 - 并且是 Arista Networks 的 Andy Bechtolsheim 所倡导的一种方法- CPO 方法每 100 Gb/秒通道的功耗比 LPO 方法低 35%。
这看起来可能不多,但如果你仔细算一下一个拥有 10 万个 XPU 和 4 千瓦 XPU 的集群,就像 Bechtolsheim 在 2024 年 8 月在上面链接的报道中那样。连接 GPU 所需的 640 万个可插拔光收发器消耗了 192 兆瓦的电力,而 GPU 的电力为 400 兆瓦。LPO 将其降至 64 兆瓦。但 CPO 会将其降至 42 兆瓦,仅为 XPU 电力的 10.5%。
这是实实在在的钱。几年前,超级计算中心的电费预算为每兆瓦每年100万美元,但在北弗吉尼亚或硅谷等用电需求旺盛的地区,电费预算则高达每兆瓦每年120万至150万美元。因此,按照这个价格的高端计算,10万个XPU的可插拔光模块五年运行成本为14.4亿美元,而LPO的成本为4.8亿美元,CPO的成本为3.15亿美元。从可插拔光模块切换到CPO节省的电费,足以支付约3.2万个“Blackwell”GPU加速器(每个加速器3.5万美元)的成本。对于成本较低的XPU,这11.3亿美元的增量电费支出很容易就能覆盖XPU单元数量的两倍。
这对我们来说简直是天方夜谭。尤其是考虑到CPO单元实际上更加可靠,而且激光器可以现场更换为博通的Davisson一代ASIC。
以下是 Meta Platforms 论文中的可靠性数据,首先是年度链路故障率:
请记住,进行训练的 AI 集群是一种共享所有计算的架构,一个链路或一个 GPU 的停止会导致集群中所有计算的停滞。故障会带来严重后果。因此,将故障率降低 5 倍将带来非常非常重大的影响。遗憾的是,Meta Platform 论文中没有提供 LPO 的数据。
以下是 Meta Platform 论文中 CPO 与可插拔光学器件的平均故障间隔时间:
可插拔光学器件采用的是实际数据中心的故障率,而 CPO 则采用的是实验室压力故障率,因为 Meta Platforms 在其数据中心测试中未发现任何故障率。顺便说一句,Mehta 表示,测试 Bailly CPO 的实验室条件比 Meta Platforms 数据中心的环境要恶劣得多,因为该实验室明确地试图通过过热或剧烈振动来引发故障,而不是避免故障。
所有这些都让我们回到了Davisson CPO 交换机,我们预计它将在 AI 集群的横向扩展网络中得到更广泛的应用,以及超大规模企业和云构建者用于更通用的基础设施和数据分析工作负载的 Clos 网络。
这是Davisson封装的放大照片,其中 102.4 Tb/秒的 Tomahawk 6 ASIC 位于中心,十六个光学互连环绕芯片周边:
这是 Davisson CPO 开关的早期版本:
康宁正在与博通合作提供光纤线束和电缆组件,以将光纤端口连接到交换机机箱的前部,台积电和硅品负责封装,我们推测 Micas Networks、Celestica 和 Nexthop.ai(他们一直与博通合作开发 Bailly CPO 交换机)也将与该公司合作开发 Davisson CPO 交换机。
然而,我们希望博通能够推出其 Tomahawk Ultra “InfiniBand Killer” 交换机 ASIC 的 CPO 版本。该 ASIC 于 7 月发布,定位为用于 AI 集群机架级节点共享 XPU 内存的扩展网络以太网。我们认为,正如我们反复指出的那样,加速器上的 CPO 端口与交换机芯片上的 CPO 端口相匹配将会非常有趣。从扩展网络入手是可以的,但最终,我们需要在任何地方都使用这样的链路,即使是内存条和闪存条,这样我们才能有更多组件连接选项并节省功耗。
https://www.nextplatform.com/2025/10/17/the-third-time-will-be-the-charm-for-broadcom-switch-co-packaged-optics/
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4198期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
半导体行业观察
2025-10-20
半导体行业观察
2025-10-20
半导体行业观察
2025-10-20
半导体行业观察
2025-10-20
半导体行业观察
2025-10-20
半导体行业观察
2025-10-20
证券之星资讯
2025-10-20
证券之星资讯
2025-10-20
证券之星资讯
2025-10-20