来源:半导体行业观察
2025-01-20 09:32:00
(原标题:博通豪赌这项芯片技术)
如果您希望可以时常见面,欢迎标星收藏哦~
来源:内容编译自electronicdesign,谢谢。
处于 AI 芯片市场前沿的半导体公司和初创公司在规模方面的竞争与其他领域一样激烈。它们都在竞相推出巨型图形处理单元 (GPU) 和其他 AI 芯片,以处理 OpenAI ChatGPT 和其他最先进算法的核心——大型语言模型 (LLM),这些算法的计算量越来越大,训练和运行时耗电量也越来越大。
数据中心中最先进的 AI 芯片已无法再集成在一块单片硅片上。相反,它们由通过 2.5D 或 3D 先进封装捆绑在一起的芯片组成,这些芯片可尽可能地模拟一块大芯片。
博通正试图利用上个月推出的 3.5D 封装技术制造更大的 AI 芯片。通过以 3D 集成方式堆叠加速器芯片,然后再以 2.5D 方式将它们并排放置,Extreme Dimension 系统级封装 (XDSiP)平台可以在一个封装中容纳超过 6,000 平方毫米的硅片。该公司表示,它可以将 3D 堆叠的加速器和其他芯片放在硅中介层上,然后用多达 12 个高带宽内存 (HBM)围绕它们。
核心创新之一是博通采用基于混合键合的面对面 3D 芯片堆叠技术,该技术无需焊料凸块,直接连接每个硅片正面的铜线柱。新布局使得每平方毫米可以创建数千个连接,在 3D 堆叠硅片之间传输信号的速度比目前快 7 倍。
虽然博通并不直接与 NVIDIA 的GPU竞争,而 GPU是最先进的数据中心的核心,但它帮助谷歌和其他科技巨头构建定制加速器芯片(也称为 XPU (图 1))。他们都在构建庞大的服务器集群,这些集群可能耗资数十亿美元,并配备数万个 GPU 和其他 AI 加速器,以便在大量数据上训练他们最先进的模型。博通表示,最大的集群正在增长到多达一百万个AI 加速器。
据该公司称,其大多数客户(即所谓的消费级 AI 领域)都在使用 XDSiP 技术。预计第一批量产的 3D 堆叠加速器将于 2026 年初推出。
多芯片设计转向 3.5D 封装技术
随着半导体行业越来越落后于摩尔定律,每个新工艺节点通常都会带来的功率、性能、面积和成本方面的改进正在减弱。为了领先于人工智能不断增长的计算需求,芯片工程师现在正在从一体化单片 SoC 转向,而这种 SoC 在最先进的工艺节点上的构建成本越来越高。
相反,半导体公司正在将越来越大的芯片设计拆分成几个更小、更模块化的构建块,这些构建块可以在系统级封装 (SiP)中重新组装,以增加硅片的数量,从而增加其中的晶体管和逻辑数量。通过将异构 SoC 切割成几个功能部分,公司可以使用 2.5D 或 3D 封装技术将它们绑定在一起,而这些技术不受单个硅片中可以塞入的物理限制的约束。
“先进封装 这对于下一代 XPU 集群至关重要,因为我们正达到摩尔定律的极限,”博通定制 ASIC 业务高级副总裁兼总经理 Frank Ostojic 指出。
为了实现集成,博通表示计划使用台积电的 CoWoS(晶圆基板芯片)技术,将加速器和其他芯片横向放置在 2.5D 封装上,同时使用台积电的 3D 封装技术垂直堆叠硅片。CoWoS 广泛应用于数据中心最新的 AI 加速器,它需要将芯片堆叠在一块巨大的硅板上,称为硅中介层。中介层由短而密集的互连线构成,这些互连线可以移动信号,就好像所有东西都在一个大型 SoC 上一样。
在 2.5D 中,这些模块化芯片被放置在封装上,带有非常小的焊球(半导体行业术语称为微凸块),它们密集地分布在硅片的表面上。
如今,最先进的 AI 芯片在采用 2.5D 封装时,可以塞入高达 2,500 平方毫米的硅片和多达 8 个 HBM。这大约是 NVIDIA 当前一代 AI 芯片 Hopper 中硅片数量的 3 倍。其核心GPU 的制造尽可能接近光罩极限,即单个芯片上可以制造的最大硅片数量。目前约为 800 平方毫米。
但随着人工智能的计算能力越来越强,各家公司的空间越来越紧张。为了解决这些限制,半导体行业的巨头们正在为这些芯片增加另一个维度,即通过混合键合堆叠逻辑芯片,然后将所有组件分散到高速中介层电路上。首批基于 3.5D 封装的人工智能芯片之一是 AMD 最新的 3D 堆叠加速器芯片Instinct MI300A ,它正在成为NVIDIA GPU-CPU 超级芯片的最大竞争对手之一。
将所有部件拉近,可以提高速度、延迟和功耗。由于不断将信号从中介层的一侧传送到另一侧会耗电,因此减少芯片之间的距离可以节省功耗。垂直堆叠硅片还可以节省封装中的空间,便于在同一区域放置更多芯片,从而放置更多晶体管。
混合键合:未来 3D 芯片堆叠的契机
博通正试图凭借3.5D封装技术引领下一代AI超级芯片。
该公司表示,在使用 XDSiP 技术将所有异构芯片整合在一起之前,该过程首先要将芯片设计中的每个功能分解开,然后将它们组织成芯片。Ostojic 表示,该过程的主要优点(也称为系统技术协同优化 (STCO))是每个芯片都可以使用最适合其功能的制造技术,这为工程师提供了更大的灵活性来优化芯片的功率、面积、性能和成本。
在大多数情况下,博通计划将系统核心中的加速器核心或其他处理单元(如图 2中红色部分所示)划分为任意数量的硅片。这些逻辑芯片可以包含通用 CPU 核心或高性能 AI 加速器,从 GPU 到张量处理单元 (TPU),或其他定制 IP。对于这些芯片,最好使用摩尔定律最前沿的工艺技术,因为它们可以处理最密集的计算。
其余逻辑被重新安置在一个单独的芯片上,在图中以黄色显示,其中包含从 I/O(包括基于PHY 的芯片间互连、高速 SerDes 和 HBM 内存接口)到充当处理器缓存的 SRAM 的所有内容。这些组件很少会从转移到最先进的节点中获得任何好处,因此采用更成熟且更实惠的工艺技术来制造它们更有意义。这些功能也可以放在同一个芯片上。
博通使用混合键合将较小的加速器芯片堆叠在较大的芯片上,以实现连接和存储。通常,这些芯片在键合在一起之前会以相同的方向堆叠在一起(也称为面对面 (F2B))。芯片之间使用硅通孔 (TSV) 相互通信,这些硅通孔充当 3D 堆栈内的电梯井,在它们之间传输电力、信号和数据 (图 3)。
据该公司介绍,它可以通过将硅片面对面 (F2F) 堆叠,然后直接将它们粘合在一起,从而创建更直接的芯片到芯片互连,从而缩短封装中的计算、内存和 I/O 芯片之间的距离,并移除它们之间的 TSV。这种布置创建了一种高密度互连,可以在硅片之间传输 10 倍以上的信号,同时噪音最小,机械强度更高。它们消耗的功率比在硅中介层平面上物理连接芯片的 PHY 少 10 倍。
博通表示,其定制芯片设计的特殊方法和 3.5D 封装技术中的 IP 使得 3D 堆栈中的所有电源、时钟和信号互连能够高效地正确构造。
https://www.electronicdesign.com/technologies/embedded/article/55261561/electronic-design-broadcom-rolls-out-35d-packaging-tech-to-enable-next-gen-chips-for-ai
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4012期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
半导体行业观察
2025-01-22
半导体行业观察
2025-01-22
半导体行业观察
2025-01-22
半导体行业观察
2025-01-22
半导体行业观察
2025-01-22
半导体行业观察
2025-01-22
证券之星资讯
2025-01-22
证券之星资讯
2025-01-21
证券之星资讯
2025-01-21