来源:半导体行业观察
2025-07-06 10:54:49
(原标题:HPC网络瓶颈,何解?)
公众号记得加星标⭐️,第一时间看推送不会错过。
来源:内容编译自hpcwire。
高性能计算 (HPC) 以太网旨在促进计算节点之间的快速通信,最大限度地降低延迟并最大化带宽,以确保快速可靠的数据传输。尽管近年来数据传输速率有所提高,但技术进步仍在不断突破传统网络的界限。人工智能工作负载尤其苛刻,严重依赖于稳健、可扩展的网络架构。超级以太网联盟(UEC) 最近通过了超级以太网规范 1.0,确保了基于以太网的通信路径的持续发展,以满足现代人工智能和 HPC 系统的严苛需求。
随着数据量和计算需求的激增,专业人员面临着高昂的运营成本、低下的可扩展性以及意想不到的性能限制。他们该如何避免日益常见的系统膨胀和瓶颈?
HPC 网络的膨胀和瓶颈
面对新出现的瓶颈,企业正在快速扩张,投资新硬件,并增加云计算支出,这导致网络变得过于复杂,配置过度。关键在于,问题在于访问的便捷性,而非计算速度。
技术进步带来了显著的性能提升。然而,现代硬件无法充分发挥其潜力,因为数据密集型工作负载会造成性能瓶颈。即使是最强大的组件,如果受到低效存储系统的阻碍,也会受到阻碍。
导致这些代价高昂的问题的关键趋势
在 AI 工作流程中,缓慢的信息存储和检索会阻碍下游流程。随着 AI 处理器规模越来越大、速度越来越快、性能越来越强,这种现象也变得越来越普遍。由于无法持续访问数据,AI 处理器的性能捉襟见肘,而模型规模的增长速度却超过了常规干预措施所能承受的范围。
由于众多人工智能应用依赖于实时分析,这个问题尤为紧迫。无缝运行很大程度上依赖于高性能计算 (HPC) 基础设施对数据集的高效处理。
另一个关键驱动因素是异构架构的使用日益增多。将中央处理器、专用集成电路和图形处理单元集成在同一总线上,虽然可以带来性能提升,但也会带来瓶颈。不同型号和不同代数的混合使用可能会导致互连不匹配,从而使问题更加复杂。
这些组件之间传输数据时,可能会出现延迟和网络拥塞。未优化的互连和内存层次结构往往是罪魁祸首——它们不必要地延长了访问时间,并且运行效率不达标。
等待网络技术赶上
在 21 世纪初,10 千兆以太网 (GbE) 网络似乎是 HPC 的终极目标。近二十年后,企业意识到即使是 25 GbE 和40 GbE 也不足以满足高带宽工作负载所需的吞吐量。
IT专业人员开发了一种专门的网络设计,使每台服务器都能够通过融合以太网访问两条25千兆位(Gb)的远程直接内存访问通道。这种设计使服务器能够从非易失性存储器快速驱动器(NMO)传输数据。他们实现了每秒50 Gb的总带宽,这在当时令人印象深刻。
仅仅几年后,数据传输速率就大幅提升。基于对 2025 年带宽需求将比 2017 年高出 55 倍的估计,IEEE P802.3df 任务组开发了 800 GbE 的并行结构。如今,网络架构师可以配置一个八通道端口来支持标准化的 200、400 或 800 GbE。
尽管网络技术正在飞速发展,但专业人员仍应采用多种解决方案来解决这个问题。全面的网络设计和管理策略对于维持大规模性能至关重要。
避免膨胀和瓶颈的方法
专业人员必须在过度配置和利用不足之间找到平衡点,既能满足客户需求,又能避免不必要的支出。拥塞控制和负载均衡是 HPC 网络的理想优化解决方案。
动态负载均衡算法会在某个节点流量过大时,将新的或优先级较低的请求路由到其他节点,从而分配负载。该算法实时评估拥塞情况,将流量重定向到利用率较低的节点,从而缓解瓶颈。在包含多个高带宽应用程序的 HPC 环境中,动态负载均衡算法发挥着重要作用。
另一种方法是战略性地放置数据集。通常,将频繁访问的信息置于高效、高性能系统的最前端可以减少延迟。人工智能使事情变得更加复杂,因为它的工作负载不断变化,因此它可能会更频繁地检索历史上未使用的数据。基于算法的动态放置策略至关重要。
无论企业采用何种方法应对这一问题,都应该进行战略性扩展。如果其基础设施无法实现无缝信息检索,那么即使拥有最大的存储空间和最佳的硬件也毫无意义。性能必须随容量扩展,以防止系统臃肿和延迟。
专注于面向未来的 HPC 网络
随着人工智能技术的发展,模型规模将不断扩大,这将推动制造商快速打造新型计算硬件。计算需求和数据集规模的指数级增长是不可避免的,因此,在专业人员开发最佳解决方案的过程中,做好面向未来的准备是明智之举。
https://www.hpcwire.com/2025/07/03/ais-data-hunger-how-hpc-ethernet-networks-can-avoid-costly-bloat-and-bottlenecks/
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4086期内容,欢迎关注。
加星标⭐️第一时间看推送,小号防走丢
求推荐
半导体行业观察
2025-07-06
半导体行业观察
2025-07-06
半导体行业观察
2025-07-06
半导体行业观察
2025-07-06
半导体行业观察
2025-07-06
半导体行业观察
2025-07-06
证券之星资讯
2025-07-04
证券之星资讯
2025-07-04
证券之星资讯
2025-07-04