|

财经

这桩收购后,英伟达打造最强闭环

来源:半导体行业观察

2025-12-19 09:44:38

(原标题:这桩收购后,英伟达打造最强闭环)

公众号记得加星标,第一时间看推送不会错过。

我们一直觉得很可笑,任何人都能掌控一个开源项目。但这种情况确实会发生,因为归根结底,人们需要挣钱养家糊口,而总得有公司来支付这些工资。

有时,开源项目会出于利他主义和明智的利己主义而得到支持,Linux 内核就是一个著名的例子。为了使其成为现代计算领域事实上的类 Unix 操作系统,Linux 内核需要进行强化和扩展。但企业和其他类型的计算机构通常不愿为这类开源项目提供自维护支持,因此,项目背后通常会有一家商业实体,将其整合为产品并提供技术支持。Red Hat Enterprise Linux,以及在较小程度上,SUSE Linux、CoreOS(现已并入 Red Hat,是其 OpenShift Kubernetes 容器控制系统的基础)、CentOS(已被 Red Hat 收购,并促成了 Rocky Linux 的诞生)和 Canonical Ubuntu,都是获取商业支持的 Linux 发行版的常见途径。云服务通常拥有自己的 Linux 发行版,甚至 Nvidia 也为其 AI 系统定制了 Ubuntu 版本,尽管其他发行版也通过集成 Nvidia 驱动程序得到了支持。

近年来,英伟达更关注其系统集群的控制方式,而非特定节点上的底层操作系统。正因如此,英伟达在2022年1月斥资收购了Bright Computing,后者是Bright Cluster Manager的开发商,收购金额未公开。当时,Bright Computing已完成两轮融资,共筹集1650万美元,其集群管理工具BCM在全球拥有超过700家用户。BCM最初是为管理传统高性能计算(HPC)系统而设计的,但多年来,为了将其打造成为一款通用集群控制器,BCM也进行了适配,以支持Hadoop、Spark、OpenStack、Kubernetes和VMware ESX等对控制要求极高的分布式系统。

收购完成后,英伟达将该工具重新命名为 Base Command Manager,并将其集成到 AI Enterprise 软件堆栈中。这意味着,英伟达通过 AI Enterprise 许可证获得了技术支持,该许可证包含英伟达捆绑并支持在其 GPU 加速系统上的库、框架和其他工具,每个 GPU 每年的费用为 4,500 美元。

现在它看起来是这样的:


英伟达表示,其产品目前在全球拥有数千套安装案例,但这显然不包括该公司免费提供的 BCM 许可证。这些许可证用于管理任何规模横向扩展集群中每个节点最多包含八个 GPU 的 GPU 集群。英伟达警告称,这种免费许可证不提供任何技术支持,并且随时可能被撤销。因此,企业通常不会愿意将希望寄托于该公司。

英伟达为 BCM 提供了一个名为 Mission Control 的叠加层,它可以自动部署构成其所谓的“AI 工厂”的框架、工具和模型。该工厂负责处理或制造代币。Mission Control 包含Run.ai 实现的 Kubernetes,用于编排容器;还包含 Docker,用于在容器内运行计算;此外,它还可以虚拟化 GPU,以提供更精细的计算粒度。Mission Control 会对系统进行健康检查,并根据系统上运行的工作负载优化功耗。

但就高性能计算 (HPC) 和人工智能 (AI) 工作负载的裸机工作负载管理而言,英伟达仍然需要一款工具。事实证明,BCM 正是执行这些健康检查的工具,而解决问题的操作则通过 Slurm 工作负载管理器完成。在英伟达收购 Bright Computing 之前,BCM 支持不同的工作负载管理器,但随着 Slurm 逐渐成为高性能计算中心乃至人工智能领域工作负载管理的实际标准,它被选为 Bright Cluster Manager 的默认工作负载管理器,并在过去四年中一直是英伟达 Base Command Manager 的默认工作负载管理器。


这似乎意味着许多高性能计算和人工智能机构不想学习新东西——比如 Run.ai——而是想继续使用 Slurm。对于那些最初以高性能计算中心起家的混合型人工智能/高性能计算中心来说,这种情况可能尤为突出。

作为全球最重要的IT供应商,英伟达本身也相当注重控制,这一点毋庸置疑。2024年10月,英伟达停止单独销售Bright Cluster Manager,而仅将其作为AI Enterprise Stack的一部分提供。目前尚不清楚AI Enterprise的价格是高于还是低于之前单独购买Bright Cluster Manager的许可,也不清楚有多少客户曾在纯CPU系统或其他类型的加速器上使用过这款早期工具。

这就引出了英伟达收购 SchedMD 的话题,SchedMD 已向全球数百家 HPC 中心、云构建商、超大规模数据中心和企业销售了 Slurm 工作负载管理器的支持服务。

Slurm 项目始于 2001 年,由劳伦斯·利弗莫尔国家实验室、Linux Network(已被 SGI 收购)、惠普(指老惠普,而非收购了 SGI 和 Cray 的新惠普)以及 Groupe Bull(已被 Atos 收购并成立 Eviden)合作开发。2010 年,该项目的两位创始人 Morris Jette 和 Danny Auble 创立了 SchedMD,旨在为 Slurm 提供技术支持,从而为工作负载管理器的进一步开发提供资金。

据称,Slurm 的设计灵感来源于超级计算机互连设备制造商 Quadrics 开发的 RMS 集群资源管理器。Slurm 最重要的优势在于,过去十年中,在 Top500 超级计算机排行榜上出现的计算机中,约有 60%(代表数千台机器)使用 Slurm 作为其工作负载管理器,而不是 IBM/Platform Computing 的负载共享工具 (LSF)、Altair 的便携式批处理系统 (PBS)、Adaptive Computing 的 Maui 和 Moab 以及 Sun/Univa Grid Engine。所有这些工作负载管理器/作业调度器都会将一组具有特定计算能力需求的工作负载进行“俄罗斯方块”式的调度,最终使它们按照既定的优先级顺序高效运行。

过去十年,Nvidia 和 SchedMD 一直在合作开发 Slurm,但双方在联合声明中并没有透露太多信息,不过 Nvidia 表示,它将“继续开发和分发 Slurm,使其成为开源、厂商中立的软件,使其在各种硬件和软件环境下都能被更广泛的 HPC 和 AI 社区广泛使用和支持”。

但即便 Slurm 开源,也不意味着英伟达会为开源版本的代码提供支持,或者将 Slurm 的所有未来功能都开源。(英伟达拥有大量专有驱动程序、框架和算法。)英伟达已同意为 SchedMD 的现有客户提供支持,据推测,他们将通过聘用 SchedMD 的员工来实现这一点。

目前尚不清楚的是,Run.ai 和 Slurm 的功能将如何与 Base Control Manager 整合,从而为高性能计算 (HPC) 和人工智能 (AI) 集群提供一个自上而下的集群和工作负载管理工具——而且不仅限于 AI 集群,还要考虑到许多集群中可能存在一些仅使用 CPU 的机器以及非英伟达加速器。希望 Slurm 的代码不仅能够保持开源,而且其支持范围也能非常广泛。

如果 Nvidia 试图以任何方式限制它,其他人可以获取 Slurm 代码(该代码以 GNU GPL v2.0 许可证提供),进行 fork 并继续开发。

那么,下一个问题是:英伟达现在是否也需要将其商业化的 Kubernetes 集成到 AI 企业级堆栈中?Mirantis 公司已经将 OpenStack 云控制器拆分并封装到容器中,并创建了自己的 Kubernetes 实现,该公司已经与英伟达开展了大量合作,包括将 Kubernetes 集成到 BlueField DPU 上。

https://www.nextplatform.com/2025/12/18/nvidia-nearly-completes-its-control-freakery-with-slurm-acquisition/

(来源:编译自nextplatform)

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4261期内容,欢迎关注。

加星标第一时间看推送,小号防走丢

求推荐

半导体行业观察

2025-12-19

半导体行业观察

2025-12-19

半导体行业观察

2025-12-19

半导体行业观察

2025-12-19

半导体行业观察

2025-12-18

半导体行业观察

2025-12-18

证券之星资讯

2025-12-19

证券之星资讯

2025-12-19

首页 股票 财经 基金 导航