来源:半导体行业观察
2025-02-19 09:44:15
(原标题:Elon Musk用20万个GPU打造Grok 3,目标是100万GPU)
如果您希望可以时常见面,欢迎标星收藏哦~
来源:内容来自半导体行业观察综合,谢谢。
伊隆·马斯克和三位 xAI 高级员工介绍了他的 AI 聊天机器人Grok 3的最新版本,该公司称其为“地球上最聪明的 AI”。在 X(以前的 Twitter)上的一个直播视频中,马斯克强调了 Grok 3 是如何迅速超越其前身的:
“我们非常高兴能够推出 Grok 3,它在很短的时间内比 Grok 2 强大了一个数量级,”马斯克说。“我们的团队在过去几个月里一直在努力改进 Grok,以便让所有人都能使用它。”
马斯克与 xAI 首席工程师伊戈尔·巴布施金以及联合创始人吴宇怀(托尼) (前谷歌和斯坦福大学研究科学家) 和吉米·巴 (多伦多大学助理教授) 一起吹捧 Grok 3 的解决问题能力,称它可以解决“复杂的物理、高等数学和编码任务,而这些任务通常需要人们花费数小时才能完成”。他补充说,该模型“每天都在不断改进”,马斯克将此归功于 xAI 新的超大型数据中心。
独立基准测试显示,Grok 3 在 AIME、GPQA 和 LCB 等测试中的表现优于 Google Gemini 2 Pro、DeepSeek V3、Claude 3.5 Sonnet 和 GPT-4。
与 OpenAI 的o3 mini和DeepSeek R1一样,Grok-3 具有高级推理能力。xAI 代表表示,通过采用最佳的预训练模型,并继续使用强化学习进行训练,该模型将开发出额外的推理能力,从而显著提高训练和测试性能。
推理模型可通过 Grok 应用程序获得,用户可以提示 Grok 3“思考”,或者对于更复杂的查询,激活“大脑”模式,该模式利用额外的计算能力进行更深入的推理。据 xAI 称,这些模型对于解决数学、科学和编程问题特别有效。
该模型击败了 OpenAI o3 mini (high)、DeepSeek-R1 和 Google Gemini 2 Flash Thinking 模型。不过,一些业内人士认为,这并不是什么突破。
HubSpot 创始人兼首席技术官 Dharmesh Shah指出,它更像是 DeepSeek,但计算能力更强。他表示,他期待着试用该 API,该 API 将在接下来的几周内推出。
与此同时,前 OpenAI 研究员、Eureka Labs 创始人 Andrej Karpathy 曾提前接触过 Grok 3,他对其进行了测试并分享了自己的见解。据他介绍,该模型的功能与 OpenAI 最强大的模型(o1-pro,每月 200 美元)的先进水平相当,略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
他进一步补充说,考虑到该团队大约一年前才从零开始,这是一个相当不可思议的壮举。“达到最先进水平的时间表是前所未有的,”Karpathy 在X 上的 一篇文章中说道。
咨询公司 Semianalysis报告称,DeepSeek 可以使用大约 50,000 个 NVIDIA GPU,包括 10,000 个 H800 GPU、10,000 个 H100 GPU 和大量 H20 GPU。如果 DeepSeek 可以扩展到 200,000 个 GPU,那么看看它们能取得什么成就将会很有趣。
能获得这样的成绩,Elon Musk打造的200K GPU超算集群功不可没。
Grok 成功背后的真相
xAI 增加了计算能力,以提高 Grok 3 的性能。该模型分两个阶段开发:最初在 100,000 个 GPU 上进行了 122 天的同步训练,随后在 92 天内扩展到 200,000 个 GPU。
xAI 联合创始人 Igor Babuschkin 表示:“我们花了 122 天的时间才让第一批 100K GPU 投入运行,这是一项艰巨的任务。我们认为这是同类中最大的全连接 H100 集群。但我们并没有止步于此。我们决定将集群规模增加一倍,达到200K 。”
Colossus 与其他超级计算机的不同之处不仅在于其底层计算能力,还在于其量身定制的人工智能基础设施。
从一开始,xAI 就在田纳西州孟菲斯市一家改建的伊莱克斯工厂内建立了自己的数据中心,绰号为“Colossus”。该团队利用临时发电机、Tesla MegaPacks 来缓冲电涌,以及为 100,000 到 200,000 个 GPU 设计的新型液冷装置,迅速增加了电力容量。在此过程中,他们遇到了频繁的调试需求,例如 BIOS 固件不匹配、电缆问题以及宇宙射线偶尔导致的晶体管翻转,但他们还是以创纪录的速度将设施投入使用。
该系统旨在满足人工智能训练的特殊需求——处理大量数据并运行必须并行化的高度先进的算法。
据广泛报道,戴尔科技和超微都与 xAI 合作打造了这台超级计算机。
Nvidia 的 H100 和 H200 GPU 的组合将使 Colossus 在速度和效率方面具有明显优势。这些 GPU 还具有专用的张量核心,有助于加速深度学习算法。
此外,这些 GPU 的内存带宽足够强大,可以有效处理训练最新 AI 模型所需的大数据集。
Colossus 的主要组成部分是 Supermicro 4U 通用 GPU 液冷系统。
每台4U服务器配备八块NVIDIA H100 Tensor Core GPU,为AI训练任务提供强大的算力。
服务器被组织到机架中,每个机架包含八台 4U 服务器,每个机架总共有 64 个 GPU。
每个 4U 服务器之间都有一个用于液体冷却的歧管,占用 1U 的机架空间,每个机架的底座包含一个 4U CDU 泵送系统,提供冗余冷却和管理单元。
这些服务器使用 NVIDIA 的 Spectrum-X 以太网网络平台进行互连,实现了 AI 训练所必需的高带宽、低延迟通信。
每台服务器都配备了多个 400GbE 连接,运行在 800 GBE 电缆上,而不是Nvidia 也支持的用于大规模部署的Infiniband 选项。
在当前架构中,集群中的每个 GPU 都配备一个专用的 400 GB 网络接口卡,另外还有一个专用于服务器的 400 GBE NIC,每个服务器的潜在总带宽为 3.6 TB。
每个阵列有 512 个 GPU(8 个机架,每个机架 64 个 GPU),总共有近 200 个阵列。
10 月份,NVIDIA 负责人黄仁勋宣布,最初的 100,000 个 GPU 超级计算机仅用 19 天就搭建完成,而他所说的普通数据中心的正常建设过程则需要四年时间。
Colossus 还采用了所谓的“尖端冷却系统”,确保 GPU 以最稳定、最佳的温度运行,以实现稳定性和性能。
这尤其重要,因为如此大量的快速 GPU 会产生大量热量。
对于这种类型的机架密度,最佳冷却是绝对关键的,并且使 Blackwell 服务器基础设施因过热而导致的潜在延迟变得更容易理解。
由于像 Colossus 这样的客户正等待着立即大量推出下一代设计,因此冷却系统必须从一开始就正常工作。
正如之前报道的那样,许多供应商正在与 Nvidia 合作,专门为 Nvidia GPU 服务器开发冷却系统。
过去几年,创建最有效的人工智能系统的竞争愈演愈烈,谷歌、微软和 OpenAI 大力投资超级计算机和人工智能研究。
通过对 Colossus 的投资,xAI 具有潜在的竞争优势,使其能够快速训练其 AI 模型,并可能比竞争对手更快地取得突破。
大规模模型训练不仅可以缩短构建新 AI 技术所需的时间,还可以帮助 xAI 深入研究由于计算限制而无法实现的全新 AI 研究领域。
通过筹集资金来扩大 Colossus 的规模,xAI 为未来做好了准备。新增的 100,000 个 GPU 将使系统的物理容量几乎翻倍,这将使 xAI 能够应对更大的挑战。
与此同时,Nvidia 声称 GB200 GPU 的性能比现有的 H100 部件更高,这不仅仅意味着性能在数学上有所提升。这可能会对 AI 社区产生深远影响,xAI 的发展为重新定义 AI 技术的应用提供了机会。
Colossus 并非一帆风顺的项目。冷却和为 200,000 个 GPU 供电的成本非常高,尤其是在可持续性成为首要关注点的时代。
此外,马斯克还表示,他预计 Colossus 扩张所需的资金将依赖于主权财富基金,尤其是来自中东的基金。
该计划受到了一些方面的批评,有人认为,外国拥有新的人工智能技术可能会产生地缘政治影响,特别是如果它在研究角色之外被用于实际用途的话。
计划扩展到 100 万个 GPU
据The Information报道,马斯克计划建立一个新的数据中心,以进一步提升 xAI 的 GPU 集群。据彭博社报道,马斯克与戴尔科技达成的一项交易价值可能超过 50 亿美元,将提供包含 Nvidia Blackwell GB200 GPU 的 AI 优化服务器。预计今年交付,以 xAI 的孟菲斯超级计算机项目为基础,该项目已经采用了戴尔和超微服务器的组合。
在同一讨论中,马斯克透露,xAI 的下一个数据中心的耗电量预计将增加大约五倍,从 0.25 千兆瓦增加到约 1.2 千兆瓦。该计划包括未来的 Nvidia Blackwell GB200(或可能是 GB300)GPU,表明 xAI 打算继续将其大规模计算基础设施扩展到目前的规模之外。
埃隆·马斯克也不满足于仅有 200,000 个 GPU,他还计划扩展其 位于田纳西州孟菲斯的Colossus 超级计算机,有朝一日能够容纳至少 100 万个 GPU。
这一消息是在大孟菲斯商会主办的午餐会上宣布的,该商会协助建设了 xAI 设施。
“该公司正在为孟菲斯成为全球人工智能中心奠定基础,”该商会表示。“扩建工程已在进行中,将至少包含一百万个图形处理单元 (GPU),这是该地区历史上最大的资本投资。”
商会没有提供时间表,但 xAI 可能会从 Nvidia 购买 GPU,后者今年夏天已经为 Colossus 的第一阶段提供了100,000 块 H100 卡。通常,公司需要数年时间才能建造一台超级计算机,但马斯克的团队在大约四个月内就将 GPU 组装成一台可运行的超级计算机。
该公司已将Colossus扩展到 20 万块 Nvidia H100 和 H200 GPU,目标是到明年夏天达到 30 万块 GPU。这一声明凸显了马斯克为创建尖端 AI 程序以击败包括 OpenAI 在内的竞争对手所付出的努力。
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4040期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
黑鹰光伏
2025-02-20
大众证券报
2025-02-20
半导体行业观察
2025-02-20
半导体行业观察
2025-02-20
半导体行业观察
2025-02-20
半导体行业观察
2025-02-20
证券之星资讯
2025-02-20
证券之星资讯
2025-02-20
证券之星资讯
2025-02-20