|

财经

亮剑英伟达,寒武纪引领中国AI软件新生态

来源:21世纪经济报道

媒体

2025-11-13 20:09:22

(原标题:亮剑英伟达,寒武纪引领中国AI软件新生态)

“得生态者得天下”,在AI芯片领域,这已成为不容置疑的竞争法则。

多年来,英伟达凭借其CUDA软件生态系统,构筑了几乎垄断的市场地位。

今年5月17日,清华大学计算机系教授、中国工程院院士郑纬民在一场公开论坛上表示,当前大模型训练主要依赖两类系统:一是英伟达GPU,其硬件性能与生态成熟度领先,但面临禁售、价格高涨和一卡难求的困境;二是国产芯片,全国已有3万余家企业投入研发,硬件性能逐步提升,但核心障碍在于生态兼容性不足。

如今,这一格局正被悄然撕开一道口子。寒武纪推出的 Cambricon NeuWare 基础软件平台,正在打造国产“CUDA” 的道路上迈出坚实一步。

近期,寒武纪公开表示,经过多年投入与积累,其基础软件平台Cambricon NeuWare已经日趋成熟,全面兼容社区最新PyTorch版本和Triton算子开发语言,支持用户模型和自定义算子快速迁移。

在业内人士看来,寒武纪正在构建一个能够与行业巨头英伟达CUDA生态相抗衡的软硬件一体化体系。然而,但要真正与英伟达CUDA生态竞争,仍面临诸多挑战。

“CUDA的巨大生态优势在于其深厚的开发者社区积累。多年来,CUDA已成为AI领域事实上的标准,大量算法和研究都基于CUDA实现。”有业内人士指出,这形成了强大的网络效应和迁移成本,使得即使有其他选择,开发者也难以脱离CUDA生态。

寒武纪显然意识到了这一点,并采取了全面兼容主流开源框架的策略。

Cambricon NeuWare全面兼容主流开源框架,不仅跟进PyTorch社区的进展,支持PyTorch 2.1到PyTorch 2.8的全部社区版本,还建立了快速跟进社区版本的长效机制,可在社区版本发布后两周内实现MLU适配版本的发布。

在开发工具层面,Cambricon NeuWare提供了完整的软件栈:CNPerf-GUI适配多平台,支持超大日志文件的快速加载及流畅操作;新增程序正确性分析工具CNSantizer,可自动完成多核间竞争访问检测。

BANG C语言则是寒武纪BANG异构并行编程模型的编程语言,在C/C++语言基础上针对MLU架构特点进行扩展,可以高效编写在MLU上运行的并行程序,充分利用MLU大规模并行架构来加速计算任务。

寒武纪还提供GPU Migration一键迁移工具,帮助用户近乎零成本将模型从GPU迁移到MLU。这种降低迁移成本的策略对于生态建设至关重要。

值得注意的是,任何技术平台的成功,不仅在于技术先进,更在于能否经得起大规模实践的检验。

据21世纪经济报道记者了解,寒武纪在大模型与“搜广推”的训练推理上,已完成大规模的技术和产品验证,验证结果表明:解决方案可支撑多场景下的流式训练任务,可持续超数月稳定运行,精度与稳定性均满足要求。

在大模型训练方向,寒武纪重点支持众多主流模型,包括DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next等MoE类模型训练,同时扩展了GLM4.5、Flux、Wan2.1/2.2等模型的训练支持。基于原生FP8的计算能力,寒武纪新增了Qwen/DeepSeek等系列网络FP8的训练支持,精度符合预期。

在大模型推理方向,寒武纪研究并实践W4A4以及MX-FP8/MX-FP4等新型数据类型,探索并支持多种高效注意力机制,包括Sparse Attention与Linear Attention。

通过深度的生态合作,针对DeepSeek V3.2-Exp模型,寒武纪实现发布即适配的支持,并与合作伙伴同步开源适配代码。

而在自研NeuWare的同时,寒武纪也积极参与共建统一开放生态,破解AI领域长期存在的“芯片架构碎片化”难题。

11月12日,寒武纪宣布拥抱众智FlagOS生态,这是构建国产AI软件生态的重要一步。FlagOS由北京智源人工智能研究院牵头研发,是面向多种AI芯片的开源系统软件栈,支持超20种国内外主流AI芯片型号。

寒武纪和智源研究院从2024年初起就开始进行FlagGems的联合开发工作,后续进一步拓展到FlagTree(统一多后端的增强版Triton编译器)、FlagCX(统一通信库)、FlagScale(并行训推一体框架)等组件。

FlagOS 1.5版本已经发展成为“4+3”模式,即四大核心开源技术库+三大开源工具平台。通过开源技术库和开源工具平台的相互支撑,提供了更广泛的硬件支持、和更完善的组件协同。

在受访业内人士看来,国产AI软件生态的崛起,恰逢天时地利。外部环境的压力和内部政策的推力,共同构成了发展的双重驱动力。

一方面,供应链不确定性催化国产替代。全球GPU市场长期被英伟达主导。然而,2022年美国禁售A100芯片后,2025年H20芯片也停止对中国市场供应,这让国内AI企业纷纷将目光转向本土芯片。

以寒武纪为例,今年前三季度,在行业高景气度的推动下,公司实现营收46.07亿元,同比增长2386.38%;净利润16.04亿元,同比增长320.19%;扣非后归母净利润14.19亿元,同比增长264.52%。

另一方面,我国是全球最大的集成电路消费国家,日益增长的市场需求为集成电路行业带来了广阔的市场空间。国家层面发布的《关于深入实施“人工智能+”行动的意见》等政策,正全方位推动人工智能的规模化落地。这意味着,国产AI芯片及其软件生态将在智慧城市、智能工业等海量场景中获得宝贵的“试验田”和“练兵场”,这是任何封闭生态都无法比拟的优势。

在国内外政策和产业催化下,国产云端芯片渗透率提升已成大势所趋。根据TrendForce数据,2025年国内AI Server市场中国本土芯片供应商占比有望升至40%。

弗若斯特沙利文预测,到2029年,中国的AI芯片市场规模将从2024年的1425.37亿元激增至13367.92亿元,2025年至2029年期间年均复合增长率为53.7%。

中信建投分析师表示,算力端围绕龙头确定性、新技术升级方向、本土化产业集群加速以及订单外溢寻找投资机会,中期维度看,订单向国产芯片倾斜是必然趋势。

“考虑到国产芯片逐渐进入量产交付阶段,预期市场集中度将看到显著提升。”其表示。

21世纪经济报道

2025-11-13

证券之星资讯

2025-11-13

证券之星资讯

2025-11-13

首页 股票 财经 基金 导航