来源:半导体行业观察
2025-12-24 09:55:13
(原标题:冯诺依曼架构的新替代方案)
公众号记得加星标,第一时间看推送不会错过。
人工智能领域对计算能力的需求如此之大,以至于半导体行业难以满足这一需求。问题不仅在于计算能力,还在于人工智能数据中心消耗的大量电力。
对于人工智能超大规模数据中心而言,这些问题在边缘产品制造商身上也有着类似的缩影,这些边缘产品通常在设备端执行人工智能,并依靠电池供电。边缘应用开发者希望部署规模越来越大的模型,以获得更精确的推理并为系统注入更多智能,但却受到微控制器和微处理器的人工智能性能缓慢和功耗高的限制。
半导体行业目前采用的渐进式人工智能芯片改进方法,无法快速解决这个问题。大多数半导体公司在人工智能领域的做法是,沿用传统的计算功能架构,然后对其进行微调,使其乘加运算(神经网络的核心运算)的执行速度和效率略有提高。
但这种方法忽略了一个事实:过去几十年逻辑芯片中使用的通用计算架构并不适用于人工智能系统所需的大规模并行和互联矩阵计算操作。人工智能行业对低功耗、高速矩阵计算的迫切需求,需要在硅芯片层面采用一种全新的方法。正如我们将在本文中看到的,Ambient Scientific 在其 GPX 系列人工智能处理器中正是实现了这一点。
传统冯·诺依曼架构:在神经网络中效率低下
经典的冯·诺依曼架构几十年来一直是通用计算的中流砥柱。如图 1 所示,该模型通过在一个周期内依次获取、解码和执行指令来运行,该周期涉及控制单元、算术逻辑单元 (ALU) 和存储器。
冯·诺依曼架构之所以占据主导地位,是因为它能有效地处理支撑传统软件应用的顺序指令。此外,该架构本身灵活、简单,且相对容易在硅片上制造。然而,这种适用于标准软件的顺序式、指令逐条执行的计算模型,却并不适用于人工智能软件。人工智能模型以矩阵形式构建,而非线性序列,因此需要大规模并行计算操作。
将神经网络的 MAC 工作负载编译到冯·诺依曼型处理器的指令集架构 (ISA) 会产生海量的运算。对于一个参数量在 500 亿到 5000 亿之间的大型语言模型 (LLM),一次推理可能需要 1000 亿到 10000 亿次运算。
当执行数十亿次运算时,处理器性能的一个重要决定因素是内存访问时间,而这正是冯·诺依曼架构的一个众所周知的局限性。即使通过将最快的SRAM内存与ALU绑定来优化性能,对于最大的模型而言,推理性能仍然令人失望,并且使得处理器价格高得惊人。
基本计算模块(即冯·诺依曼单元)固有的内存访问问题,不仅制约着传统CPU,也严重制约着图形处理器(GPU)或神经网络处理器(NPU)等并行计算架构。它们的速度和功耗仍然依赖于内存访问:这些数字架构无法将足够的内存放置在足够靠近算术逻辑单元(ALU)的位置。它们受限于DRAM的低速(DRAM无法与ALU集成在同一芯片上,这也是目前GPU性能/功耗问题的原因之一),或者受限于高速片上静态随机存取存储器(SRAM)的容量有限,
使计算架构适应计算任务
在传统计算架构上实现神经网络操作存在的问题促使计算机科学家探索另一种方法:脉动阵列,如图 2 所示。
这与神经网络互连的多层结构更为契合。然而,以往在硅芯片上实现脉动阵列的尝试,在实际应用中难以实现如此密集互连的结构。此外,内存与计算模块的物理分离,也会导致与冯·诺依曼架构相同的内存访问问题——降低吞吐量并增加功耗。
脉动阵列是解决计算架构与神经网络拓扑结构映射问题的有效方案,但要实现它,需要在芯片层面进行创新。Ambient Scientific 的 DigAn 技术正是实现了这一点。
一种新型人工智能处理器:可配置矩阵计算机
DigAn 技术使 Ambient Scientific 能够在芯片级上制造可配置矩阵计算机。这种全新的方法包含一种新型计算单元——模拟 MAC。该模块承担了冯·诺依曼架构中 ALU 和存储单元的功能(见图 3)。
模拟 MAC 针对 AI 系统进行了优化,其中 MAC 运算占计算工作负载的 95%。它支持内存计算,从而解决了冯·诺依曼架构中内存和计算模块物理分离的问题。这得益于 Ambient Scientific 的另一项创新——HyperPort 3D 内存架构,该架构实现了每个 MAC 单元内存元件的垂直堆叠。
冯·诺依曼架构在神经网络运算中的第二个缺陷是其将神经网络模型编译成指令的方式效率极低。我们通过创建矩阵计算机来解决这个问题。它将模拟 MAC 模块排列成与神经网络拓扑结构相对应的形状。
每个 DigAn 单元都是一个独立的单片电路,在一个周期内即可计算出一整层神经元。如图 4 所示,多层 DigAn 电路可以扩展成一个矩阵计算机,其结构与神经网络的结构相呼应。
其实际结果是指令周期效率得到了惊人的提高:一个 DigAn 计算块可以在一个周期内计算一个 1 × 32 × 8 矩阵,而基于传统硅架构的 AI 处理器则需要 38,600 个周期。
多层 DigAn 模块构成了一个矩阵计算机:一个典型的 1 × 32 × 8 神经网络矩阵的 32 层运算,在传统的计算架构中需要 1,235,200 个时钟周期才能完成。而在 DigAn 矩阵计算机中,这只需要 32 个时钟周期。
将神经网络运算次数从 1,235,200 次减少到 32 次,应用程序的性能和功耗都得到了显著提升:性能比同等功耗的典型 MCU 高出 100 多倍,或者性能与典型 GPU 相同,但能耗却不到其 1%。
GPX系列芯片采用全新硅技术
上述性能和功耗方面的突破源于Ambient Scientific致力于采用新型处理架构并开发全新的硅芯片技术来实现该架构。为了实现高速、低功耗的人工智能,这项核心技术必须能够方便地供嵌入式系统工程师使用。此外,芯片还必须配备相应的开发环境,以便将训练好的人工智能模型编译到设备中。
GPX芯片系列提供了这种DigAn实现方案。在GPX产品中,DigAn模块被组合成AI处理器内核(见图5),这些内核可扩展以适应不同的应用需求。这些内核被称为MX8内核。
截至2025年底,GPX系列包括GPX10和GPX10 Pro两款产品。其中较新的GPX10 Pro采用两组各包含五个MX8内核的集群,以极低的功耗实现高性能推理。如图6所示,它是一款完整的系统级芯片(SoC),通过其Arm Cortex-M4F控制器内核管理控制和传感器接口操作。
尽管GPX设备系列采用了全新的底层技术,工程师仍然可以继续使用成熟可靠的框架和工具进行模型训练和开发。GPX处理器支持主流的机器学习框架,例如TensorFlow、PyTorch、Keras和ONNX。
Ambient Scientific 的 Nebula 软件开发工具包(适用于 GPX 设备)还提供了完整的模型训练工具链。它包括将 AI 模型转换为 MX8 内核的工具,以及用于配置中间件(例如设备驱动程序和实时操作系统)的工具,这些中间件运行在设备的 Cortex-M4F 内核上。
因此,基于 GPX10 或 GPX10 Pro 的边缘 AI 设计的工程师可以使用熟悉的平台软件进行模型开发,并在使用 Ambient Scientific IDE 时保持他们期望从传统 MCU 获得的设计效率。
总结
新的GPX芯片系列并没有采用不适用于人工智能功能的通用计算架构,而是采用了专为神经网络设计的硅架构。由于MX8 AI内核易于扩展,产品路线图设想未来的GPX设备将扩展到8000个内核,用于数据中心服务器和超级计算机。
对于优先考虑性能和功耗的 AI 系统开发人员来说,这些新芯片和 DigAn 架构预示着 AI 处理和神经网络操作的变革时代即将到来。
https://www.allaboutcircuits.com/industry-articles/the-configurable-matrix-computer-a-new-alternative-to-the-von-neumann-architecture/
(来源:编译自allaboutcircuits)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4266期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
半导体行业观察
2025-12-24
半导体行业观察
2025-12-24
半导体行业观察
2025-12-24
半导体行业观察
2025-12-24
半导体行业观察
2025-12-24
半导体行业观察
2025-12-24
证券之星资讯
2025-12-24
证券之星资讯
2025-12-24
证券之星资讯
2025-12-24