计算架构革新:从存算分离到存算一体

1. 传统计算架构回顾

1.1 冯·诺依曼架构

  • 定义:将计算单元(CPU)和存储单元(内存)分开的经典架构。
  • 工作原理
    1. 数据和指令存储在内存中
    2. CPU从内存读取数据和指令
    3. CPU进行处理
    4. 结果写回内存
  • 优点:结构简单,通用性强,易于理解和编程
  • 缺点:存在”冯·诺依曼瓶颈”,即频繁的数据传输导致性能瓶颈

要点总结

  • 冯·诺依曼架构是现代计算机的基础,但面临数据传输瓶颈
  • 这一架构的局限推动了新型计算架构的研究和发展

2. 近存计算 (Near-Memory Computing)

2.1 定义与原理

  • 定义:将计算单元移closer to存储单元的架构设计
  • 工作原理:在内存附近放置简单的处理单元,用于执行基本的数据处理任务

2.2 优势

  1. 减少数据传输距离,降低延迟
  2. 提高数据处理的并行性
  3. 减轻主CPU的负担

2.3 应用场景

  • 适用于需要大量数据处理但计算相对简单的任务
  • 例如:数据库操作、图像处理等

2.4 类比理解

想象一个图书馆,近存计算就像在书架旁设立小型阅读区,读者可以直接在书架旁阅读和处理信息,大大提高效率。

2.5 当前硬件实现

  1. 处理器内存(PIM)
    • 在DRAM芯片中集成简单的处理单元
    • 例:Samsung的HBM-PIM
  2. 智能SSD
    • 在固态硬盘中集成处理器
    • 例:NGD Systems的Newport平台
  3. 3D堆叠存储器
    • 将逻辑层和存储层在三维空间上紧密堆叠
    • 例:Micron的Hybrid Memory Cube(HMC)
  4. FPGA与HBM集成
    • 将FPGA与高带宽内存紧密集成
    • 例:Intel的Stratix 10 MX FPGA

要点总结

  • 近存计算通过将处理单元靠近存储单元来提高效率
  • 多种硬件实现方式,各有特点和适用场景
  • 显著减少数据移动,提高处理速度和能效

3. 存算一体 (Computing-in-Memory)

3.1 定义与原理

  • 定义:直接在存储单元内部进行计算的设计
  • 工作原理:利用存储介质的物理特性(如电阻、电容变化)来执行逻辑运算

3.2 优势

  1. 彻底消除数据移动开销
  2. 大幅提高能效
  3. 支持高度并行化计算

3.3 挑战

  1. 需要特殊的硬件设计
  2. 编程模型复杂
  3. 通用性较差

3.4 应用场景

特别适合神经网络、矩阵运算等特定领域

3.5 类比理解

存算一体就像是一个魔法书架,只需对书架施咒,它就能自动处理和整合书中的信息,无需将书取出。

3.6 忆阻器与存算一体

忆阻器(Memristor)是实现存算一体的关键技术之一。

3.6.1 忆阻器基本概念

  • 定义:一种新型电子元件,其电阻可根据通过的电流而改变,并在断电后保持状态
  • 类比:像一个水管,其管径可以根据水流的历史而变化,即使关掉水龙头,管径也保持不变

3.6.2 忆阻器实现存算一体的原理

  1. 存储功能
    • 利用电阻状态表示数据(如高电阻表示”1”,低电阻表示”0”)
    • 非易失性,断电后保持状态
  2. 计算功能
    • 通过控制电压或电流实现基本逻辑运算
    • 可进行模拟计算,如乘法运算
  3. 原位操作:直接在存储数据的地方进行计算,无需数据移动
  4. 并行处理:大量忆阻器可同时进行操作,实现高度并行化计算
  5. 能效提升:减少数据移动,大幅降低能耗
  6. 模拟神经网络:特性与生物神经元相似,可模拟神经网络行为

3.6.3 实现示例:矩阵乘法

  1. 将矩阵元素存储在忆阻器阵列中
  2. 通过控制电压,直接在忆阻器阵列中完成乘法运算
  3. 结果立即存储在忆阻器中,无需额外的数据传输

3.6.4 挑战与局限性

  1. 制造技术:大规模生产稳定可靠的忆阻器仍有困难
  2. 精度控制:在模拟计算中,保证高精度计算结果具有挑战性
  3. 编程模型:需要开发新的编程范式来充分利用忆阻器的特性

要点总结

  • 存算一体彻底改变了传统的计算模式,直接在存储单元内进行计算
  • 忆阻器是实现存算一体的关键技术,具有存储和计算双重功能
  • 存算一体技术在特定领域(如神经网络计算)具有显著优势,但面临制造和编程模型的挑战

4. 存算分离 (Compute-Memory Separation)

4.1 定义与原理

  • 定义:传统的冯·诺依曼架构,计算单元和存储单元物理分离
  • 工作原理:CPU和内存分离,通过总线进行数据交换

4.2 优点

  1. 结构清晰,易于设计和管理
  2. 通用性强,可以处理各种类型的计算任务

4.3 缺点

  1. 数据传输成为性能瓶颈
  2. 能耗较高

4.4 应用场景

仍然是目前大多数通用计算设备的主流架构

要点总结

  • 存算分离是传统计算架构的基础,具有通用性和设计简洁性
  • 面临数据传输瓶颈和能耗问题,推动了新型计算架构的发展

5. 架构对比分析

特性 存算分离 近存计算 存算一体
性能
能效
通用性
实现难度
编程复杂度

要点总结

  • 从存算分离到存算一体,性能和能效提升,但通用性降低,实现难度和编程复杂度增加
  • 选择合适的架构需要根据具体应用场景和需求权衡

6. 现有技术与近存计算的关系

6.1 GPU与近存计算

  • 相似点
    1. 计算单元和存储单元(如共享内存)物理上紧密集成
    2. 高带宽存储器与处理核心紧密耦合
    3. 某些操作可直接在共享内存中执行
  • 不同点
    1. GPU仍遵循相对传统的计算模型
    2. 数据仍需在全局内存和计算核心之间移动
  • 结论:GPU可视为向近存计算方向发展的一步,但不是典型的近存计算硬件

6.2 CPU缓存与近存计算

  • 相似点
    1. 缓存位于CPU内部,物理上非常接近计算单元
    2. 某些现代CPU架构允许直接在缓存上执行简单操作
  • 不同点
    1. 缓存主要用于临时存储和加速数据访问,不直接进行复杂计算
    2. 仍遵循传统的冯·诺依曼架构模型
  • 结论:CPU缓存体现了近存计算的某些特征,但严格来说不属于典型的近存计算硬件

要点总结

  • GPU和CPU缓存技术体现了向近存计算过渡的趋势
  • 这些技术共享减少数据移动、提高计算效率的思想
  • 未来的GPU和CPU设计可能会更多地incorporate近存计算的理念

7. 未来发展趋势

  1. 混合架构:结合多种计算范式的混合架构,平衡性能、能效和通用性
  2. 新型存储技术:如忆阻器、磁阻随机存取存储器(MRAM)的发展推动存算一体技术进步
  3. 专用化趋势:针对特定应用场景(如AI加速器)的专用计算架构采用近存计算或存算一体设计
  4. 异构集成:将不同类型的处理单元和存储单元更紧密地集成
  5. 编程模型创新:开发新的编程范式来充分利用近存计算和存算一体架构的特性

要点总结

  • 计算架构正经历从传统存算分离向更高效的近存计算和存算一体方向的演进
  • 未来趋势包括混合架构、新型存储技术、专用化设计和编程模型创新
  • 这些发展有望解决当前计算系统的瓶颈问题,开启更高效、智能的计算新纪元