当前位置：首页 > news >正文

DRAM内存内计算中的位迁移技术解析与应用

news 2026/5/23 13:52:54

1. DRAM内存内计算中的位迁移技术解析

在传统计算架构中，数据需要在处理器和内存之间频繁搬运，这种"内存墙"问题已成为制约系统性能提升的主要瓶颈。内存内计算(Processing-in-Memory, PIM)技术通过在DRAM内存阵列中直接执行计算操作，从根本上解决了这一问题。其中，位迁移(bit-shifting)作为基础运算单元，对实现复杂计算功能至关重要。

1.1 位迁移操作的核心价值

位迁移操作看似简单，实则是支撑多种关键算法的基石。以最基本的移位相加乘法为例，每个计算周期都需要对部分积进行位移对齐。在密码学领域，AES加密算法中的MixColumns阶段需要频繁的位移和异或操作，Reed-Solomon纠错码的编解码过程也依赖Galois域上的多项式位移运算。传统方案需要将这些数据搬移至CPU处理，导致:

平均每次内存访问产生约100-200ns延迟
数据搬运能耗占系统总能耗的30-40%
带宽利用率不足50%

1.2 现有技术方案对比分析

当前主流的in-DRAM位移实现方案主要有两类：

垂直数据布局方案(如SIMDRAM)

将操作数比特沿位线垂直存储
通过行复制(RowClone)实现位移
优势：单次操作即可完成位移
劣势：
- 数据转置带来额外开销(约1000-10000nJ)
- 与标准DRAM访问模式不兼容
- 需要专用转置硬件

专用移位电路方案(如DRISA)

在灵敏放大器下方添加移位电路
直接实现比特线间数据传输
优势：
- 低延迟(20-40ns)
- 能效高(5-20nJ/次)
劣势：
- 面积开销大(5-10%)
- 布线复杂度高

关键发现：现有方案在兼容性和硬件开销间存在根本性矛盾，需要新的架构创新

2. 基于迁移单元的创新架构设计

2.1 开位线架构的特性利用

现代DRAM普遍采用开位线(open-bitline)架构，其核心特征包括：

位线被分成两组分别位于子阵列顶部和底部
灵敏放大器共享在两个相邻子阵列之间
单元面积从8F²缩减到6F²
天然支持电荷共享操作

我们的设计巧妙利用了这些特性：

保持标准水平数据布局
复用现有的电荷共享机制
通过迁移单元建立横向连接

2.2 迁移单元的双向扩展

迁移单元最初用于非对称子阵列的行迁移，我们对其进行了三项关键改进：

结构优化

双端口设计：共享存储电容的两个独立访问晶体管
增强驱动能力：W/L比例优化为2:1
对称布局：金属层走线等长匹配

阵列集成

顶部和底部各添加一行迁移单元
每行迁移单元连接两条字线
与常规单元行间隔保持6F间距

操作模式

// 迁移单元控制信号时序示例 module migration_cell_control ( input WL_standard, // 常规字线 input WL_mig_top, // 顶部迁移字线 input WL_mig_bot, // 底部迁移字线 output data_out ); // 时序控制逻辑 always @(posedge WL_standard) begin if (shift_enable) data_out <= charge_share; end endmodule

2.3 位移操作的四阶段流程

以右移1位为例，完整操作序列如下：

源行到顶部迁移行
- 激活源行字线(WL_src)
- 激活顶部迁移字线(WL_mig_top)
- 预充电(完成偶数列比特捕获)
源行到底部迁移行
- 再次激活WL_src
- 激活底部迁移字线(WL_mig_bot)
- 预充电(完成奇数列比特捕获)
顶部迁移行到目标行
- 激活WL_mig_top
- 激活目标行字线(WL_dst)
- 预充电(写入偶数列数据)
底部迁移行到目标行
- 激活WL_mig_bot
- 再次激活WL_dst
- 预充电(合并奇数列数据)

每个阶段均为标准的ACT-ACT-PRE(AAP)序列，确保与传统DRAM控制器兼容。左移操作仅需调整迁移单元的激活顺序。

3. 电路实现与物理设计

3.1 迁移单元版图优化

在22nm工艺节点下，迁移单元版图设计面临三大挑战：

匹配性要求

两个访问晶体管必须严格对称
金属走线等长匹配(误差<5%)
接触孔阵列均匀分布

面积约束

单元高度与常规1T1C单元保持一致
宽度增加约15%(考虑额外布线)
保持6F²的单元密度

可靠性保障

增加电荷保持电容(25fF→30fF)
双字线驱动增强电路
抗干扰屏蔽层设计

实际版图实现表明：

单元面积增加12.8%
访问延迟增加<5%
保持时间满足64ms刷新要求

3.2 子阵列级集成方案

完整子阵列集成需要考虑：

布线资源分配

资源类型	常规设计	本方案	增量
位线 pitch	44nm	44nm	0%
字线 pitch	36nm	38nm	+5.5%
金属层数	4	5	+25%

时序收敛策略

迁移字线与常规字线同步激活
灵敏放大器时序余量保持>200ps
电荷共享窗口控制在1.5ns

3.3 工艺节点扩展性

通过PTM模型仿真验证了多工艺节点的适应性：

参数	45nm	22nm	10nm
工作电压	1.5V	1.2V	1.1V
字线驱动电压	3.0V	2.5V	2.2V
单元电容	30fF	25fF	18fF
移位成功率	99.98%	99.95%	99.91%

关键发现：在10nm节点需额外考虑量子隧穿效应导致的电荷泄漏问题

4. 性能评估与优化

4.1 能效比突破

基于NVMain的仿真结果显示：

能量分解(单次8KB位移)

激活能量：30.24nJ (96.5%)
刷新能量：1.08nJ (3.5%)
总线能量：0nJ (完全in-DRAM)

能效优势

方案	能量(nJ)	相对值
本设计	31.32	1×
CPU搬运方案	3200	102×
SIMDRAM	1500	48×
DRISA	25	0.8×

虽然DRISA能效略优，但考虑其5-10%的面积开销，本设计在能效-面积积(Energy-Area Product)指标上领先3.2倍。

4.2 时序优化技巧

通过三项关键技术提升吞吐量：

流水线调度

# 多bank并行调度示例 def schedule_shifts(bank_list, shift_ops): for cycle in range(0, len(shift_ops), 8): for bank in bank_list[cycle%8]: execute_shift(bank, shift_ops[cycle])

刷新间隔优化