当前位置：首页 > news >正文

MRAM存内计算精度提升：统计误差补偿算法与SNDR评估

news 2026/5/26 13:59:44

1. 项目概述当存内计算遇上模拟非理想性在AI芯片和边缘计算领域我们一直在和“内存墙”这个老对手缠斗。传统的冯·诺依曼架构里数据在处理器和内存之间来回搬运所消耗的能量常常远超计算本身。存内计算In-Memory Computing, IMC的愿景很美好直接在存储单元阵列里完成矩阵向量乘法MVM这类核心运算让数据原地不动计算主动上门从而在理论上实现能效的飞跃。磁阻随机存取存储器MRAM作为一种嵌入式非易失性存储器eNVM因其高密度、非易失性和CMOS工艺兼容性被视为实现IMC的理想候选者之一。然而从美好的理论到可靠的芯片中间隔着一道名为“模拟非理想性”的鸿沟。当你试图用模拟域的电流、电压来表征数字世界的“0”和“1”并执行精确计算时现实会给你上一课晶体管失配、线缆寄生电阻、热噪声……这些在数字电路里可能只是时序裕度问题的因素在模拟计算领域却直接决定了结果的生死——也就是计算精度。我们这次要拆解的正是一项直面这道鸿沟的工作一款基于22nm工艺的MRAM存内计算宏其核心创新在于通过一种名为“统计误差补偿”Statistical Error Compensation, SEC的算法来对抗由位线/源线BL/SL寄生电阻引起的非线性失真从而显著提升计算信噪失真比SNDR和最终的神经网络推理精度。简单说它不追求制造一个“完美”的模拟电路这几乎不可能而是选择在计算过程中智能地“预失真”输入信号来抵消硬件本身引入的畸变。这项工作的价值在于它提供了一种任务无关、硬件通用的精度提升思路。不同于需要针对特定硬件噪声分布进行重新训练的“噪声感知训练”SEC直接在硬件层面进行补偿以极低的额外开销论文报告仅0.8%的能量和12.2%的面积换来了系统级精度的实质性飞跃。对于致力于将IMC推向实际应用的工程师而言这种在“不完美的物理世界”中寻求“可用的计算精度”的务实思路极具参考价值。2. 核心挑战精度之殇与SNDR度量要理解SEC的价值首先得看清MRAM IMC面临的核心挑战是什么。这不仅仅是MRAM的问题而是所有基于电阻/导电状态变化的存内计算架构共同面临的困境。2.1 模拟非理想性的三重奏在MRAM IMC宏中一次矩阵向量乘法的结果最终体现为一列存储单元的总电流。这个电流需要被高精度地读取并转换为数字信号。在这个过程中三大非理想性严重制约了精度静态ADC列失配这是由工艺角Process、电压Voltage、温度Temperature波动以及模拟电路本身固有的器件失配导致的。想象一下你有128个并行的模数转换器ADC列每一列的理想增益和偏移都应该完全相同。但现实中由于制造偏差每一列的响应曲线都略有不同。当你给所有列输入相同的模拟信号时它们输出的数字码会有一个固定的、随机的偏差。这种失配是“静态”的不随输入信号变化但会直接给计算结果注入一个固定的误差。BL/SL寄生电阻引起的非线性这是本次工作的主攻对象。存内计算阵列通常规模很大例如512x512。当电流流经长长的、狭窄的金属位线和源线时线本身的电阻r_bl, r_sl不可忽略。这会导致一个严重问题位于阵列不同位置的存储单元其两端的实际电压并不相等。顶部的单元看到的电压接近驱动电压而底部的单元由于线上压降有效电压会降低。这就意味着即使存储的权重和输入的激活值完全相同位于顶部和底部的单元贡献的电流也不一样。更糟糕的是这种效应与哪些单元被激活即输入向量的模式强相关导致输入输出关系不再是理想的线性关系而是产生了复杂的非线性失真。热噪声与电源噪声在低电流水平下为了高能效工作电流通常被设计得很小电路中的热噪声变得显著。同时大规模阵列的电源网络也存在阻抗导致不同区域的ADC列工作电压有微小梯度这进一步引入了误差。2.2 为何传统方法力不从心面对这些挑战业界尝试过几种路径但各有局限缩小计算维度既然大阵列问题多那就把阵列做小。例如将一次矩阵向量乘法拆解到多个很小的子阵列如N10中完成。这确实能缓解寄生电阻和非线性问题但代价是牺牲了eNVM本身的高密度优势并且需要频繁地在子阵列间搬运中间数据和权重增加了控制复杂度和能耗本质上又回到了“内存墙”的老路。噪声感知训练这是一种算法层面的补救措施。在训练神经网络时事先将目标硬件的噪声模型注入训练过程让网络模型学会“适应”硬件误差。这种方法虽然有效但存在三大硬伤一是硬件特异性模型绑定特定芯片换一块芯片或工艺节点可能就要重训二是任务特异性针对CIFAR-10数据集训练的模型在ImageNet上可能表现不佳三是掩盖了硬件本质它让算法去迁就有缺陷的硬件使我们难以客观评估和比较不同IMC架构本身的优劣。2.3 引入计算SNDR一个硬件本征的精度标尺正是为了突破上述局限这项工作引入并强调了一个关键指标计算信噪失真比Compute SNDR。提示SNDR对我们硬件工程师来说并不陌生在评估ADC、DAC等数据转换器性能时常用。但将其应用于评估一个存内计算“计算单元”的精度是一个非常重要的视角转变。计算SNDR的定义很直观对于一个存内计算列即一个ADC列我们将其视为一个“计算通道”。我们输入一系列已知的、能覆盖其所有可能工作状态的测试向量权重和激活值的组合得到其数字输出。计算SNDR就是理想输出信号功率与输出中噪声和失真总功率的比值用分贝dB表示。$$ \text{SNDR} 10 \log_{10}\left( \frac{\text{Var}(y_{\text{ideal}})}{\text{MSE}(y_{\text{ideal}}, y_{\text{measured}})} \right) $$其中$y_{\text{ideal}}$是理想的矩阵乘法结果$y_{\text{measured}}$是经过校准后的芯片实测输出MSE是均方误差。为什么SNDR如此重要任务无关性它衡量的是硬件本身执行MVM运算的保真度不依赖于任何特定的神经网络或数据集。这为不同IMC架构提供了一个公平的、底层的比较基准。揭示本质权衡SNDR直接反映了模拟非理想性的综合影响。通过测量不同工作点如不同偏置电流、时钟频率下的SNDR我们可以清晰地绘制出“精度-能效”权衡曲线。这是IMC架构设计的核心指南。连接硬件与算法虽然SNDR是硬件指标但它与上层神经网络精度存在强相关性。一个高的、平坦的即对不同输入模式变化不敏感的SNDR通常预示着更高的网络推理精度。这项工作也实证了这一点。因此提升MRAM IMC精度的战斗可以明确地定义为在给定的能效约束下最大化其计算SNDR。而SEC算法正是为此目标而生的一件利器。3. 技术深潜OCCS与SEC如何联手提升SNDR论文提出了两套组合拳来提升SNDR一是电路层面的“偏移补偿电流传感”OCCS架构用于压制静态失配二是算法层面的“统计误差补偿”SEC用于校正非线性失真。两者相辅相成我们先从电路基础看起。3.1 偏移补偿电流传感OCCS架构电流传感CS电路是IMC的“感官”负责将阵列的模拟电流信号转换为后续ADC可处理的电压或电流。其核心任务是在低电流为了能效下实现高精度、低失配的传感。3.1.1 现有方案的困境论文回顾了三种主流CS架构自偏置PMOS结构最简单但输出电流严重依赖晶体管参数$k_p$, $V_t$对PVT变化极其敏感导致列间失配大。负反馈传感通过运放负反馈将位线电压$V_{BL}$钳位到参考电压$V_{ref}$减少了PVT依赖。但为了在高电导$G_s$下维持足够的环路增益需要运放具有极高的增益例如80dB功耗和面积代价大。且当$V_{ref}$设得很低以节能时运放本身的失调电压$V_{os}$通常5-10mV影响会变得非常突出。共栅反馈传感CGFBS在环路中引入共栅级放松了对运放增益的要求并隔离了$V_{BL}$和$V_{ref}$允许更低的$V_{BL}$。然而$V_{BL}$仍然依赖于共栅管$M_2$的阈值电压$V_t$PVT变化的影响依然存在。3.1.2 OCCS的创新设计OCCS架构的巧妙之处在于它用一颗电阻$R_B$取代了CGFBS中的共栅晶体管$M_2$。这一改变使得位线电压$V_{BL} V_P - I_B R_B$完全与晶体管参数脱钩从根本上增强了对PVT变化的鲁棒性。但挑战也随之而来运放失调电压$V_{os}^a$、电阻$R_B$的失配$\Delta R_B$、偏置电流$I_B$的失配$\Delta I_B$这些因素会共同作用在$V_P$点产生一个净失调电压$V_{os} V_{os}^a - I_B \Delta R_B$依然会引入误差。OCCS的解决方案是一个精巧的两步补偿技术工作在自动归零AZ和评估E两个相位AZ相位外部反馈环路断开。电路利用一个内部辅助环路通过调节电流$I_{os}$在电容$C_{os}$上建立一个电压使得$V_P$点的电位被强制调整恰好抵消掉前述的净失调电压$V_{os}$。这个过程是自适应的可以补偿正负失调。E相位外部反馈环路闭合进行正常的电流传感。此时AZ相位存储在$C_{os}$上的校正电压被保持从而在整个计算周期内抑制了静态失配。实操心得这种“先校准后计算”的思路在模拟电路设计中很常见关键在于如何以低开销实现精准、稳定的补偿。OCCS通过共享偏置电流源、使用匹配晶体管对以及精心设计电阻比例$R_B 0.8R_C$在面积仅增加约17%的情况下将$V_{BL}$的变异系数$\sigma/\mu$显著降低。在芯片设计时需要特别注意AZ相位开关的电荷注入效应以及$C_{os}$电容的漏电问题这些都会影响补偿效果的保持时间。3.2 统计误差补偿SEC算法原理如果说OCCS解决了“固定偏差”问题那么SEC要解决的就是“动态非线性”问题——由BL/SL寄生电阻引起的、与输入数据模式相关的失真。3.2.1 问题建模α加权信号模型理想情况下一个ADC列的输出电流应与理想点积$y_o \sum_{i1}^{N} w_i x_i$成线性关系。但由于寄生电阻位于第$i$行、第$j$列的单元其贡献的电流会被衰减一个因子$\alpha_{ij}$0 $\alpha_{ij}$ 1且通常越靠阵列底部$\alpha_{ij}$越小。因此实际测得的输出可以建模为 $$ y_j \sum_{i1}^{N} \alpha_{ij} w_{ij} x_i $$ 这与理想输出$y_{oj} \sum_{i1}^{N} w_{ij} x_i$之间存在误差。更麻烦的是$\alpha_{ij}$不仅随行号$i$变化对于同一行在不同列$j$之间也有差异由于布局、工艺偏差。3.2.2 SEC的核心思想输入缩放与输出缩放SEC的目标是找到一个补偿方法使得补偿后的输出$\hat{y}j$尽可能接近理想的$y{oj}$。其核心洞察是如果我们能在数据输入阵列之前对每一行的输入$x_i$乘以一个补偿因子$\gamma_i$并在ADC输出之后对每一列的输出乘以另一个补偿因子$\theta_j$那么就有机会抵消$\alpha_{ij}$的影响。数学上我们期望 $$ \hat{y}j \theta_j \sum{i1}^{N} \alpha_{ij} w_{ij} (\gamma_i x_i) \propto y_{oj} $$ 如果设计得当使得$\theta_j \gamma_i \alpha_{ij} \approx 1$那么非线性就被补偿了。这里的精妙之处在于分解$\gamma_i$是行共享的所有列的第$i$行输入都使用同一个$\gamma_i$进行缩放。这大大减少了需要存储和应用的参数数量从$N \times N_c$$N_c$为列数降低到$N$。$\theta_j$是列共享的第$j$列的所有输出都使用同一个$\theta_j$进行缩放。参数数量为$N_c$。通过这种行列分离的补偿策略SEC以$O(N N_c)$的复杂度解决了原本需要$O(N \times N_c)$参数才能完整描述的非均匀失真问题实现了硬件开销与补偿精度之间的高效折衷。3.2.3 在线学习随机梯度下降SGD$\gamma_i$和$\theta_j$这些补偿因子不是靠理论计算出来的因为寄生电阻值在制造前未知且存在片间差异而是通过在线学习获得的。系统以一个已知的、简单的训练序列例如随机的输入向量和对应的理想输出来驱动IMC阵列。将IMC的实际输出与理想输出比较得到误差$e_j y_{oj} - \hat{y}j$。然后采用随机梯度下降SGD算法来更新$\gamma_i$ $$ \gamma_i[t1] \gamma_i[t] \mu \sum{j1}^{N_c} e_j[t] \cdot \text{sgn}(x_i[t] w_{i,j}) $$ 其中$\mu$是学习率。$\theta_j$的更新规则类似或者可以在学习完$\gamma_i$后通过一次性的线性回归确定。注意事项这里的$\text{sgn}(\cdot)$函数很关键。因为MRAM存内计算中权重$w_{i,j}$和激活值$x_i$通常是二值化的1/-1它们的乘积也是1或-1。使用符号函数可以避免乘法运算简化硬件实现。学习过程是轻量级的一旦收敛这些补偿因子就可以在后续的推理阶段固定使用。3.3 定点化实现与硬件开销算法要在芯片上运行必须进行定点化Fixed-Point设计以节省面积和功耗。论文中详细探讨了精度分配策略梯度统计通过浮点行为级仿真观察SGD更新过程中梯度值的统计分布最大值$\sigma^{(\max)}$和最小值$\sigma^{(\min)}$。精度准则根据[18]中的准则梯度裁剪范围$c$应满足$c \geq 2\sigma^{(\max)}$量化步长$\Delta$应满足$\Delta (1/4)\sigma^{(\min)}$。这确保了在定点化过程中梯度信息不会因为溢出或精度不足而丢失。最终配置根据上述准则论文确定$\gamma_i$用7比特表示足以满足推理路径的精度用于累积更新$\gamma_i$的累加器需要14比特。学习率$\mu$被设置为2的幂次方这样在硬件中可以通过简单的移位操作来实现“档位切换”gear shifting加速收敛。最终的SEC处理器被集成在IMC宏的数字部分。其面积开销主要来自存储$\gamma_i$和$\theta_j$以及中间变量的寄存器占SEC处理器面积的80%以上。论文报告的总面积开销为12.2%但指出如果使用SRAM替代部分寄存器可将总开销降至3.7%。能量开销仅为0.8%几乎可以忽略不计。这种以极小代价换取显著精度提升的策略在工程上非常具有吸引力。4. 芯片实现与实测结果分析理论再完美也需要硅上验证。这款22nm FD-SOI工艺下的MRAM IMC测试芯片为我们提供了审视OCCS和SEC性能的绝佳窗口。4.1 芯片架构与测量设置芯片核心是一个512x512的MRAM阵列但以128个ADC列的方式组织。每个ADC列实际上包含4个物理列每个物理列都有自己的OCCS传感电路。这种设计支持1-bit权重与4-bit激活值的点积运算通过比特串行方式处理多位输入。测量链路整个评估系统是一个典型的芯片测试闭环。在PC端用Python脚本生成测试向量和收集数据通过PYNQ-Z2开发板上的FPGA配置芯片并读取结果芯片则焊接在单独的测试PCB上。这种设置允许进行大量的、自动化的数据采集对于SNDR这种需要大量统计样本的指标评估至关重要。4.2 SNDR表征噪声与失配的量化论文的SNDR测量方法非常系统化值得借鉴状态激活为了全面表征ADC列需要激活其所有可能的工作状态。但由于状态数随维度N指数增长$2^{2N}$全遍历不现实。因此作者采用了一种巧妙的简化按输出码值分组。他们将所有能产生相同理想输出值$c$的输入权重组合归为一组$S_c$然后在每组中随机采样一定数量的状态进行测量。这保证了测量能覆盖从负到正的全部输出范围。校准在计算SNDR前先对每个ADC列的原始输出进行离线最小均方误差MMSE校准即通过测试数据集拟合出每个列的最佳增益$a$和偏移$b$公式(11)(12)。这消除了OCCS未能完全补偿的剩余静态失配让我们能更纯粹地观察SEC对动态非线性的补偿效果。结果分析测量结果清晰地揭示了问题。噪声随信号增大如图12(a)所示单个ADC列的输出噪声标准差$\sigma$随着理想输出$y_o$的增大而增加。这是因为主要噪声源偏置管M9等的噪声电流在传感节点$V_P$处被放大放大因子为$(1 R_B G_s)$而$G_s \propto y_o$。SNDR随N增大而暴跌如图13所示当内积维度N从64增加到128时单个ADC列的SNDR从5.15 dB骤降至0.77 dB。这正是BL/SL寄生电阻非线性效应加剧的直观体现。阵列越大线越长电阻越大电压梯度越严重非线性失真越强。4.3 SEC的威力SNDR提升与能效权衡启用芯片上的SEC处理器进行在线学习后效果立竿见影SNDR提升图14(b)显示在8个ADC列上平均SNDR从4 dB提升到了9.15 dB提升超过5 dB。个别列的提升甚至达到4-6 dB。这直接证明了SEC算法有效补偿了BL/SL寄生电阻引起的非线性。学习到的γ_i图14(a)展示了学习到的行补偿因子$\gamma_i$。可以看到$\gamma_i$的值从阵列顶部到底部逐渐增大。这正好与我们的直觉相反底部单元因为压降导致贡献电流小所以我们反而要放大输入到底部单元的信号乘以更大的$\gamma_i$以预补偿这种衰减使得最终所有行的“有效贡献”趋于一致。精度-能效权衡这是工程设计的核心。图14(c)展示了在不同配置N, F_clk和ADC精度B_ADC下SEC带来的SNDR提升2.7-6 dB。关键在于我们可以利用这个“精度盈余”来做交易。例如为了达到某个目标SNDR比如6 dB在没有SEC的情况下我们需要工作在较高的偏置电流高能耗下。而有了SEC我们可以在更低的偏置电流低能耗下就达到同样的SNDR。论文量化了这个收益在同等SNDR水平下SEC能实现每1-bit操作能耗降低5倍而SEC自身的能耗开销仅为0.8%。注意论文也指出当N128且时钟频率较高时SEC带来的SNDR提升有所减弱。这是因为在高频、大阵列下其他噪声源如热噪声的影响变得更加主导而SEC主要补偿的是确定性非线性失真。这提醒我们SEC是解决非线性失真的利器但并不能消除所有噪声。4.4 系统级验证神经网络精度提升最终的试金石是真实的AI任务。作者将ResNet-20网络CIFAR-10数据集的最后一层全连接层映射到MRAM IMC阵列上执行。最后一层直接输出分类结果其对噪声非常敏感是检验计算精度的理想位置。基准数字定点4-bit权重7-bit激活实现的基线准确率为91.1%。无SEC的IMC直接将训练好的权重映射到未经补偿的IMC上推理准确率降至74.8%。这显示了模拟非理想性对精度的巨大破坏。启用SEC的IMC在IMC上运行SEC算法学习补偿因子后再进行推理准确率提升至82.0%提升了7.2个百分点。这个提升意义重大无需重训这个82.0%的精度是在没有对神经网络进行任何噪声感知再训练的情况下取得的。SEC是在硬件层面进行补偿与任务无关。与SNDR关联7.2%的精度提升与平均3 dB的SNDR提升有很好的相关性验证了“银行级SNDR是系统级精度的有效代理指标”这一核心观点。仍有差距当然82.0%与91.1%的数字基线仍有差距。这中间的差距包含了SEC未完全补偿的非线性残余、ADC量化噪声、随机热噪声等其他因素。这也指明了未来的优化方向。5. 设计启示与延伸思考通过这篇论文的深度拆解我们能从中提炼出哪些对实际芯片设计有价值的经验和思考5.1 从“完美电路”到“容错系统”的思维转变传统模拟电路设计追求在晶体管级实现尽可能高的线性度、匹配度和信噪比。但在存内计算这种大规模、高并行度的模拟计算系统中追求每个单元的绝对精度成本极高甚至不可行。OCCS和SEC代表了一种更务实的“系统级纠错”思路OCCS承认失配必然存在但通过巧妙的电路结构AZ相位在系统工作时实时测量并补偿它。SEC承认布线寄生必然引起非线性但通过算法在数字域建模并反向补偿它。这种思路将设计重点从“消除误差源”部分转向“测量并补偿误差效应”往往能以低得多的代价获得整体系统精度的显著提升。5.2 精度评估体系的重要性这篇论文花了大量篇幅阐述SNDR的测量方法这绝非偶然。对于一个新型计算架构建立一套客观、可重复、能反映其根本能力的评估体系比单纯追求某个网络上的高精度更有长远价值。对内SNDR帮助设计者理解不同非理想性的影响权重指导设计迭代。例如从SNDR随N恶化的趋势可以量化寄生电阻的瓶颈效应。对外SNDR提供了一个与算法、任务解耦的硬件性能标尺便于不同团队、不同技术路线的IMC方案进行公平比较。5.3 算法-硬件协同设计的典范SEC是算法-硬件协同设计的优秀案例算法层面SGD是机器学习中再经典不过的算法但被创造性地用于学习硬件畸变特性。输入缩放$\gamma_i$和输出缩放$\theta_j$的分解极大降低了硬件实现复杂度。硬件层面定点化精度经过精心选择学习率设为2的幂以支持移位操作寄存器阵列的规划等都体现了对硬件开销的深刻理解。接口层面SEC处理器作为数字模块与模拟IMC核心协同工作构成了一个完整的“自校正”系统。这种架构为未来更复杂的在线校准、自适应补偿打开了大门。5.4 对未来eNVM IMC设计的启示感知电路小型化是王道论文指出当前eNVM IMC中存储阵列面积占比往往不到10%超过90%的面积被高精度的读出电路传感放大器、ADC占据。这严重抵消了eNVM的高密度优势。未来的研究必须聚焦于开发更紧凑、能效更高的传感方案。OCCS是一个很好的方向。误差补偿的层次化SEC处理的是系统性的、与位置相关的非线性。但还有随机噪声、随时间/温度漂移的误差等。未来的IMC可能需要一个层次化的误差管理单元第一层像OCCS处理实时失配第二层像SEC处理确定性非线性第三层或许需要结合轻量级的在线训练来适应慢时变漂移。扩展到多比特与高精度本文主要针对二值/低精度计算。当权重和激活值向更高比特发展时非理想性的影响会更复杂。SEC的思想可以扩展但需要更精细的建模例如考虑不同电导状态下的非线性差异和更复杂的补偿架构。在我个人看来这项工作的最大贡献不在于将某个网络的准确率提升了几个点而在于它为我们提供了一套系统性的方法论如何量化存内计算的模拟缺陷SNDR如何设计低开销的电路来抑制一部分缺陷OCCS以及如何用智能的算法来补偿另一部分缺陷SEC。它清晰地展示了在通往实用化存内计算的道路上接受不完美并学会与不完美共舞或许比徒劳地追求完美是一条更可行的路径。

查看全文

http://www.zskr.cn/news/1392099.html