当前位置: 首页 > news >正文

028、片上SRAM vs 片外DRAM:NPU存储设计的权衡

028、片上SRAM vs 片外DRAM:NPU存储设计的权衡去年调一个边缘推理板卡,模型跑MobileNetV3,帧率死活上不去。看波形图,NPU核心利用率只有40%多,大部分时间在等数据。我盯着DDR总线上那些长长的读延迟波形,突然意识到一个残酷的事实:NPU不是在算,是在等。那次之后,我花了两周时间重新梳理了NPU存储架构。今天这篇笔记,就是当时踩坑的总结。一个真实的调试现场先说说那个让我失眠的bug。板子上用的是某款国产NPU芯片,片上SRAM只有2MB,片外挂了两颗LPDDR4,总容量4GB。跑分类网络时,模型权重大概3.8MB,激活值中间结果大约1.2MB。按说4GB的DDR带宽有25.6GB/s,应该够用才对。但实际跑起来,NPU的PE阵列(处理单元阵列)经常空转。用逻辑分析仪抓DDR总线,发现每笔读请求的延迟在80-120ns之间,而NPU内部一个MAC操作只需要0.5ns。这意味着,等一次DDR读的时间,足够PE做200次乘法。更坑的是,权重数据是反复重用的。同一个卷积核的权重,在滑动窗口过程中会被读取几十次。每次都要从DDR读,带宽全浪费在重复传输上了。片上SRAM:贵但快,容量是硬伤片上SRAM的延迟通常在1-2ns,带宽可以做到几百GB/s(取决于工艺和设计)。但代价是面积和功耗。在28nm工艺下,1MB的SRAM面积大约2-3平方毫米,而同样容量的DRAM(需要外挂)面积成本低两个数量级。NPU设计里,SRAM主要用来做三件事:
http://www.zskr.cn/news/1378906.html

相关文章:

  • 026、DMA引擎:NPU与外部存储的数据搬运工
  • 单向晶闸管开关电路基础知识及Multisim电路仿真
  • 基于孪生卷积神经网络的星系团速度图相似性度量与匹配
  • Android 深度电量优化实战:聚焦后台任务、Alarm 与 WorkManager 的现代解决方案
  • 如何快速掌握Diablo Edit2:暗黑破坏神2存档修改终极指南
  • m4s-converter:如何在5秒内将B站缓存视频转换为通用MP4格式
  • 沈阳6月雨季来临,房屋漏水怎么办?卫生间免砸砖防水、外墙、屋面+地下室渗漏。权威防水公司靠谱TOP5推荐(2026年6月本地最新深度调研) - 企业资讯
  • 别再手动测Bug了!用Google Gtest 1.14.0给你的C++代码上个“保险”(附完整配置流程)
  • 免费岛屿设计终极指南:5分钟快速掌握Happy Island Designer
  • Python爬虫避坑手册:10年爬取经验总结,看完再也不会被封IP
  • 如何用FGA自动化工具解放双手:5个技巧让FGO刷本效率提升300%
  • 3步掌握UE4SS:从游戏玩家到模组开发者的完整路径
  • 终极Unity游戏去马赛克完整指南:5个免费插件的简单配置教程 [特殊字符]
  • 深度解析yuzu:开源Switch模拟器的架构设计与性能优化指南
  • 【独家披露】DeepSeek灰度发布SLI/SLO基线标准:99.95%可用性背后的4层验证漏斗
  • 免费岛屿设计工具终极指南:Happy Island Designer 完整教程 [特殊字符]️
  • 终极免费方案:Wand-Enhancer 强力解锁WeMod完整功能完整指南
  • 淘金币自动化脚本:5分钟完成淘宝每日任务终极指南
  • 如何轻松让老旧Mac焕发新生:OpenCore Legacy Patcher完整实践指南
  • 开源知识库GitHub使用经验总结
  • 5分钟完成淘宝淘金币全任务:终极自动化脚本使用指南
  • Scroll Reverser:macOS设备级滚动方向控制的技术实现方案
  • 3分钟快速上手:SPT-AKI存档编辑器的终极修改指南
  • 消防宣传展厅设备超级消防员:打造沉浸式互动科普新模式
  • 别再乱用LookRotation了!Unity中控制角色朝向的3个实战技巧与常见误区
  • 如何高效清理Mac磁盘空间:专业工具Pearcleaner使用指南
  • Unlock Music:3分钟学会在浏览器中解密任何加密音乐文件
  • 囚禁离子qudit的高效操控与量子计算新突破
  • sd卡照片删除怎么恢复正常使用教程,只需6个方法,数据就能完美恢复(含完整视频教程)
  • B站CC字幕下载完整指南:5分钟学会免费获取视频字幕资源