当前位置：首页 > news >正文

017、权重共享与稀疏计算：减少计算量的技巧

news 2026/6/11 7:33:44

好的，我们继续。今天这篇，从一个让我在凌晨三点对着示波器骂街的bug说起。

那是在做一款轻量级人脸检测NPU驱动的时候。模型跑在仿真器上，帧率25，一切完美。烧到芯片上，直接掉到7帧。排查了三天，DMA带宽没跑满，DSP负载也不高，最后用硬件性能计数器一查——MAC阵列利用率只有12%。换句话说，芯片里那个号称1TOPS的NPU核心，大部分时间在“空转”，等数据。

问题出在哪？模型里大量全连接层，权重矩阵密密麻麻，几乎没有稀疏性。而NPU的硬件设计，默认假设权重是稠密的，按固定步长从SRAM里拉数据。一旦遇到零值，它不会跳过，而是老老实实做“0乘某数再加到累加器”这种毫无意义的操作。这就像你让一个搬运工扛着空箱子来回跑，累得半死，活没干多少。

从那以后，我对“减少计算量”这件事的理解，从算法层面下沉到了硬件微架构层面。今天聊的两个技巧——权重共享和稀疏计算，本质上都是在跟NPU的“无效劳作”作斗争。

先讲权重共享。这个概念最早在卷积神经网络里被大规模应用——一个卷积核滑过整个特征图，参数是同一组。但这里要聊的，是更激进的共享方式，比如深度可分离卷积里的逐点卷积，或者某些量化网络里对权重进行聚类。

有一次调试一个语音唤醒模型，模型大小被限制在128KB以内。全连接层权重占了80%。我试了试K-means聚类，把32位浮点权重聚成16类，每个权重只存一个4bit的索引，查表得到实际值。模型精度掉了不到1%，但权重体积直接缩到原来的1/8。

这里有个坑，踩过的人不少——别在硬件