《CVPR2025-DEIM创新改进项目实战:从原理到部署的深度学习优化全攻略》004、DEIM数学基础:注意力机制与特征重标定的统一框架
CVPR2025-DEIM创新改进项目实战:从原理到部署的深度学习优化全攻略
004、DEIM数学基础:注意力机制与特征重标定的统一框架
一、从一次诡异的梯度爆炸说起
去年秋天调一个轻量级检测模型,在T4上跑得好好的,换到Jetson Orin上就炸了——loss直接飞到NaN。查了三天,最后定位到是SE模块的sigmoid输出在某些极端激活值下溢出了。当时我盯着那行y = x * torch.sigmoid(se(x)),突然意识到一个问题:注意力机制和特征重标定,本质上是不是在干同一件事?只是数学表达上绕了个弯子?
这个疑问直接催生了DEIM(Dynamic Efficient Interaction Module)的设计思路。今天这篇笔记,我们就从数学底层把这两件事掰开揉碎,看看它们到底怎么统一到一个框架里。
二、注意力机制的数学本质:不是“关注”,是“加权”
很多人讲注意力机制喜欢用“让模型关注重要区域”这种比喻,但作为搞嵌入式部署的人,我更愿意把它看作一种可学习的、输入依赖的加权操作。
标准的Scaled Dot-Product Attention:
Attention(Q,K,V) = softmax(QK^T / sqrt(d)) V拆开看,核心就两步:
- 计算相似度矩阵:
S = QK^T / sqrt(
