【RT-DETR实战】199、总结与回顾:RT-DETR改进方法论提炼
从一次深夜调试说起
上周三凌晨两点,我在实验室盯着屏幕上一串诡异的mAP数值发呆。明明在COCO上跑得好好的RT-DETR,换到我们自己产线的缺陷检测数据集上,AP50直接掉了15个点。
损失曲线震荡得像是心电图,推理速度也从28FPS掉到了不足15。那一刻我突然意识到——把RT-DETR当黑盒用,是我们在工业场景踩过最大的坑。
这不是模型的问题,是我们没搞懂它到底怎么工作。
今天这篇总结,就想把过去几个月在RT-DETR上折腾出的血泪经验,提炼成一套可复用的改进方法论。这不是论文里的标准流程,而是实打实的工程笔记。
一、先看懂它的脾气:RT-DETR的三大特性
RT-DETR和YOLO那些前辈不太一样。它看着像Transformer,骨子里却藏着很多CNN时代的遗产。我总结出三个关键特性:
特性1:混合编码器是双刃剑
那个Hybrid Encoder设计得很巧妙,用CNN骨干提特征,再用Transformer做交互。但这里有个隐藏陷阱——如果你盲目替换更强的CNN骨干(比如把ResNet换成ConvNeXt),推理速度可能不升反降。
我试过,因为Transformer部分成了瓶颈。经验是:改进前先用profiler看看每层耗时,别凭感觉换组件。
特性2:查询初始化有门道
RT-DETR的object queries不是随机初始化的,它用了Anchor Po
