昨天深夜调试RT-DETR时遇到一个诡异现象:同一批训练数据,两次训练得到的mAP差异竟然超过5个百分点。排查了数据增强、学习率、损失函数所有环节,最后发现问题出在Decoder的查询初始化上——一个我原本以为“不太重要”的配置项。查询初始化:被低估的起点力量在RT-DETR中,查询(Query)是Decoder的核心输入,它直接决定了模型“关注什么”以及“如何关注”。很多工程师习惯直接使用默认初始化,但这恰恰是性能波动的隐形杀手。# 常见的默认初始化方式(问题示例)self.query_embed=nn.Embedding(num_queries,hidden_dim)nn.init.normal_(self