一、从实际调试中的诡异现象说起上周在部署RT-DETR到边缘设备时遇到个怪事:同样的模型结构,在COCO上预训练过的版本,迁移到工业缺陷检测任务上,mAP能到72.3%;而用ImageNet分类预训练的版本,直接掉到65.8%。更奇怪的是,加了大量未标注的产线图像做自监督预训练后,指标竟然冲到了75.1%。这让我重新审视预训练策略。传统的监督预训练依赖人工标注,而自监督让模型从数据本身的结构中学习表征——这对标注稀缺的工业场景简直是救命稻草。今天我们就拆解如何用自监督预训练给RT-DETR“喂”无标签数据,提升下游检测性能。二、自监督预训练的核心逻辑:数据自己教自己自监督的核心思想很简单:构造一个 pretext task(前置任务),让模型从无标签数据中学习到有用的特征表示。对于检测任务,我们关心的不是分类准确率,而是模型能否理解物体的局部特征、空间关系和上下文信息。RT-DETR作为DETR系列模型,它的Transformer编码器对特征质量极其敏感。传统的监督预训练(比如ImageNet分类)学到的特征偏向“是什么”,而检测任务更需要“在哪里”和“边界在哪”的空间感知能力。# 传统监督预训练 vs 自监督预训练 配置对比class