先说结论:解决检测任务两大核心痛点:正负样本极度不均衡、分类与定位解耦、稠密匹配下大量低质量正样本失控,每一项损失都是为修复前一代缺陷而生
一、交叉熵
统一公式:
也可写成:
设计目标:基础二分类损失,衡量预测置信与固定 0/1 标签的差距
优点
形式简单、梯度稳定、理论完备。
缺点(检测场景致命)
- 正负样本数量极端失衡:图像中绝大多数 Anchor 是背景负样本,海量简单背景损失主导梯度,少量前景梯度被淹没,模型学不好物体;
- 无难易样本区分:简单背景、难分背景同等惩罚,简单负样本持续产生无效梯度;
- 分类与定位完全解耦:所有正样本标签统一为 1,不区分预测框和 GT 的 IoU 高低;定位差的框也会被强制推高置信,NMS 产生大量低质量假阳性框。
遗留待解决问题
样本不均衡、难例挖掘缺失、置信度不感知框定位精度。
二、Focal Loss
设计目的:BCE 中海量易分背景主导训练梯度,希望压低简单负样本权重,聚焦难分样本
其中
:正负平衡权重 ,平衡正负样本数量均衡性
>0:难易调制因子,对正样本y=1来说,当p->1,则
极小,当p->0,则
极大,即简单样本权重小,困难样本权重大;当y=0,也是同样的原理。所以通过这个超参让模型聚焦在困难样本的学习
优点
- 大幅缓解正负样本不均衡,抑制海量简单背景;
- 自动挖掘难例,提升小物体、模糊物体检测效果;
- 轻量化改造,可直接替换 BCE 用于所有稠密检测器。
缺点(遗留核心缺陷)
- 依旧使用硬标签 y=1,0:所有匹配 GT 的正样本统一监督 p->1,完全不区分框 IoU;
- 分类、定位完全分离:置信度不代表框精度,大量 IoU 很低的劣质框依然会输出高分,NMS 冗余框多;
- 对高低质量正样本无差异化监督,模型不会优先优化定位精准的高 IoU 框。
遗留待解决问题
分类置信无法反映框定位质量,高低 IoU 正样本同等对待。
三、VFL(Varifocal Loss)
提出动机:Focal Loss 置信与 IoU 无关,低 IoU 框高置信干扰 NMS;希望让分类得分自带 IoU 感知,优质框高分、劣质框低分。
q= 预测框与 GT 的 IoU;p= 分类预测;q>0为正样本,q=0为负样本
对这个公式,不要想着是从Focal loss推导过来的,应该想着是从BCE推导过来的,再加上保留focal loss中对负样本的损失设计,这样就好理解了:
- 对q>0部分,抛弃交叉熵(
)中y=1的固定标签,监督目标改为 IoU 值q,即定位越准,要求置信越高;在外层再进行二次q加权,那么高 IoU 优质框损失权重更大,梯度更强,模型优先学习精准框 - 对q=0负样本部分,则完全保留focal loss的设计
优点
- IoU 感知分类置信,解决分类定位解耦,NMS 过滤大量低质量框,显著提升 mAP;
- 差异化监督正样本,高 IoU 框获得更强训练信号;
- 兼容 RetinaNet/FCOS/YOLO 等稠密检测框架。
致命缺点(稠密 O2O 匹配场景暴露)
稠密标签分配(SimOTA/TAL)会产生海量极低 IoU 正样本(q≈0.05~0.3),双层 q 结构造成梯度近乎消失:
- 内层标签q本身极小,基础 BCE 损失已经很低;
- 外层再乘以q二次缩放,损失被压缩几十倍;
- 低质量匹配框即便盲目输出高置信p,损失惩罚微乎其微,模型没有动力压低其置信,大量劣质框高分泛滥,抵消 VFL 收益;
- 论文中认为超参多,调参成本高:
,
。
四、MAL(Matchability-Aware Loss)
提出动机:VFL 双层 q 衰减导致极低 IoU 匹配样本几乎无惩罚;面向稠密一对一匹配场景,需要同时约束好匹配、差匹配,让所有匹配 Anchor 都具备有效梯度
论文默认 1.5;
为软标签
针对性的改造,优化VAL的短板:
- 当q很小(匹配差,当然再小也是>0,也就是正样本的场景啦),
几乎为0,也就是公式中左半部分
,那么当p很大,损失很大(公式第二部分的log(1-p)很大),惩罚低IOU却盲目自信的
- 相反,当q很大(匹配好,当然也是正样本场景),
偏高,损失来源主要为公式第一部分,当p很小时,损失飙升(
大),监督模型提升匹配好的置信度
- 移除平衡超参
,简化损失结构,降低调参难度
- 负样本保留 Focal 的
调制,持续抑制简单背景。
优点
- 继承 VFL IoU 感知能力,高 IoU 框置信校准效果不变;
- 解决 VFL 最大缺陷:海量低 IoU 稠密匹配样本拥有充足梯度,杜绝劣质框盲目高分;
- 公式更简洁,去掉
,调参成本更低;
- 完美适配 SimOTA、TAL 等生成大量低质量正样本的标签分配策略。
缺点
- 引入新超参
,需要根据数据集微调;
- 完全依赖 BCE 原生梯度,极端多低 IoU 样本时训练前期梯度震荡略高于 VFL
演变总结:
- BCE:基础分类损失,但扛不住检测样本不均衡;
- Focal Loss:解决正负 / 难易样本失衡,但置信和框精度无关;
- VFL:引入 IoU 软标签,实现置信感知定位质量,但双层 q 压缩导致低 IoU 匹配监督失效;
- MAL:删外层加权、改用幂次标签
,完整保留 BCE 惩罚力度,兼顾高低质量所有匹配样本,适配现代稠密检测器。
整体不变的底层:全部基于二元交叉熵核心机制,后续所有改进都只在标签构造、损失加权系数上做改动,没有替换 BCE 基础损失形式。