目标检测分类部分损失函数：BCE → Focal Loss → VFL → MAL 的演进-尧图网络科技

先说结论：解决检测任务两大核心痛点：正负样本极度不均衡、分类与定位解耦、稠密匹配下大量低质量正样本失控，每一项损失都是为修复前一代缺陷而生

统一公式：

也可写成：

设计目标：基础二分类损失，衡量预测置信与固定 0/1 标签的差距

形式简单、梯度稳定、理论完备。

样本不均衡、难例挖掘缺失、置信度不感知框定位精度。

设计目的：BCE 中海量易分背景主导训练梯度，希望压低简单负样本权重，聚焦难分样本

其中

：正负平衡权重，平衡正负样本数量均衡性
>0：难易调制因子，对正样本y=1来说，当p->1，则极小，当p->0，则极大，即简单样本权重小，困难样本权重大；当y=0，也是同样的原理。所以通过这个超参让模型聚焦在困难样本的学习

分类置信无法反映框定位质量，高低 IoU 正样本同等对待。

提出动机：Focal Loss 置信与 IoU 无关，低 IoU 框高置信干扰 NMS；希望让分类得分自带 IoU 感知，优质框高分、劣质框低分。

q= 预测框与 GT 的 IoU；p= 分类预测；q>0为正样本，q=0为负样本

对这个公式，不要想着是从Focal loss推导过来的，应该想着是从BCE推导过来的，再加上保留focal loss中对负样本的损失设计，这样就好理解了：

对q>0部分，抛弃交叉熵(
)中y=1的固定标签，监督目标改为 IoU 值q，即定位越准，要求置信越高；在外层再进行二次q加权，那么高 IoU 优质框损失权重更大，梯度更强，模型优先学习精准框
对q=0负样本部分，则完全保留focal loss的设计

稠密标签分配（SimOTA/TAL）会产生海量极低 IoU 正样本（q≈0.05~0.3），双层 q 结构造成梯度近乎消失：

提出动机：VFL 双层 q 衰减导致极低 IoU 匹配样本几乎无惩罚；面向稠密一对一匹配场景，需要同时约束好匹配、差匹配，让所有匹配 Anchor 都具备有效梯度

论文默认 1.5；为软标签

针对性的改造，优化VAL的短板：

当q很小（匹配差，当然再小也是>0，也就是正样本的场景啦），几乎为0，也就是公式中左半部分，那么当p很大，损失很大（公式第二部分的log(1-p）很大），惩罚低IOU却盲目自信的
相反，当q很大（匹配好，当然也是正样本场景），偏高，损失来源主要为公式第一部分，当p很小时，损失飙升（大），监督模型提升匹配好的置信度
移除平衡超参，简化损失结构，降低调参难度
负样本保留 Focal 的调制，持续抑制简单背景。