关于YOLO置信度计算的疑问:无标注图像推理时置信度如何生成?
关于YOLO推理时置信度生成的疑问解答
这个问题问得特别戳痛点!当初我啃YOLO论文的时候也卡在这里过,其实核心是要区分训练阶段的目标定义和推理阶段的实际输出逻辑:
首先,论文里那句:
置信度预测代表预测框与任意真实框之间的IOU
是针对训练过程说的——这是我们给网络设定的学习目标,让它学会去拟合“预测框和真实框的IOU”这个值。但到了推理阶段没有真实框了,这时候的置信度其实是网络训练后学到的两个关键值的乘积:
- 第一部分是物体存在概率:网络判断这个预测框内存在目标的概率(比如这个区域是狗的概率是0.85)
- 第二部分是预测IOU估计值:网络根据学到的特征,自己估算这个框和真实目标(虽然推理时看不到,但训练时见过大量类似情况)的重合程度(比如估算的IOU是0.7)
训练的时候,我们用真实框来监督这两个部分:
- 对于有对应真实框的锚框,用真实框和预测框的实际IOU来约束第二部分的输出
- 用类别标签来监督第一部分的物体存在概率(以及类别概率)
等网络训练完成后,它就具备了“看到图像区域,自动判断有没有目标+框的位置准不准”的能力,把这两个值相乘就得到了最终的置信度——它本质是对“这个框里有目标,且框的位置靠谱”的综合可信度打分,我们后续可以用这个分数过滤掉低质量的预测框,再做NMS(非极大值抑制)得到最终结果。
内容的提问来源于stack exchange,提问作者Adrien Nivaggioli




