You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

关于YOLO置信度计算的疑问:无标注图像推理时置信度如何生成?

关于YOLO推理时置信度生成的疑问解答

这个问题问得特别戳痛点!当初我啃YOLO论文的时候也卡在这里过,其实核心是要区分训练阶段的目标定义推理阶段的实际输出逻辑

首先,论文里那句:

置信度预测代表预测框与任意真实框之间的IOU

是针对训练过程说的——这是我们给网络设定的学习目标,让它学会去拟合“预测框和真实框的IOU”这个值。但到了推理阶段没有真实框了,这时候的置信度其实是网络训练后学到的两个关键值的乘积:

  • 第一部分是物体存在概率:网络判断这个预测框内存在目标的概率(比如这个区域是狗的概率是0.85)
  • 第二部分是预测IOU估计值:网络根据学到的特征,自己估算这个框和真实目标(虽然推理时看不到,但训练时见过大量类似情况)的重合程度(比如估算的IOU是0.7)

训练的时候,我们用真实框来监督这两个部分:

  • 对于有对应真实框的锚框,用真实框和预测框的实际IOU来约束第二部分的输出
  • 用类别标签来监督第一部分的物体存在概率(以及类别概率)

等网络训练完成后,它就具备了“看到图像区域,自动判断有没有目标+框的位置准不准”的能力,把这两个值相乘就得到了最终的置信度——它本质是对“这个框里有目标,且框的位置靠谱”的综合可信度打分,我们后续可以用这个分数过滤掉低质量的预测框,再做NMS(非极大值抑制)得到最终结果。

内容的提问来源于stack exchange,提问作者Adrien Nivaggioli

火山引擎 最新活动