关于Anchor Box、Bounding Box、Proposal Area的定义及检测模型输出疑问

阿华AIGC实验室

2026-5-28

一文理清Anchor Box、Bounding Box、Proposal Area，以及检测模型的输出逻辑

我来帮你把这几个容易混淆的概念和模型输出问题讲明白，尽量通俗易懂：

一、三个框的核心区别

先从最基础的定义入手，逐个拆解：

1. Bounding Box（边界框）

这是目标检测里最核心的「目标载体」，分两种：

Ground Truth Bounding Box：人工标注的精准框，用来框住图片里的真实目标（比如你标注一只猫时画的矩形），是模型训练的「标准答案」。
Predicted Bounding Box：模型最终输出的框，用来预测目标的位置和大小，是模型学习后给出的「答案」。
简单说，它就是用来定义「目标在哪、多大」的框，是检测任务的最终目标。

2. Proposal Area（候选区域）

这个是RCNN系列早期的产物，本质是提前生成的一堆「可能包含目标」的区域。
比如早期RCNN用的「选择性搜索」算法，会在图片上生成几百到几千个不同大小、形状的区域，模型只需要在这些区域里判断有没有目标，不用整张图盲目扫描——目的是减少计算量，缩小检测范围。
它更像一个「海选池」，先从里面挑出疑似有目标的区域，再做精细化处理。

3. Anchor Box（锚框）

这是后来Faster RCNN、YOLOv2及以后版本引入的「参考框」，是预先设定好的、不同大小和宽高比的固定框。
比如在COCO数据集上，通常会预设9种锚框（3种大小×3种宽高比），这些锚框会被「铺」在特征图的每个位置上。模型的任务不是从零生成框，而是学习「怎么把锚框调整成真实的目标框」——也就是预测锚框到真实框的偏移量。
它相当于给模型一个「基准模板」，让模型不用从零学定位，大幅降低学习难度。

二、这些框在检测模型里的意义（为什么「默认长度不变」？）

你提到的「默认长度从未改变」，应该是指锚框的预设尺寸吧？其实这个逻辑很简单：

锚框的尺寸是根据数据集里目标的常见大小提前设定的（比如COCO里的目标大多是中等大小，所以锚框会覆盖小、中、大三种尺寸）。训练时模型就基于这些固定的锚框去学习偏移，这样模型不用花精力学「怎么生成一个框」，只需要学「怎么微调这个锚框到真实位置」，效率和效果都更好。
候选区域是早期RCNN用来减少计算量的「过渡方案」，后来被锚框取代了，因为锚框可以和模型端到端训练，流程更高效。
而边界框始终是检测任务的核心：训练时是标注的标准答案，推理时是模型要输出的最终结果。

三、RCNN系列和YOLO系列的输出：直接坐标还是偏移量？

这个得分具体模型来看：

RCNN系列

RCNN/Fast RCNN：先通过选择性搜索生成候选区域，模型对每个候选区域做两件事：分类（判断是什么目标）+ 回归（预测候选区域到真实边界框的偏移量）。最终的预测框是通过把候选区域加上这个偏移量得到的，不是直接输出(x,y,w,h)。
Faster RCNN：用RPN（区域生成网络）替代了选择性搜索，RPN会基于锚框预测偏移量（以及这个锚框是前景还是背景的得分），生成候选框；后面的Fast RCNN部分同样会对这些候选框预测偏移量，最终得到真实的边界框坐标。

YOLO系列

YOLOv1：没有锚框，直接输出每个网格的相对坐标。比如每个网格会预测(x,y,w,h)，其中x、y是目标中心在网格内的相对位置（0-1之间），w、h是目标宽高相对于整张图片的比例，属于直接预测相对坐标，不是偏移量。

YOLOv2及以后（v3/v4/v5等）：引入了锚框，模型输出的是锚框的偏移量（tx, ty, tw, th），然后通过公式转换成最终的(x,y,w,h)：

x = (sigmoid(tx) + grid_x) * stride  # grid_x是网格在特征图上的x坐标，stride是特征图相对于原图的步长
y = (sigmoid(ty) + grid_y) * stride
w = anchor_w * exp(tw)               # anchor_w是预设锚框的宽度
h = anchor_h * exp(th)

所以这时候模型输出的是偏移量，需要计算才能得到最终的框坐标。

内容的提问来源于stack exchange，提问作者Luv