Haar Cascade训练：-w/-h参数含义及正负样本尺寸调整咨询

阿华AIGC实验室

2026-5-21

关于Haar Cascade训练中createsamples参数与样本尺寸的问题

我来帮你理清这两个核心问题：

1. `-w` 和 `-h` 参数的含义

这两个参数用来指定生成的.vec向量文件中每个正样本的固定宽高。Haar分类器是基于滑动窗口机制做目标检测的，训练时会以这个固定尺寸的窗口在图像上滑动匹配，所以所有正样本都会被自动缩放到-w和-h指定的尺寸，存入你生成的applevector.vec文件里。

举个实际例子：你设置-w 24 -h 24，不管你的原始正样本里苹果区域是多大，createsamples都会把每个标注好的苹果区域缩放到24×24像素，再写入向量文件。

正样本：不需要手动统一尺寸。只要你在info.txt里正确标注了每张正样本中苹果的位置（x,y,width,height），createsamples工具会自动根据你指定的-w和-h对标注区域进行缩放。不过要注意：如果原始样本里的苹果区域本身比24×24小很多，缩放后可能会丢失关键特征，这种情况建议提前过滤掉这类过小的样本。
负样本：也不需要调整到统一尺寸。训练工具（比如opencv_traincascade）会自动从负样本图像中随机截取不同大小的区域（但不会小于你指定的-w×-h），用来作为背景样本。唯一要注意的是，你的负样本图像尺寸至少要比-w和-h大，否则工具没法截取有效区域。

关于-w和-h的取值：建议参考你实际检测场景中苹果的最小可能尺寸。比如如果要检测远处的小苹果，就设小一点；如果只检测近距离的大苹果，就设大一点。24×24是比较常用的基础尺寸，你也可以根据需求调整为32×32这类稍大的尺寸。
样本数量优化：1000张正样本和500张负样本的数量其实偏少了。Haar分类器需要足够多样本才能学到稳定的特征，建议正样本至少2000张以上，负样本数量最好是正样本的2-3倍（比如4000-6000张），这样训练出来的分类器准确率会更可靠。

内容的提问来源于stack exchange，提问作者onurcanak