请教卷积神经网络输出特征图深度轴为何代表滤波器

阿华AIGC实验室

2026-5-8

为什么CNN输出特征图的深度对应滤波器数量？

嘿，这个问题问到点子上了——刚接触CNN的时候，很多人都会对“输出深度=滤波器数量”这个点感到困惑，我用大白话给你拆解清楚：

首先，咱们先把几个核心概念掰明白：

滤波器（卷积核）：你说的没错，它本质是个小矩阵（多通道输入时是3D结构，但先从单通道输入理解更简单），每个滤波器专门负责识别一种特定的视觉模式——比如垂直边缘、水平边缘、圆形纹理、甚至更抽象的局部形状。
单个滤波器的输出：当你用一个滤波器去卷积输入特征图时，会得到一张2D的特征响应图。这张图上的每个像素值，代表输入图对应位置有没有匹配上这个滤波器要找的模式——值越高，匹配度越强。

那输出特征图的深度怎么来的？很简单：你用了多少个不同的滤波器，就会得到多少张这样的2D响应图，把这些响应图沿着深度方向叠起来，就成了3D的输出特征图——这个堆叠的层数，就是输出特征图的深度，刚好等于你用的滤波器数量。

举个具体的例子：
假设你输入的是一张单通道的灰度图（深度1），然后在卷积层里用了8个不同的滤波器。每个滤波器都会生成一张2D的响应图：