神经网络在何种意义上对输出分布进行建模?
对《Deep Learning》中神经网络参数化分布思路的理解
在Goodfellow、Bengio和Courville合著的经典深度学习教材《Deep Learning》里,多个章节(比如6.2.2.4、10.2.3)都提到了一个核心的建模逻辑,原文表述如下:
通常,我们可将神经网络视为表示函数$f(x; \theta)$。该函数的输出并非对$y$值的直接预测,而是$f(x; \theta) = \omega$为$y$的分布提供参数。此时,我们的损失函数可被解释为$-\log p(y;\omega(x))$。[第182页]
我觉得这里的关键是跳出“神经网络直接输出目标值”的惯性思维——它本质上是在学习如何生成目标变量$y$的分布参数。举两个常见的例子:
- 回归任务中,我们可以让网络输出正态分布的均值$\mu$和方差$\sigma^2$,用这两个参数来定义$y$的概率分布;
- 分类任务中,网络输出的经过softmax转换的结果,其实就是各个类别的概率分布参数。
而对应的损失函数$-\log p(y;\omega(x))$,本质是最大化样本$y$在这个参数化分布下的对数似然。这也是为什么我们常用的交叉熵损失、MSE损失其实都是对数似然损失的特例——它们分别对应了分类任务的类别分布假设、回归任务的正态分布假设。
内容的提问来源于stack exchange,提问作者bybblopole




