神经网络在何种意义上对输出分布进行建模？

阿华AIGC实验室

2026-5-19

对《Deep Learning》中神经网络参数化分布思路的理解

在Goodfellow、Bengio和Courville合著的经典深度学习教材《Deep Learning》里，多个章节（比如6.2.2.4、10.2.3）都提到了一个核心的建模逻辑，原文表述如下：

通常，我们可将神经网络视为表示函数$f(x; \theta)$。该函数的输出并非对$y$值的直接预测，而是$f(x; \theta) = \omega$为$y$的分布提供参数。此时，我们的损失函数可被解释为$-\log p(y;\omega(x))$。[第182页]

我觉得这里的关键是跳出“神经网络直接输出目标值”的惯性思维——它本质上是在学习如何生成目标变量$y$的分布参数。举两个常见的例子：

而对应的损失函数$-\log p(y;\omega(x))$，本质是最大化样本$y$在这个参数化分布下的对数似然。这也是为什么我们常用的交叉熵损失、MSE损失其实都是对数似然损失的特例——它们分别对应了分类任务的类别分布假设、回归任务的正态分布假设。

内容的提问来源于stack exchange，提问作者bybblopole

火山引擎最新活动

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠