关于极大似然估计（MLE）概念设定的核心疑问

阿华AIGC实验室

2026-4-22

嘿，这个问题刚好戳中了很多刚接触极大似然估计的人最容易绕晕的点，我来给你拆解清楚～

首先得明确两个表达式背后的核心流派差异：

你写的第一个式子 $\max_\theta \Pr(\theta\ |\ (\bigcap_{i = 1}^n X_i = x_i))$，其实是贝叶斯学派的思路——我们把θ当成一个有概率分布的随机变量，想要找的是给定观测数据后，θ的后验概率最大的值（也就是后验极大值估计，MAP）。这个思路确实很贴合我们日常的直觉：“根据手里的观测，哪个θ最有可能是真实值？”
而MLE用的第二个式子 $\max_\theta \Pr((\bigcap_{i = 1}^n X_i = x_i)\ |\ \theta)$，是频率学派的方法。在频率学派的框架里，θ是一个固定的未知常数，不是随机变量——所以“θ的概率”这种说法本身就不成立。MLE的核心逻辑是：找那个固定的θ，让我们恰好观测到当前这组数据的概率最大，也就是让“似然”最大。

那这两个最大化什么时候结果一致？
当我们对θ的先验分布是均匀分布的时候（也就是假设所有可能的θ出现的概率完全相同），根据贝叶斯公式：
$$\Pr(\theta | D) = \frac{\Pr(D | \theta)\Pr(\theta)}{\Pr(D)}$$
这里的$\Pr(\theta)$是常数，$\Pr(D)$是归一化常数（对所有θ都一样），所以最大化后验概率就等价于最大化似然$\Pr(D|\theta)$，这时候两者的结果就完全相同。

那为什么MLE要用后者？
因为MLE是频率学派的工具，它的出发点和贝叶斯不一样：频率学派不把θ当成随机变量，只把它看作一个待估计的固定值。我们没法计算“θ等于某个值的概率”，只能计算“如果θ是这个值，我们观测到当前数据的概率”。所以MLE的目标是找到那个最“称职”的θ——它能让我们眼前的观测数据最容易发生。

拿你的骰子例子来说：假设你扔了n次，出现的最大点数是k。那MLE估计的θ就是k，因为如果θ比k大（比如θ=6），你扔出最大点数是k的概率，会比θ=k时扔出最大点数是k的概率小得多；而如果θ比k小，那根本不可能扔出k这个点数，似然为0。这时候如果你的先验是均匀分布，MAP的结果也是k；但如果你的先验认为θ更可能是较大的数（比如你觉得骰子更可能是6面而不是3面），那MAP的结果就会和MLE不一样。

备注：内容来源于stack exchange，提问作者user10478