关于极大似然估计(MLE)概念设定的核心疑问
关于极大似然估计(MLE)概念设定的核心疑问
嘿,这个问题刚好戳中了很多刚接触极大似然估计的人最容易绕晕的点,我来给你拆解清楚~
首先得明确两个表达式背后的核心流派差异:
- 你写的第一个式子 $\max_\theta \Pr(\theta\ |\ (\bigcap_{i = 1}^n X_i = x_i))$,其实是贝叶斯学派的思路——我们把θ当成一个有概率分布的随机变量,想要找的是给定观测数据后,θ的后验概率最大的值(也就是后验极大值估计,MAP)。这个思路确实很贴合我们日常的直觉:“根据手里的观测,哪个θ最有可能是真实值?”
- 而MLE用的第二个式子 $\max_\theta \Pr((\bigcap_{i = 1}^n X_i = x_i)\ |\ \theta)$,是频率学派的方法。在频率学派的框架里,θ是一个固定的未知常数,不是随机变量——所以“θ的概率”这种说法本身就不成立。MLE的核心逻辑是:找那个固定的θ,让我们恰好观测到当前这组数据的概率最大,也就是让“似然”最大。
那这两个最大化什么时候结果一致?
当我们对θ的先验分布是均匀分布的时候(也就是假设所有可能的θ出现的概率完全相同),根据贝叶斯公式:
$$\Pr(\theta | D) = \frac{\Pr(D | \theta)\Pr(\theta)}{\Pr(D)}$$
这里的$\Pr(\theta)$是常数,$\Pr(D)$是归一化常数(对所有θ都一样),所以最大化后验概率就等价于最大化似然$\Pr(D|\theta)$,这时候两者的结果就完全相同。
那为什么MLE要用后者?
因为MLE是频率学派的工具,它的出发点和贝叶斯不一样:频率学派不把θ当成随机变量,只把它看作一个待估计的固定值。我们没法计算“θ等于某个值的概率”,只能计算“如果θ是这个值,我们观测到当前数据的概率”。所以MLE的目标是找到那个最“称职”的θ——它能让我们眼前的观测数据最容易发生。
拿你的骰子例子来说:假设你扔了n次,出现的最大点数是k。那MLE估计的θ就是k,因为如果θ比k大(比如θ=6),你扔出最大点数是k的概率,会比θ=k时扔出最大点数是k的概率小得多;而如果θ比k小,那根本不可能扔出k这个点数,似然为0。这时候如果你的先验是均匀分布,MAP的结果也是k;但如果你的先验认为θ更可能是较大的数(比如你觉得骰子更可能是6面而不是3面),那MAP的结果就会和MLE不一样。
备注:内容来源于stack exchange,提问作者user10478




