含两类正态观测的贝叶斯分类器预测区间与错误率问询
没问题,我来一步步帮你推导这个贝叶斯分类器的问题~
一、确定分类到类别1的x取值范围
首先明确已知条件:
- 类别1的观测$x$服从均值为0、标准差为1的正态分布(记为$\mathcal{N}(0,1)$),先验概率$\pi_1=0.5$
- 类别2的观测$x$服从均值为0、标准差为2的正态分布(记为$\mathcal{N}(0,4)$),先验概率$\pi_2=0.5$
贝叶斯分类器的核心逻辑是:当样本$x$属于类别1的后验概率大于类别2时,就把它分到类别1。根据贝叶斯公式,后验概率可以拆成先验概率乘似然函数再归一化,但因为两类先验概率相等,归一化的分母对两个类别是一样的,所以我们直接比较似然函数就行——谁的似然大,就选对应的类别。
接下来写出两类的正态分布概率密度函数(似然):
- 类别1的似然:
p(x|C1) = (1/√(2π)) * exp(-x²/2) - 类别2的似然:
p(x|C2) = (1/(2√(2π))) * exp(-x²/8)
为了简化计算,我们对似然比取自然对数(对数是单调递增的,不会改变不等号方向),这样就能把指数和乘法转成加法和减法:
$$\ln\left(\frac{p(x|C1)}{p(x|C2)}\right) > 0$$
代入似然函数展开:
$$\ln\left(\frac{\frac{1}{\sqrt{2\pi}} \exp(-x²/2)}{\frac{1}{2\sqrt{2\pi}} \exp(-x²/8)}\right) > 0$$
化简后得到:
$$\ln(2) - \frac{3x²}{8} > 0$$
解这个不等式:
$$x² < \frac{8\ln2}{3} \implies |x| < \sqrt{\frac{8\ln2}{3}}$$
算个近似值的话,$\ln2≈0.693$,所以$\sqrt{(8×0.693)/3}≈1.36$。也就是说,当$x$在**$(-1.36, 1.36)$**(或者用精确表达式$(-\sqrt{\frac{8\ln2}{3}}, \sqrt{\frac{8\ln2}{3}})$)时,贝叶斯分类器会把它预测为类别1。
二、计算贝叶斯错误率
贝叶斯错误率是所有可能的$x$中,错误分类的概率总和。公式可以写成:
$$R = \pi_1 × P(把C1的样本分到C2) + \pi_2 × P(把C2的样本分到C1)$$
因为$\pi_1=\pi_2=0.5$,代入我们刚才得到的决策区域($|x|<a$时选C1,$|x|≥a$时选C2,其中$a=\sqrt{\frac{8\ln2}{3}}$):
$$R = 0.5 × P(|x|≥a | C1) + 0.5 × P(|x|<a | C2)$$
现在分别计算这两个概率:
- $P(|x|≥a | C1)$:C1的$x$是标准正态分布,这个概率就是两边尾巴的面积,等于$2×(1-\Phi(a))$,其中$\Phi(\cdot)$是标准正态分布的累积分布函数。
- $P(|x|<a | C2)$:C2的$x$标准差是2,我们把它标准化成$z=x/2$($z$是标准正态分布),这个概率就是$2×\Phi(a/2)-1$。
代入数值计算:
- $a≈1.36$,查标准正态表得$\Phi(1.36)≈0.9131$,所以$2×(1-0.9131)=0.1738$
- $a/2≈0.68$,$\Phi(0.68)≈0.7517$,所以$2×0.7517-1=0.5034$
把这两个数代入错误率公式:
$$R = 0.5 × (0.1738 + 0.5034) ≈ 0.3386$$
也就是贝叶斯错误率大约是33.9%,用精确表达式的话就是$R = \Phi\left(\frac{a}{2}\right) - \Phi(a) + 0.5$(其中$a=\sqrt{\frac{8\ln2}{3}}$)。
内容的提问来源于stack exchange,提问作者Remy




