You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

关于政党得票概率计算的正确性验证与无计算机近似方法咨询

关于政党得票概率计算的正确性验证与无计算机近似方法咨询

问题背景

某政党在一个有10000名公民的国家中支持率为20%。假设70%的人口会投票,求该政党最多获得1000票的概率是多少?

你的解法与疑问

我的思路是:从支持该党的2000人中随机选$k$人,从不支持的8000人中选$7000-k$人。我们要求的是以下求和式的值:
$$\sum_{k=0}^{1000} \frac{{2000 \choose k} {8000 \choose 7000-k}}{10000 \choose 7000} = ?$$

用Pari-GP计算后,这个值大约是$2.30366 \cdot 10^{-99}$。我有两个问题:

  • 我的方法是否正确?
  • 如何不借助计算机近似这个概率?我考虑用林德伯格定理,但不确定怎么应用。

解答

1. 解法正确性验证

你的方法完全正确!这是超几何分布的标准应用场景:把10000名公民看作总体,其中2000人是“成功”(支持该党),8000人是“失败”;投票的7000人相当于从总体中抽取的样本,我们要计算样本中成功次数$k$≤1000的概率。超几何分布的概率质量函数恰好就是你写出的形式,所以这个求和式完全准确。

2. 无计算机近似方法

因为这里的总体规模、样本量、成功群体规模都很大,我们可以用正态分布近似来估算这个极端小的概率,步骤如下:

步骤1:计算超几何分布的均值与方差
  • 均值:$\mu = n \cdot \frac{K}{N} = 7000 \times 0.2 = 1400$($n$是投票人数,$K$是支持党的人数,$N$是总公民数)
  • 方差:$\sigma^2 = n \cdot \frac{K}{N} \cdot \frac{N-K}{N} \cdot \frac{N-n}{N-1}$
    代入数值计算:
    $$\sigma^2 = 7000 \times 0.2 \times 0.8 \times \frac{3000}{9999} ≈ 7000×0.16×0.30003 ≈ 336.03$$
    标准差$\sigma ≈ \sqrt{336.03} ≈ 18.33$
步骤2:连续性修正与Z值计算

由于超几何是离散分布,正态分布是连续分布,需要做连续性修正:我们要求$P(k ≤ 1000)$,对应到正态分布中是$P(X ≤ 1000.5)$,其中$X \sim N(\mu=1400, \sigma^2≈336)$。

计算Z分数:
$$z = \frac{1000.5 - 1400}{18.33} ≈ \frac{-399.5}{18.33} ≈ -21.8$$

步骤3:估算极端尾部概率

标准正态分布中,$Z ≤ -21.8$的概率是极端小的——远超出常规正态分布表的覆盖范围。我们可以用Mill比率来近似尾部概率:对于绝对值很大的负$z$,有
$$P(Z ≤ z) ≈ \frac{\phi(z)}{-z}$$
其中$\phi(z)$是标准正态密度函数:$\phi(z) = \frac{1}{\sqrt{2\pi}}e{-z2/2}$

代入$z=-21.8$:
$$\phi(-21.8) ≈ \frac{1}{2.5066}e{-(21.8)2/2} ≈ 0.3989×10^{-103}$$
$$P(Z ≤ -21.8) ≈ \frac{0.3989×10^{-103}}{21.8} ≈ 1.83×10^{-105}$$

这个结果和你用Pari-GP算出的$2.3×10^{-99}$在量级上一致(近似本身存在误差,但足以看出这是一个极端微小的概率)。

关于林德伯格定理的应用

你提到的林德伯格定理是中心极限定理(CLT)的一种推广形式,这里其实用普通的中心极限定理就足够了:由于每个投票者是否支持该党的指示变量满足林德伯格条件(单个变量的方差相对于总和方差可以忽略),因此样本中支持该党的人数会趋近于正态分布,这也为我们的正态近似提供了理论依据。


备注:内容来源于stack exchange,提问作者Santiago

火山引擎 最新活动