切比雪夫不等式为何仅得保守界？中心极限定理为何更准确？

阿华AIGC实验室

2026-5-19

为什么切比雪夫不等式的估计这么保守？中心极限定理又为何更准确？

切比雪夫不等式的核心问题在于它是个**“通吃型”的安全网**——它不要求你知道估计量$\hat{\theta}_n$的具体分布，不管是正态、均匀、甚至是偏得离谱的分布，它都能给出一个不会出错的上界。但这种“通用性”恰恰是它保守的根源：

它只用到了方差这一个统计量，完全忽略了分布的高阶特征（比如偏度、峰度）。举个例子，正态分布的尾部衰减速度极快，但切比雪夫看不到这一点，只会用最朴素的方式计算上界，自然会比实际的尾部概率大很多。
它的推导基础是马尔可夫不等式，而马尔可夫本身就对非负随机变量的上界估计非常宽松。切比雪夫通过把$|\hat{\theta}_n - \theta| \geq k$转化为$(\hat{\theta}_n - \theta)^2 \geq k^2$，再套用马尔可夫的公式： $\Bbb P\left(|\hat{\theta}_n-\theta|\geqslant k\right) = \Bbb P\left((\hat{\theta}_n-\theta)^2\geqslant k^2\right) \leqslant \dfrac{Var(\hat{\theta}_n)}{k^2}$ ，整个过程没有利用任何额外的分布信息，结果必然是偏保守的。

CLT能给出更精准的估计，本质是它利用了大样本下的分布收敛特性：

当样本量$n$足够大时，估计量$\hat{\theta}_n$会渐近服从正态分布。正态分布的形态完全由均值和方差决定，我们可以通过标准正态分布的累积分布函数$\Phi$直接计算尾部概率，比如$\Bbb P\left(|\hat{\theta}_n-\theta|\geqslant k\right)$可以近似为$2*(1 - \Phi(k/\sigma))$，其中$\sigma$是$\hat{\theta}_n$的标准差。这个近似值会非常接近实际的概率，远不是切比雪夫那种“拍脑袋”的宽松上界能比的。
它不再是通用型的不等式，而是针对大样本场景的渐近近似。当$n$越大，估计量的分布就越接近正态，CLT的估计精度就越高。甚至还可以通过连续修正等小技巧进一步优化结果，这是切比雪夫完全做不到的。

简单来说：切比雪夫是给所有人准备的超大号雨衣，虽然不会漏雨，但大部分人穿都太宽松；而CLT是根据你实际体型量身定制的雨衣，合身又精准。

内容的提问来源于stack exchange，提问作者Sekots Reivan