如何通过采样确定函数成功概率及误差范围？

阿华AIGC实验室

2026-4-21

兄弟，太懂你这种纠结了——想搞清楚自己写的函数到底靠谱率有多高，靠拍脑袋选100次采样总觉得心里没底，还好奇那些论文里写的「95%±0.5%」到底是怎么算出来的，对吧？刚好这个问题属于统计学里的二项分布采样范畴，咱们一步步理清楚：

先搞懂核心概念：误差范围=置信区间

你说的「误差范围」其实就是置信区间，常用的是95%置信水平（行业默认）——它的意思是：如果你重复做N次采样试验，有95%的概率，函数的真实成功概率会落在这个区间里。

比如你跑了200次函数，成功180次，样本成功率是90%，算出来的95%置信区间是85.85%~94.15%，那你就可以说：我有95%的把握，这个函数的真实成功率在85.85%到94.15%之间，误差大概±4.15%。

怎么计算置信区间？

假设你做了N次独立试验，成功了k次，样本成功率记为 p̂ = k/N，那95%置信区间的近似计算公式是：

p̂ ± 1.96 * √(p̂*(1-p̂)/N)

这里的1.96是正态分布里对应95%置信度的Z值，√是平方根运算。

举个实际例子：

试验次数N=100，成功次数k=85，p̂=85%
计算误差项：1.96 * √(0.85*0.15/100) ≈ 1.96 * 0.0357 ≈ 7%
所以置信区间是85%±7%，也就是78%~92%

如果想要其他置信水平，比如99%，把1.96换成2.58；90%的话换成1.645就行。

怎么确定需要多少采样次数？

如果你想把误差控制在某个目标范围（比如±1%），可以反推需要的最小采样次数N。公式是：

N = (Z² * p̂*(1-p̂)) / E²

这里Z是对应置信水平的Z值，E是你想要的误差范围（比如0.01代表±1%），p̂是你预估的样本成功率。

如果不知道p̂大概是多少，就用最保守的情况——p̂=50%，这时候p̂*(1-p̂)的值最大，算出的N也最大，能保证不管真实成功率是多少，误差都能控制在目标范围内。

比如想把误差控制在±1%，95%置信水平：

N = (1.96² * 0.5*0.5) / (0.01)² ≈ 9604次

如果你预估成功率大概是90%，那：

N = (1.96² * 0.9*0.1) / (0.01)² ≈ 3457次

这样就不用做多余的试验了，精准控制样本量。

怎么用这个来对比不同函数的成功率？

当你要对比两个函数A和B时，先分别算出它们的95%置信区间：

如果两个区间完全不重叠，比如A是90%±3%，B是85%±3%，那大概率A的真实成功率确实比B高；
如果区间有重叠，比如A是88%±3%，B是86%±3%，那说明现有样本量还不够，得增加采样次数，直到区间不重叠，才能确定谁更优。

几个要注意的坑

每次试验必须是独立的：比如函数依赖的外部接口、数据库状态要稳定，不能因为前一次运行改变了环境，影响后一次的结果；
正态近似适合大样本：一般要求Np̂和N(1-p̂)都大于5，如果样本特别小（比如只跑了10次），可以用更精确的威尔逊区间计算，但日常开发用正态近似足够了；
置信水平不是固定的：如果对结果要求更严格，就选99%置信水平（但需要更多样本）；如果只是快速估算，90%也够用。

备注：内容来源于stack exchange，提问作者Daniel

火山引擎最新活动

方舟 Coding Plan

HOT

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

查看详情

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

查看详情

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

查看详情

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠

查看详情

ArkClaw 专属智能伙伴