书店应用数据转换后置信区间与样本量计算技术问询

阿华AIGC实验室

2026-5-14

图书数据转换抽样审核样本量计算方案

这两个问题都属于验收抽样的范畴，核心是通过抽样来推断整体数据转换的正确性，我分情况给你拆解：

问题1：计算满足90%置信度、±5%误差范围的审核样本量

首先明确需求：你想要通过抽样审核，以90%的置信度推断，所有图书转换正确的比例落在90%±5%（也就是85%-95%）的区间内。这种场景用经典的比例抽样样本量公式就能解决：

基础公式（总体较大时忽略有限修正）

n = (Z² * p * (1-p)) / E²

参数解释：

Z：对应置信水平的Z值，90%置信度对应的Z值是1.645（查标准正态分布表就能拿到）
p：预估的转换正确比例——如果我们想做最保守的估计（避免样本量不够），就取p=0.5（此时样本量最大）；如果有前期测试数据支撑，知道转换正确率很高（比如90%），也可以用这个值
E：边际误差，这里是0.05（也就是5%）

两种场景的计算结果

保守估计（假设转换率未知，取p=0.5）

n = (1.645² * 0.5 * 0.5) / 0.05² = (2.706 * 0.25) / 0.0025 = 270.6 ≈ 271本

这是最保险的样本量，不管实际转换率如何，都能满足置信度和误差要求。

基于高转换率假设（p=0.9）

n = (1.645² * 0.9 * 0.1) / 0.05² = (2.706 * 0.09) / 0.0025 = 97.4 ≈ 98本

如果之前的转换测试表现很好，或者技术方案可靠性高，可以用这个更小的样本量。

重要补充：有限总体修正

如果你的总图书数量不多（比如几千本以内），需要用有限总体修正因子调整样本量，避免高估：

n_adjusted = n / (1 + (n-1)/N)

其中N是总图书数。比如总共有1000本，用保守估计的271本调整后是：

271 / (1 + 270/1000) ≈ 213本

问题2：30本图书中，需审核多少本才能有85%-95%的把握确保所有图书转换正确？

这里的需求是：通过抽样，确保所有30本都转换正确（零缺陷），并且要有85%到95%的置信度。这种属于零验收抽样，核心逻辑是：如果抽取的样本里没发现错误，我们就能推断整体没错误的把握有多大。

核心计算逻辑

假设总共有N=30本图书，我们抽取n本审核，没发现错误的情况下，整体无错误的置信度公式（最保守的场景：假设总体只有1本错误）：

置信度 = 1 - (N - n)/N

这个公式的意思是：如果总体里真的有1本错误，我们抽样没抽到它的概率是(N-n)/N，所以我们能确定整体无错误的把握就是1减去这个概率。

对应样本量的置信度数值

给你算几个实际的数值：

抽26本：置信度=1 - (30-26)/30 ≈ 86.7%，刚好满足85%的最低要求
抽27本：置信度=1 - 3/30 = 90%，落在85%-95%区间内
抽28本：置信度=1 - 2/30 ≈ 93.3%，也在目标区间内
抽29本：置信度=1 - 1/30 ≈ 96.7%，超过了95%的上限

所以如果你的需求是把握在85%-95%之间，样本量可以选26到28本：

要达到至少85%的把握，最少抽26本
要接近95%的把握，抽28本就足够（93.3%的置信度已经很高）
如果必须严格达到95%，那就需要抽29本

注意事项

这个计算的前提是：样本中没有发现任何转换错误。如果抽样时发现了错误，那说明肯定有问题，需要扩大抽样范围甚至审核全部30本。

内容的提问来源于stack exchange，提问作者S. Walker

火山引擎最新活动

方舟 Coding Plan

HOT

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

查看详情

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

查看详情

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

查看详情

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠

查看详情

ArkClaw 专属智能伙伴