You need to enable JavaScript to run this app.
导航
概念说明
最近更新时间:2023.03.08 11:25:31首次发布时间:2022.10.09 14:14:18
我的收藏
有用
有用
无用
无用
  • AB测试: 为了验证一个新策略的效果,准备原策略A和新策略B两种方案。 随后在总体用户中取出一小部分,将这部分用户完全随机地分在两个组中,使两组用户在统计角度无差别。将原策略A和新策略B分别展示给不同的用户组,一段时间后,结合统计方法分析数据,得到两种策略生效后指标的变化结果,并以此判断新策略B是否符合预期。上述过程即AB测试。

  • 互斥实验: 互斥组中的所有实验都不会共享用户,如果一个用户命中了实验A,就不会命中该互斥组中的其他实验。举例,你要同时做按钮颜色和按钮形状的实验,就需要将两个实验加入到一个互斥组列表。

  • 流量: 互联网行业的AB测试中,流量通常用于描述产品所拥有的总体用户数量。

  • 流量分配: 开AB实验时,一般都会小流量测试,当看到某个实验组效果后,再大流量测试,最终再全量上线。

  • WAU: WAU(Weekly Active Users),周活跃用户数,最近一周(含当日的7天)启动使用产品的用户数,一般按照自然周进行计算。

  • 方差: 方差是数据组中各数据值与中心值间距的平方和的平均值。

  • 标准差: 标准差是方差的平方根。

  • 差异绝对值: 当前实验版本相对与对照版本的绝对差异。

  • 差异相对值: 当前实验版本相对与对照版本的绝对差异/基准版本值。

  • 置信区间: 置信度区间就是用来对一组实验数据的总体参数进行估计的区间范围。

举个例子,我们现在开了一个实验来优化商品页面的用户购买率,其中采用了新策略B的实验组,购买率提升均值为5%,置信区间为[-3%,13%]。
怎么理解此处的置信区间呢?
由于在AB测试中我们采取小流量抽样的方式,样本不能完全代表总体,那么实际上策略B如果在总体流量中生效,不见得会获得5%的增长。如果我们设策略B在总体流量中推行所导致的真实增长率为μ,那么在这个案例中,μ的真实取值会在[-3%,13%]之间。

值得注意的是,μ并不是100%概率落在这一区间里,在计算置信区间的过程中,我们会先取一个置信水平,计算这一置信水平下的置信区间是多少,AB测试中我们通常计算95%置信度下的置信区间。回到刚刚的例子,我们就可以得知,μ的真实取值有95%的可能落在[-3%,13%]之间。

  • p-value: 在原假设为真的前提下随机抽取样本出现极端情况的概率。当p-value<1-置信度水平,认为统计显著。

  • MDE:校验灵敏度

    • MDE是什么: Minimum Detectable Effect (MDE),最小可检测单位,即检验灵敏度,是实验在当前条件下能有效检测的指标diff幅度。当前条件,指当前样本量,指标值和指标分布情况,并假设样本方差与总体指标方差足够接近。有效检测,指检出概率大于等于80%(type II error小于等于20%)。

    • MDE可以用来做什么: 通过比较指标MDE与指标的目标提升率,来判断不显著的指标结论是否solid,可以避免实验在灵敏度不足的情况下被过早作出非显著结论而结束,错失有潜力的feature。

    • 如何设置: MDE越小,意味着您要求测试的灵敏度越高,所需的样本量也越大。如果MDE设置过于精细,不仅会浪费不必要的流量,同时实际收益可能不能弥补新策略的研发和推广成本。灵敏度不足(比如预期1%就达标,但实验灵敏度仅能检测5%及以上),可能会导致错失有潜力的feature。

    • 统计功效power(1-β): 统计功效 = 1 - 第二类错误的概率(β),统计功效在现实中表现为:假设我的新策略是有效的,我有多大概率在实验中检测出来。在实验流量建议工具中,统计功效的默认值为80%,支持调整为50%、80%、90%、99%。

    • 统计显著性(1-α): 统计显著性=1 - 第一类错误的概率(α),也称“置信水平、置信度、置信系数”,它的存在是为了描述实验结果的可信度。AB 测试把置信度参数默认值设置为95%,集团管理和应用管理员可以在“系统设置-置信水平设置”根据需求进行调整。