You need to enable JavaScript to run this app.
导航
如何看懂实验报告
最近更新时间:2024.05.20 17:03:29首次发布时间:2021.02.23 10:41:56

本文档,将按照「A/B 测试」实验报告的分析逻辑,逐步为大家讲解:「A/B 测试」上的统计数据有哪些、怎么看,遇到不显著的情况应该怎么办,以及如何撰写实验报告。

一. 解读实验报告前准备

实验开启且实验相关数据出来后,在查看实验报告并解读实验数据前,您需要前完成以下准备工作。

了解实验数据统计口径:多天累计数据

您需要先了解实验相关指标数据的统计口径。DataTester的实验数据的统计方式为多天累计数据,此方式的统计口径和优势简介如下,详情可查看报告页累计趋势文档。

细分

详情

统计口径

多天累计的方式进行数据统计。
以进组用户数为例,多天累计的用户数,即是实验期间累计进组并进行 去重 后的用户数。

优势

  • 相比于单天累计的数据:多天累计的数据更能保证各组的样本是「同质可比」的。
  • 相比于多天平均的数据:多天累计的数据更易检验出受影响指标的显著性,因为多天累计使得实验获得了更多的样本,这意味着随着实验的进行,实验的检验灵敏度在不断提高。
  • 按照多天累计逻辑进行统计计算的指标,可以直接计算实验期间指标变化率的置信度,实验结论更科学可靠。

二. 开始解读实验报告

通常,在开展A/B实验前的产品新feature立项阶段,业务人员已经非常明确feature的优化目标和评估指标了,并在开发feature的同时基于此目标和评估标准设计了A/B实验,想要通过A/B实验验证你心中的答案:我的feature有没有效?如果有效那么对目标指标的提升有多少?

1. 确定评估指标

既然想要通过A/B实验获得定性+定量的答案,那自然在评估实验之前要根据你的feature的优化目标制定你的评估标准:实验的评估指标和预期提升值,即新feature跟其有直接或间接因果关系的指标以及预期会有多大影响。而不是实验懵懵懂懂做完后完全以数据结果来判断。
在「A/B 测试」中,可以设置某个实验的「核心指标」以及各个实验的「必看指标」。

指标类型

指标意义

核心指标

用来决策实验功能是否符合预期的「直接效果指标」或「成功指标」。比如一个关于引导页按钮文案优化的实验,该按钮点击的「转化率」即可作为该实验的决策指标。

必看指标

必须守护的业务线指标,实验功能可能对其无直接的因果关联、无法直接带来提升,但一般而言不能对其有显著负向影响。

通常在创建A/B实验时,已经将核心指标设置为实验核心指标;必看指标设置为实验关注指标。您可以在实验详情页面确认实验的配置结果;在数据指标页面看到对应实验指标的列表。
图片

2. 分析指标的数据表现

2.1 实验多久后可以来指标?

一般而言,我们建议实验至少运行满一个自然周期(7天)再来观测数据,当然实验周期取决于实验产生效果的时长。
例如对于指标的影响较为灵敏、可在短时间看到立竿见影的效果的feature(比如一些推荐策略)就可以更快获得实验结果;而一些旨在提升长期留存的实验feature需要更久的实验周期来评估效果。

2.2 关注指标的哪些数据?

DataTester为实验提供了多维度的结果数据,包括实验进组人数、实验指标的绝对数值/差异绝对值/差异相对值、置信区间/P-Value。

实验报告页面

数据指标页面

您可以在实验报告页面快速查看实验的进组人数、核心指标的相关数据和趋势图,对当前实验的指标结果有个快速了解。
图片

您可以在数据指标页面查看各个指标(可选择核心指标和关注指标)的详细数据和趋势图,指标组视图下还可以切换差数值的类型。
图片

数据数值类型

术语

概念含义

对实验结果的影响

进组人数

该实验版本进组人数(即参与实验的用户数量)。进组用户数据为次日T+1数据,即1号的进组用户数据将在2号展示在报告概览中,进组用户数的详细口径说明详情请参见实验进组用户口径说明

  1. 统计显著性:统计显著性是指实验结果的可信度,即结果不是由于随机误差或样本偏差造成的。足够大的样本量有助于确保实验结果具有统计显著性,使得我们可以更加自信地断言观察到的效果是真实的,而不是随机波动导致的。
    您可以在实验报告页面的顶部看到实验结果是否显著;在实验指标数据处也可以看到指标数据是否显著。
  2. 实验统计功效:实验统计功效(或检验效能)是指检测到实际效果的能力,即实验能否准确识别出两个版本之间的真实差异。更大的样本量通常意味着更高的实验功效,使得实验更有可能发现存在的差异。
  3. 结果的可靠性和稳定性:可靠性和稳定性是指实验结果在重复实验中的一致性。较大的样本量能够减少结果的波动,使实验结果更加可靠和稳定。
  4. 效应大小的精确估计:效应大小是指两个实验版本之间的实际差异大小。较大的样本量可以提高效应大小估计的精确度,使得我们对实验版本的真实表现有更清晰的了解。

绝对数值

指的是实验组或对照组中某个关键指标的具体数值,例如转化率、点击率、平均交易额等。

绝对取值直接展示了在实验条件下该指标的表现水平,但并不直接反映实验处理效果的大小或方向,也不体现与另一组相比的变化情况。

差异绝对值/差异相对值

  • 差异绝对值:当前实验版本相对基准版本(对照版本)的绝对差异。
  • 差异相对值:当前实验版本相对基准版本(对照版本)的绝对差异/基准版本值。

例如,如果实验组的转化率为10%,对照组为8%,那么差异绝对值为2%;差异相对值计算为(10% - 8%) / 8% = 25%。

  • 差异绝对值:直观展示了两组之间在该指标上的具体差距,但没有考虑到基数的影响,即它不反映这一差距相对于整体水平的比例大小。
  • 差异相对值:这种表示方式能够更好地帮助理解变化的相对重要性,尤其是在比较不同规模或基础水平的实验时。

置信区间/P-value

  • 置信区间:由样本统计量构成的总体参数的估计区间。

    说明

    我们AB实验的置信区间的计算逻辑可参见双样本置信区间计算说明

  • P-value:在原假设为真的前提下随机抽取样本出现极端情况的概率。当p-value<1-置信度水平,认为统计显著。
    习惯上,当p_value小于5%时,就是我们常说的实验效果已经“ 统计显著 ”,它意味着你观测到的差异来源于随机抽样误差的概率已经小于5%,反过来说,你的策略大概率(大于95%)是有效的。P-value越小说明实验发现的差异是因为抽样误差导致的概率越小,极大程度上还是由于本质上存在差异造成。

总结而言,置信区间提供了一个区间范围,直观展示了估计的不确定性;而P-Value是一个单一的概率值,用于检验假设。两者都可以作为判断实验结果是否显著的依据,但置信区间提供了更多关于效应大小和方向的信息,而P-Value仅表明结果的意外程度。

MDE

Minimum Detectable Effect最小可检测单位(检验灵敏度),在当前条件下能有效检出置信度的diff幅度。

说明

通常实验指标为提升/降低xx(某个业务指标值),那MDE建议以小于这个指标值来进行估算,尽量避免MDE取值较大,无法检测出真实的实验结果。更多MDE的介绍请参见基本概念中的校验灵敏度MDE部分。

MDE对于实验结果不显著和预估实验流量方面有影响:

  • 对于已经显著的指标,无需关注MDE。如果实验指标无显著差异,可能是因为实际效应小于MDE,而不是实验失败。
    灵敏度会随实验的样本量增加、运行时长增长而越来越灵敏(灵敏度数值越来越小)。理论上,只要你的A/B实验跑的时间足够长,样本足够多,实验总会显著的。
  • 您可以指定自己需要的灵敏度,A/B测试可以推算出实验需要多少流量。使用这一功能的操作也很简单。在新建实验第四步-“设置目标受众”时,在“流量分配”的步骤中,可以点击“算一算开多少流量合适?”,进入到实验流量建议工具,输入相关信息后,A/B测试就可以轻松计算出,实验总共需要多少流量。

数据趋势图

支持查看对应指标数据的天级趋势、概率分布、箱型图,如下:

天级趋势

概率分布

箱型图

图片

图片

图片

2.3 指标变化符合预期吗?

跟你的预期提升值比比看:

  • 如果不符合预期,ROI是否值得就需要业务综合评估了;
  • 如果符合预期,就继续往下评估结果的可信度。

2.4 指标提升是显著的吗?

  • 定性判断 :为了便于判断,「A/B 测试」在数据表格中直接用底色直观给出显著性。绿色指的是该指标相对于对照组为正向显著、红色为负向显著、黑色为不显著。

图片

  • 定量分析 :如果想要了解定量的置信度,可以点击数据所在格子唤醒统计卡片,通过P-value大小和置信区间进行定量分析。

图片
No.1 置信度

  • P-value展示了该指标在本次实验中犯第一类错误的概率,通常我们将犯第一类错误的概率小于显著性水平(通常取显著性水平 α = 0.05),即p-value < 0.05时在统计学中定义为显著,置信度为(1-显著性水平)=95%。
  • p-value越小越可信,有显著差异的指标,P-value=0.01的比P-value=0.05的可信度更高。

No.2 置信区间
上图统计卡片中置信区间[16.801%,23.297%]给出的是实验组上线后指标预期变化的区间估计值,区间估计值有更大的可能性覆盖到指标相对变化的真实值(假设做100次实验,有95次算出的置信区间包含了真实值)。

说明

我们AB实验的置信区间的计算逻辑可参见双样本置信区间计算说明

  • 可以这样简单但不严谨地解读置信区间:假设策略全量上线,你有95%的把握会看到真实的指标收益在[16.801%,23.297%]这个范围内。
  • 置信区间越窄且不包含0,可信度就越高。

2.5 不显著怎么办?

如果我关注的指标不显著怎么办?feature就真的没有用吗?别急,说不定还有反转呢。尤其是以下几种情况更不要着急下结论:

  • 实验总样本比较小
  • 指标对应的用户行为渗透率低
  • 实验时长较短
  • 指标对实验功能不敏感

MDE如何使用?
通过比较 MDE与指标的目标提升率来 判断不显著的结论是否solid,可以避免实验在灵敏度不足的情况下被过早作出非显著结论而结束,错失有潜力的feature。
假设你对该指标的预期目标提升率为1%

  • 如果此时MDE=0.5%, MDE 预期提升值 ,说明指标变化真的不显著,请结合业务ROI和其他维度里例如用户体验、长期战略价值等来综合判断是否值得上线;
  • 如果那此时MDE=2%, MDE 预期提升值 ,说明当前能检验出显著性的最小差异值是2%,由于灵敏度(也就是校验效力)不足未能检测出。这种情况下建议增大样本量,例如扩大流量、再观察一段时间积累更多进组用户,指标还有置信的可能。

3. 解读指标变化原因

得到数据结果其实也只能算完成了80%,更重要的是通过A/B实验探索清楚真实数据和你假设之间的未知。

  • 如果数据增长,那真实原因是否跟你预期的一致?
  • 如果没有效果甚至更糟有没有发现问题和原因、下一步如何优化?

这时就需要业务同学对实验数据进行进一步分析了,您可以进入DataTester的高级分析页面,对实验结果数据进行属性过滤群体对比,进行下钻分析。详情请参见高级分析:群体对比与差异分析高级分析:同期群分析
图片

4. 实验结论

在实验报告页面,DataTester基于假设检验理论针对实验结果对比、提供结论性的推断。如下:
图片
如果没有结论,其实也是一种结论。只能说明在当前时间、用户量等条件下的检验灵敏度无法验证出差异。实验期间的指标增幅并不能代表全量上线后的增幅。

  • 检验只能确定是否有显著差异,并不能保证差异幅度。 全量上线和实验期间,实际上时间变量不一致。
  • 我们只能认为,样本量足够大的情况下,统计值接近“真实值”(大数定律)。

不要囿于数据,用户反馈、用户调研、厂商评价,都可以辅助判断feature价值,实验只是一种途径要避免把AB实验报告变成统计报告,对于feature的增益,需要细化拆解研究,洞悉其深层次的原因。