最近更新时间:2024.02.20 16:40:43
首次发布时间:2021.02.23 10:41:56
本文档,将按照「A/B 测试」实验报告的分析逻辑,逐步为大家讲解:「A/B 测试」上的统计数据有哪些、怎么看,遇到不显著的情况应该怎么办,以及如何撰写实验报告。
在新feature立项阶段,想必各位同学已经非常明确feature的优化目标和评估指标了,并在开发feature的同时基于此目标和评估标准设计了实验,想要通过A/B实验验证你心中的答案:我的feature有没有效?如果有效那么对目标指标的提升有多少?
既然想要通过A/B实验获得定性+定量的答案,那自然在评估实验之前要根据你的feature的优化目标制定你的评估标准:实验的评估指标和预期提升值,即新feature跟其有直接或间接因果关系的指标以及预期会有多大影响。而不是实验懵懵懂懂做完后完全以数据结果来判断。
在「A/B 测试」中,可以设置某个实验的「核心指标」以及各个实验的「必看指标」。
一般而言,我们建议实验至少运行满一个自然周期(7天)再来观测数据,当然实验周期取决于实验产生效果的时长。
例如对于指标的影响较为灵敏、可在短时间看到立竿见影的效果的feature(比如一些推荐策略)就可以更快获得实验结果;而一些旨在提升长期留存的实验feature需要更久的实验周期来评估效果。
以下以详细视图为例,在下图所示的数据报告中提供以下基本信息,可以帮我们了解指标变化的基本情况:
说明
我们AB实验的置信区间的计算逻辑可参见双样本置信区间计算说明。
说明
通常实验指标为提升/降低xx(某个业务指标值),那MDE建议以小于这个指标值来进行估算,尽量避免MDE取值较大,无法检测出真实的实验结果。更多MDE的介绍请参见基本概念中的校验灵敏度MDE部分。
还支持查看概率分布、盒须快照、天级趋势,如下:
跟你的预期提升值比比看:
No.1 置信度
No.2 置信区间
上图统计卡片中置信区间[16.801%,23.297%]给出的是实验组上线后指标预期变化的区间估计值,区间估计值有更大的可能性覆盖到指标相对变化的真实值(假设做100次实验,有95次算出的置信区间包含了真实值)。
说明
我们AB实验的置信区间的计算逻辑可参见双样本置信区间计算说明。
如果我关注的指标不显著怎么办?feature就真的没有用吗?别急,说不定还有反转呢。尤其是以下几种情况更不要着急下结论:
MDE如何使用?
通过比较指标 MDE与指标的目标提升率来 判断不显著的结论是否solid,可以避免实验在灵敏度不足的情况下被过早作出非显著结论而结束,错失有潜力的feature。
假设你对该指标的预期目标提升率为1%
得到数据结果其实也只能算完成了80%,更重要的是通过A/B实验探索清楚真实数据和你假设之间的未知。
这时就需要业务同学对实验数据进行进一步分析了,比如可以进行多维下钻分析。
在实验概览区域,「A/B 测试」基于假设检验理论针对实验结果对比、提供结论性的推断。如下:
如果没有结论,其实也是一种结论。只能说明在当前时间、用户量等条件下的检验灵敏度无法验证出差异。实验期间的指标增幅并不能代表全量上线后的增幅。
不要囿于数据,用户反馈、用户调研、厂商评价,都可以辅助判断feature价值,实验只是一种途径要避免把AB实验报告变成统计报告,对于feature的增益,需要细化拆解研究,洞悉其深层次的原因。
你可以参考以下解读实验报告的视频来快速了解报告页的功能。