A/B实验怎么开--A/B测试-火山引擎

文档中心

A/B测试

A/B实验通识科普

A/B实验怎么开

在熟悉了什么是A/B实验之后，一起来看看A/B实验应该怎么开吧！

制定目标

明确北极星目标

对于任何一家公司来说（不管是互联网公司还是传统公司），都有一个最重要的业务发展指标——“北极星指标“（North Star Metric），也称“唯一重要指标”（OMTM，One Metric That Matters）。
通常北极星指标需要包含四大特点：

能够反映产品为用户提供的核心价值；
能够衡量用户的活跃程度；
易于被团队理解；
能够反应企业整体上是否成功。

对于一些成熟行业，北极星指标已经相对固定，比如：

核心价值	北极星指标
为用户提供物有所值的商品和互动式购物体验	GMV（商品交易总额）
让用户高效地获得值得信赖的答案	问题回答数
为用户提供高品质居住产品与生活服务	订单数

显然，北极星指标的制定是企业更为战略层面的工作，然而A/B测试不能绕开这一环。在北极星目标明确的前提下，企业才能通过系统化的A/B实验实现快速迭代和增长。

细化指标

确定了北极星目标，各个业务团队需要分领属于自己的任务，这里便涉及到将北极星指标拆解为可执行的具体指标。拿电商平台做个例子，假如我设定2019年的GMV是300万美元，那么我们可以将这个北极星目标逐步拆解，例如：

在北极星指标被细化后，各个部门便可以围绕细化后的具体指标，开展有针对性的实验。

建立假设

在明确目标之后，增长团队应该着手分析早期数据，并从数据中找到增长的可能。这一过程需要产品经理、运营经理和技术研发共同探讨完成。
分析结束后，团队需要提出假设，如：将购买页面主色调从蓝色改为红色能够将用户购买率提升3%。值得注意的是，我们所做出的假设必须包含两方面：第一是 提出新策略 ，“购买页面主色调从蓝色改为红色”，这决定了实验中我们要如何配置实验参数；第二是 确切的提升值 ，如“用户购买率提升3%”，这决定了应该有多少用户进入实验。
在A/B实验中，用指标的“预期值提升值”倒推实验流量，需要运用到复杂的统计学知识。然而，即使你并不了解这些知识，使用成熟的A/B实验工具——火山引擎A/B测试的“实验流量建议工具”这一功能，就可以轻松确定应进入实验的流量。详情请参见预估实验流量：流量计算器。

配置实验

明确了上述内容之后，接下来就该设置实验啦。以A/B测试为例，想要完整地设置好一个实验，我们需要关注以下几个方面：

Where 实验开在哪儿

这里所说的“开在哪儿”，指的是如何选择正确的实验层。
何谓“实验层”呢？“实验层”技术是为了让多个实验能够并行不相互干扰，且都获得足够的流量而研发的流量分层技术。
设想一下，假如我现在有4个实验要进行，每一个实验要取用30%的流量才能够得出可信的实验结果。此时为了同时运行这4个实验就需要4*30%=120%的流量，这意味着 100% 的流量不够同时分配给这4个实验。那么此时我只能选择给实验排序，让几个实验先后完成。但这会造成实验效率低下。试想一下，许多大型互联网公司每年有上万个实验要进行，如果只能排队挨号，实验恐怕可以排到9012年。
那么有没有办法可以解决这个问题呢？
有，就是使用实验层技术，把总体流量“复制”无数遍，形成无数个流量层，让总体流量可以被无数次复用，从而提高实验效率。各层之间的流量是正交的，你可以简单理解为：在流量层选择正确的前提下，流量经过科学的分配，可以保证各实验的结果不会受到其他层实验的干扰。

在选择实验层的时候，我们要遵循的规则是：业务冲突，在系统层面体现为参数冲突。进行实验时需要规避业务冲突。

说明

如何鉴定一个实验A是否与其他实验冲突？一般由业务含义来判定。

例如，点赞按钮，实验A设计为红色，实验B设计为蜡烛；实验A与实验B涉及到对同一个「物理对象」的修改（操作），同时修改会引起冲突或者问题，即对一个具体用户的按钮，它到底是什么颜色。
规避的方法主要为，将冲突的实验选择在同一个流量层进行实验。
这类实验在推全时，也需要考虑冲突的问题；不能单独推全。
如果不存在业务冲突，那么一般建议直接独立进行实验即可，不用考虑其他实验的运行。在 DataTester 上，直接新建实验将被单独分配一个新的流量层，这个流量层与其他实验正交。

When 实验开多久

基于一些统计学原理，实验开设得过长或过短都不利于实验结果的可信度。通常实验时长要与产品的“数据特征周期”一致。如何理解呢？比如某直播类app产品，用户在周一到周五的活跃度较低，在周末活跃度较高，以一个自然周为周期，不断循环。那么这一直播产品在做A/B实验时，通常应该将时长设置为一周。

Who 谁进入实验

实验中，我们要对进入实验的流量大小做出设置。通常在实验的初始阶段，我们倾向于先分配较少的流量（如1%）进入实验。如果初期实验结果一切正常，那么可以进一步加大流量；假如实验数据出现巨大的异常，那么可以随时将实验终止。小流量可以最低程度减少实验异常对用户体验的影响。
除了对流量大小进行设置之外，我们还可以添加限制条件，对进入实验的用户进行过滤，比如只看“安卓用户”、只看“北京地区用户”等等。这部分过滤条件通常需要由实验发起者和分析师共同确认。

Metric 关注的指标

确定哪些指标是我们所关注的。再来看看前文中我们做出的假设：将购买页面主色调从蓝色改为红色能够将用户购买率提升3%。在这一实验中，“用户购买率”必定是我们的关注的指标，并且是我们的“ 目标指标 ”。除此之外，我们还应该关注一些产品常关注的重要数据指标，用以观察实验中的新策略是否会对其他重要指标产生负面影响。

How 实验配置参数

配置参数实际上是一串代码，这串代码决定了进入实验的用户，其体验到的产品会有什么不同。仍旧用前文中的假设做例子，如果我假设“将购买页面主色调从蓝色改为红色能够提升用户购买率”，那么在实验中，我的下发的配置参数就应该让实验组用户的购买页面色调呈现为红色。这些参数的具体代码需要与产品的研发进行确认。

前期测试

在经过上述的步骤，我们的实验就已经基本设置好了。但在我们并不应急于开启实验，还应当对实验进行前期测试。
测试时，我们会将“测试用户”添加白名单之中，并在测试用户的手机/电脑上中观察实验配置是否能够正常生效（如购买页面的颜色改变是否可以正常显示）、客户端/网页是否会崩溃、实验数据能否正确上报等。

在实验正式开启之前，通常需要先选择几名用户进入测试阶段，观察实验是否能够正常获取想要收集的数据，或客户端是否有bug等。参与这一步的用户被称为“白名单用户”。

评估结果

实验结果需要从两方面评估：第一是数据结果的涨跌；第二是判断是否可以相信数据结果，即结果是否“显著”。
数据的涨跌自不必多言，如何理解数据是否显著呢？
我们知道，A/B实验是一种小流量实验，我们需要从总体流量中抽取一定量的样本来验证新策略是否有效。抽样过程中，样本并不能完全代表整体。样本分布不均导致实验结果可能出现一种情况——我采取的策略其实没用，但是实验结果显示策略有效。
统计学告诉我们，这种错误不可能完全避免，但是我们可以通过一些统计学方法，在得出实验数据结果的过程中，计算上述错误发生的概率。换句话说，我们可以判断我们的实验有百分之多少的概率是可信的。
根据业界的公认标准，在A/B实验中，如经统计学计算，实验数据结果有95%以上的概率可信，我们便称数据结果是显著的。这样的数据结果才能够用于判断实验假设是否成立。
在A/B测试平台中，我们用数据报告中的颜色来表示数据是否显著。
为了便于判断，「A/B 测试」在数据表格中直接使用颜色直观给出显著性。绿色指的是该指标相对于对照组为正向显著、红色为负向显著、黑色为不显著。

除此外，火山引擎A/B测试还提供了置信区间、P-value、MDE、概率分布势等丰富的统计指标，可以进行进一步的 定量分析。如想了解更多，欢迎阅读[如何看懂实验报告]

最近更新时间：2026.02.13 16:31:45

这个页面对您有帮助吗？

有用

无用

A/B测试

制定目标 #

明确北极星目标 #

细化指标 #

建立假设 #

配置实验 #

Where 实验开在哪儿 #

When 实验开多久 #

Who 谁进入实验 #

Metric 关注的指标 #

How 实验配置参数 #

前期测试 #

评估结果 #