You need to enable JavaScript to run this app.
导航

创建MAB智能调优实验

最近更新时间2024.01.08 10:31:15

首次发布时间2023.04.17 21:03:03

一. 概述

智能调优实验是一种序贯地评估实验数据表现,并自适应的将流量倾斜给效果更好的实验版本的实验类型。其中自适应评估与调优的算法主要是 MAB(Multi-Armed Bandit) 。

二. 应用场景

1. 传统AB的弊端

传统A/B实验依赖于统计显著性的经典假设检验,为对照版本和实验版本分配相应的流量,但一般不允许在实验期间变更每个子版本的流量。因此该类实验有几个弊端,一是需要专门的给常规实验预留一定的周期(至少7天),对于一些时间比较紧急的需求,很难满足这样苛刻的条件;二是必须要有足够的样本进入到实验中,才能得出显著的结果。

2. 智能调优实验的应用场景和优势

实验目的:指标收益最高,实验成本最小

场景

智能调优实验

A/B实验

高价值流量:丢失转化的机会成本较高,例如在线销售大额商品(汽车、钻石等),每个失去的转化都会造成几千/几万块的损失。

动态调整流量,根据实验结果及时找出当前效果比较好的版本,将转化效果差的版本降低流量,减少损失

目标是获得统计上显著的方案:在时间、机会成本允许的情况下,AB实验能更快的获得稳健的、在统计上显著的获胜方案,虽然在过程中会损失一些转化。

活动周期短:比如很多电商活动的整个周期就一两天,如果传统AB的方法一般需要7天以上,活动没法提供足够的时间进行A/B实验

MAB的核心目标是整个活动最优,并不是帮助客户找到最优组,对实验时限没有要求

需要足够的时间,一般至少7天以上,排除时间变量

优化目标实效性强:例如头条新闻的标题、缩略图、视频内容等的优化测试,需要在短的窗口期内获得最大点击量。

MAB可以周期性查询各版本的转化效果,且调优频率可以自定义设置,目前最短能达到半小时

实时性较弱:需要等到实验时间结束或者流量用尽之后产出统计结果

持续优化:可以在MAB优化过程中,随时在变体中增加或减少多个元素,比如开启界面MAB时,可以调整界面上被测试的元素

MAB对流量/实验变体没有严格要求,可以在调优过程中切换实验流量以及实验变体的元素

需要进行深度数据分析,AB实验收集的数据更适合在实验时或实验后进行数据的多维分析,来查看不同细分人群对于测试的变量有何反映。对MAB来说,表现不好的组可能没有足够的数据进行这些。

小流量:对于初创公司或者活动冷启动时期,可能没有足够的流量进行实验

MAB会基于当下指标表现动态的分配,所以原则上来说MAB过程更能在总流量不多的情况下将流量收益最大化(注:本质是一种在流量较少的情况下优化收益的妥协性方案,不代表可以比AB实验使用更少的流量达到相同的效果)

想要从所有变体(特别是较差变体)中吸取一些教训:AB实验一定程度上能够保证每个变体都有足够的流量来统计以及计算置信度,如果想衡量较差变体的糟糕程度,从而指导业务决策,请选择AB实验。

说明

如果既要拿整体流量收益,又要决策方案优劣,Tester 将在后续版本提供 MAB 与AB 实验混合的整体解决方案。

三. 操作演示

图片

四. 操作说明

使用前注意事项

  • 当前仅A/B测试旗舰版支持MAB智能调优实验,如果您希望使用MAB智能调优实验进行实验分析,请确保您已购买A/B测试旗舰版。
  • 创建MAB智能调优实验前,您需确保管理员与研发已完成对应的准备工作,包括集团的配置、应用添加。完成准备工作后,运营人员即可参考以下操作步骤创建实验。

4.1 创建智能调优实验

登录并进入A/B测试应用页面后,在页面左侧导航栏选择智能优化 > 智能动态调优,进入调优列表后单击右上角的智能调优按钮,进入创建智能调优实验页面。
图片

4.1.1 输入基本信息

产品示例图

操作项说明

图片

  • 调优名称: 调优名称建议取与调优内容相关的名称,如有实验版本迭代可以增加版本号后缀,让你的伙伴能够快速了解到实验是做什么的、是在哪个迭代版本的。
  • 调优描述: 调优内容简述,可以让项目相关人员更清晰地知道到这个调优是如何做的,解决什么问题,同时也便于后期查看和管理历史调优时一目了然。
  • 调优场景: 有【落地页优化】和【APP小程序优化】,选择【落地页优化】,会有两种调优方式,分别为「可视化调优」和「多链接调优」;选择【APP小程序优化】,则会调起「客户端调优」和「服务端调优」两种方式。
  • 调优方向与指标: 此处只能选择一个核心指标,智能调优只关注实验者最关心指标的提升比率,最终实验报告也是围绕该指标设计的。

注意

  • 调优指标不能带常数项,需要选取反馈较快的指标,例如是否点击、在小时粒度内是否转化等。
  • 对于隔天才有转化的转化率指标,当前版本的算法基本会失效。对于需要较长时间(例如超过2个及以上个调优周期)才有反馈的指标,无法及时获得效果数据来调整流量,故不建议作为调优指标。(当前只支持点击率、转化率类指标;人均点击次数、浏览时长等下一次迭代提供)
  • 调优时长: 默认7天,上限为60天。
  • 实验负责人: 默认为实验创建者。

4.1.2 设置生效策略

产品示例图

操作项说明

图片

  • 流量设置: 控制参与调优的总流量,系统默认100%。
  • 目标受众: 可以通过筛选用户属性以及导入分群的方式来控制参与调优的对象
  • 体验一致性: 进组不出组,保证参与调优的用户,每次进入到同一个实验版本中。
  • 调优频率设置: 支持用户设定调优的频率,目前可设置的范围是[0.5h, 24h]。

4.1.3 配置实验版本

此处实验版本的配置取决于实验第一步中【输入基本信息】中的调优场景和调优方式的设定:

调优场景

调优方式

实验版本配置参考

落地页优化

可视化调优

可视化实验-配置实验版本

落地页优化

多链接调优

多链接实验-配置实验版本

APP小程序优化

客户端调优/服务端调优

编程实验-配置实验版本

4.2 开启实验

产品示例图

操作项说明

图片

实验详情页点击「开启实验」

图片

调优列表页点击「启动」

五. 实验报告

MAB实验报告可查看:MAB报告综述