AB试验(四)基于规范流程的一个案例分析
确定目标和假设
业务场景:某音乐APP,通过历史数据发现一些便利功能往往有着较高的留存和续订。但是这些便利功能的使用率并不高。调研发现,由于APP崇尚简洁设计,因此这些功能会放在每首歌曲的功能列表中,用户发现或使用都不容易。 目标:通过以上业务现状,团队需要增加用户对产品功能的使用率 脑暴解决方案:
将每个功能直接显示出来,这样用户就会一目了然,但是过多的功能铺成使得界面看起来极其糟糕,用户体验较差 新用户注册登录时进行功能引导,但是新用户刚使用时并不会使用所有和功能,大多会选择快速跳过 在用户有需求的时候,通过弹窗形式告知用户使用相关功能。 假设:只在用户有需求的时候弹窗引导用户使用相关功能,可以提高相关功能的使用率
确定指标
定义场景:团队准备以“把喜欢的音乐加入收藏夹”这个功能做一个A/B测试
定义触发条件:用户从未使用过这个功能,且播放同一首歌到达x次时,进行弹窗提醒 数据分析优化场景
历史数据分析确定x的最优值为4。即用户从未使用过这个功能,且播放同一首歌到达4次时,在播放第5次进行弹窗提醒可以把喜欢的音乐加入收藏夹 由于弹窗仅是对用户的提醒,因此不做重复弹窗,所以每个符合条件的用户最多只能收到一次弹窗 定义评价指标
评价指标:【把喜欢的音乐加入收藏夹】功能的使用率=使用了【把喜欢的音乐加入收藏夹】的用户总数/实验中的用户总数 定义实验用户:所有符合触发条件的用户,并将该用户随机分配至实验/对照组 定义时间窗口:用户收到弹窗到最终使用功能的时间分布可能较分散(例如1天,2天甚至1个星期),由于实验周期可能超过一天,因此需要规定好统一的时间窗口,如弹窗后x天内使用率。由于该业务场景关注的是及时性,因此可以设为弹窗后1天内使用率。 优化评价指标:【把喜欢的音乐加入收藏夹】功能的使用率=弹窗后1天内使用了【把喜欢的音乐加入收藏夹】的用户总数/实验中的用户总数,且用户符合触发条件。 通过历史数据的回溯分析,得到用户在符合触发条件后一天内使用把喜欢的音乐加入收藏夹】功能的概率为2%,通过统计公式计算得到置信区间为[1.82%,2.18%]。
确定实验单位
由于弹窗对用户是易于感知的变化,因此为了保证用户体验 的连贯性,这里选择用户为最小的实验单位,具体的为用户ID
样本量估算
设置
α
=
5
%
\alpha=5\%
α = 5% ,
p
o
w
e
r
=
80
%
power=80\%
p o w er = 80% ,所以
n
≈
8
σ
p
o
o
l
e
d
2
δ
2
n \approx \frac{8\sigma_{pooled}^2}{\delta^2}
n ≈ δ 2 8 σ p oo l e d 2
δ
=
2.18
%
−
2
%
=
0.18
%
≈
0.2
%
\delta = 2.18\%-2\% = 0.18\% \approx 0.2\%
δ = 2.18% − 2% = 0.18% ≈ 0.2%
计算
n
=
80000
n=80000
n = 80000 ,实验为50%-50%,所以需要的总体用户约为16万
随机分组
测算时间的估算
n
=
16.4
w
n=16.4w
n = 16.4 w ,每天符合触发条件的用户约1.7w。因此本实验大约需要10天考虑到周末和工作日用户活跃的差异,因此需要至少包括一整个周。由于上述计算的最小周期为10天包含了一周,所以本次实验的周期定为10天
实施测试
实验伊始,给予该层1%的流量进行观察,运行过程产品端,数据埋点,用户反馈均无明显异常 逐渐增大至全部流量,整个实验进行顺利
分析测试结果
收集数据:在10天后,收集到实验组样本80723,符合触发条件一天内使用该功能的用户3124;对照组样本80689,符合触发条件一天内使用该功能的用户1598。达到最小样本量。
分析统计层面的护栏指标
实验对照组样本比例:实验组样本是80723,对照组样本是80689。由于等流量分组,因此样本进入实验组的概率
p
=
0.5
p=0.5
p = 0.5 ,则
S
E
=
0.5
(
1
−
0.5
)
80723
+
80689
=
0.12
%
SE=\sqrt{\frac{{0.5}(1-{0.5})}{80723+80689}}=0.12\%
SE = 80723 + 80689 0.5 ( 1 − 0.5 )
= 0.12% 。则进入实验组的置信区间为
[
0.5
−
1.96
∗
0.12
%
,
0.5
+
1.96
∗
0.12
%
]
=
[
49.76
%
,
50.24
%
]
[0.5-1.96*0.12\%, 0.5+1.96*0.12\%]=[49.76\%,50.24\%]
[ 0.5 − 1.96 ∗ 0.12% , 0.5 + 1.96 ∗ 0.12% ] = [ 49.76% , 50.24% ] 。实验组/对照组的实际占比分别为50.01%、49.99%。符合样本比例合理检验。 实验对照组主要特征分布是否相似:通过ks检验 ,两组的分布基本一致(假设进行了此操作)
通过z检验,得到p值接近于零,远小于5%。同时计算评价指标差值(1.89%)
δ
\delta
δ 的95%置信区间为[1.72%,2.05%],不包括0。事实证明在用户需要的时候进行弹窗提醒确实有效
后续将陆续推广其他相关功能的推广
总结
当你熟练的时候,一次A/B试验是很简单的~
共勉~