加入收藏 | 设为首页 | 会员中心 | 我要投稿 鞍山站长网 (https://www.0412zz.com/)- 应用安全、运维、云计算、5G、云通信!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

数据分析师必看,老司机带你认识 AB 常见的10个错误

发布时间:2019-09-19 17:01:26 所属栏目:教程 来源:skura
导读:「没有数据,你只是一个有想法的人。」 这是 W. Edwards 的依据名言,它表明,A/B 测试对于做出良好的商业决策来说至关重要。在 Manomano,我们向数百万用户展示数百万 DIY 和园艺产品,并每天进行数十个 A/B 测试,以改善我们网站的用户体验。 ManoMano

80% 的阳性测试(灰色)拒绝零假设(统计能力):

数据分析师必看,老司机带你认识 AB 常见的10个错误

5% 的阴性测试(白色)拒绝零假设(显著性阈值):

数据分析师必看,老司机带你认识 AB 常见的10个错误

结论:在 80% 的统计能力、5% 的显著性阈值和 20% 的基准率,当检验被认为是阳性(p 值<0.05)时,我们只有 16/(16+4)=80% 的机会是真阳性,而不是 95%。

在这种情况下(统计能力=80%,显著性阈值=5%),知道你的 A/B 测试结果是有意义的,下面是一些概率,你的测试实际上是阳性的,这取决于基准率:

数据分析师必看,老司机带你认识 AB 常见的10个错误

经验 7:(1-p 值)不是检验为阳性的概率。如果你还想计算这个概率,使用贝叶斯 A/B 测试方法。

8.认为观察到的增量是特征带来的增量

测试所观察到的增量允让你可以计算统计显著性,但将观察到的增量视为特征带来的实际增量是错误的,这通常需要更多的用户或会话。

如果不能证明 B 优于 A ,则选择传递置信区间而不是原始增量。为了说明这一点,我们以 A/B 测试为例:

数据分析师必看,老司机带你认识 AB 常见的10个错误

p 值为 0.014,可接受的显著性水平为 95%,此 A/B 检验为阳性,这意味着测试组显著好于对照组。可以很容易地计算出观察到的跳出率相对增量:

数据分析师必看,老司机带你认识 AB 常见的10个错误

但将观测到的增量视为特征带来的实际增量是不正确的。你应该使用标准误差计算每组的置信区间:

数据分析师必看,老司机带你认识 AB 常见的10个错误

其中 p 是观察到的组跳出率,n 是池样本大小,zα 是对应于置信水平 α 的 z 值(在本例中为 95%)。你可以在这里找到通常置信水平的 z 值。

使用此公式,你最终可以计算两个组的 95% 置信区间(CI)跳出率:

数据分析师必看,老司机带你认识 AB 常见的10个错误

也可以反计算相对增量(pctdiff)的置信区间,但它更复杂。如果需要更多详细信息,请参阅这个调查的第 3.3.2 节。

经验 8:当你的测试为显著阳性时,应该传递置信区间而不是原始增量。

9.当 A/B 测试结果违背你的直觉时,忽略它们

如果你(和你的组织)还没有准备好用新的版本更新你的产品,除了确认你的偏见,启动 A/B 测试是没有意义的。直觉在选择测试内容时至关重要,但它不应与 A/B 测试的结果相抵触。

数据分析师必看,老司机带你认识 AB 常见的10个错误

经验 9:与利益相关者确定测试前的阈值和相关行动。

10.忘记检查 A/B 测试系统是否可靠

为了保证你的 A/B 测试结果的可靠性,你的 A/B 测试系统必须经过校准并正常工作。确保这种可靠性的一种方法是持续进行 A/A 测试,并检查这两种人群之间没有显著差异:

数据分析师必看,老司机带你认识 AB 常见的10个错误

Manomano 的连续 A/A 测试允许我们快速检测 8 月份遇到的缓存错误,由于该错误,8 月 20 日到 8 月 22 日之间进行的所有测试无效。

经验 10:持续进行 A/A 测试,以检测可靠性。

结论

如你所见,在分析 A/B 测试结果时出错的风险非常高,而在测试之后所做的决策对你的公司来说至关重要。因此,你应该对给到你的 A/B 测试结果持怀疑态度,特别是当这个结果来自于一个对取得积极结果有强烈兴趣的人(例如,一个想卖给你东西的人)时尤其如此。在 ManoMano,我们有一个值得信赖的委员会,帮助分析所有内部和外部 A/B 测试的结果,并对结论有着公正的看法。

(编辑:鞍山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读