辛普森悖论(Simpson’s Paradox)是英国统计学家E.H.辛普森(E.H.Simpson)于 1951 年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论

下面举例说明。

假设我从医生处得知自己得了肾结石,该医生向我展示了两种疗法效果的对比数据。疗法 A 和疗法 B 两种治疗方案。效果对比如下:

image.png

显然,疗法 B 的成功率更高。接下来再细分一下。

image.png

据医生解释,肾结石只分为小结石和大结石,没有中等大小的结石。而根据以上数据对比结果,他推荐使用疗法 A,因为无论是治疗小结石还是大结石,疗法 A 的成功率都更高。

这里的结论就是,疗法 A 的成功率更高,因为第 1 张图忽略了两种疗法对别的绝对值(可以理解为 2 种方案的流量)。

体现在 A/B Test 中,就是需要注意对流量选择的划分。

在这个测试里,向 50% 的新访客展示A版本,向另外 50% 的新访客展示 B 版本。若某个访客之前已见过其中某一版本,那么为了避免混淆两个版本的受众,会继续向该访客展示之前的版本。一个月之后,查看结果,发现使用 A 版本的访客中有 10% 的人购买了产品,而使用 B 版本的访客中只有 7% 的人购买了产品。

image.png

鉴于此前版本 A 的表现更佳,这次改变了两种版本的展示比例:80% 的网站新访客会看到版本 A,20% 的网站新访客会看到版本 B。与之前一样,回头访客会继续看到与之前相同的版本。第二个月月末,查看两个版本的总体表现时,发现版本 A 的转化率为 9%,而版本 B 的转化率竟达到 10%。

image.png

这是因为,在第二个月里,版本 A 的用户中有许多新访客,而新访客的转化难度更大,这自然就拉低了版本A的总体表现。

这个同样说明,在做 A/B Test,流量划分的重要性。

Reference

  1. 人工智能之辛普森悖论:解密撒谎的数据