统计学：辛普森悖论

辛普森悖论（Simpson’s Paradox）是英国统计学家E.H.辛普森（E.H.Simpson）于 1951 年提出的悖论，即在某个条件下的两组数据，分别讨论时都会满足某种性质，可是一旦合并考虑，却可能导致相反的结论。

下面举例说明。

假设我从医生处得知自己得了肾结石，该医生向我展示了两种疗法效果的对比数据。疗法 A 和疗法 B 两种治疗方案。效果对比如下：

显然，疗法 B 的成功率更高。接下来再细分一下。

据医生解释，肾结石只分为小结石和大结石，没有中等大小的结石。而根据以上数据对比结果，他推荐使用疗法 A，因为无论是治疗小结石还是大结石，疗法 A 的成功率都更高。

这里的结论就是，疗法 A 的成功率更高，因为第 1 张图忽略了两种疗法对别的绝对值（可以理解为 2 种方案的流量）。

体现在 A/B Test 中，就是需要注意对流量选择的划分。

在这个测试里，向 50% 的新访客展示A版本，向另外 50% 的新访客展示 B 版本。若某个访客之前已见过其中某一版本，那么为了避免混淆两个版本的受众，会继续向该访客展示之前的版本。一个月之后，查看结果，发现使用 A 版本的访客中有 10% 的人购买了产品，而使用 B 版本的访客中只有 7% 的人购买了产品。

鉴于此前版本 A 的表现更佳，这次改变了两种版本的展示比例：80% 的网站新访客会看到版本 A，20% 的网站新访客会看到版本 B。与之前一样，回头访客会继续看到与之前相同的版本。第二个月月末，查看两个版本的总体表现时，发现版本 A 的转化率为 9%，而版本 B 的转化率竟达到 10%。

这是因为，在第二个月里，版本 A 的用户中有许多新访客，而新访客的转化难度更大，这自然就拉低了版本A的总体表现。

这个同样说明，在做 A/B Test，流量划分的重要性。

Reference

人工智能之辛普森悖论：解密撒谎的数据