悖论之美

我们生活在大数据的时代。免费游戏每天会收集 300GB 的数据,网站们会跟踪我们在每一个像素的每一次点击,大家都在使用 A/B 测试来测试哪一种服务效果更理想。

有三种类型的谎言:谎言、该死的谎言、统计学
—— 马克吐温

居心不良的人可以扭曲和操控数字,来达到他们想要的结果——我们都知道他们是如何玩弄数字的。

但玩弄数字还有另一种微妙的技巧。聪明、受到过良好教育、有良好逻辑思维的人可以运用这些技巧通过正确的数据,得出完全错误的结论。这种现象时刻都在发生着。

辛普森悖论

1973 年,加州大学伯克利分校因女性歧视被起诉,从数据上看,男研究生的录取率比女研究生高 9%。

申请人数 录用率
男性 8442 44%
女性 4321 35%

这个官司引发了一项研究。 但是研究结果表明,女性不仅没有受到歧视,而且女性在录用率上的有额外优势!

这怎么可能?之前的数据似乎很清楚地表明了是女性受到歧视。答案是:辛普森的悖论:

当人们研究变量的相关性时,会对它们进行分组研究。这时,在总体趋势中存在的优势可能会消失,甚至发生反转。

下面的表格解释了其中究竟发生了什么:有些学院的录取率很高,有些学院的录取率很低。女生偏向于申请竞争更激烈的学院,男生偏向于申请竞争不那么激烈的学院。在整体录用率上,男生偏高;但是看每个学院的录用率,女生更高。

男生 女生
学院 申请 通过 申请 通过
学院一 825 62% 108 82%
学院二 560 63% 25 68%
学院三 325 37% 593 34%
学院四 417 33% 375 35%
学院五 191 28% 393 24%
学院六 373 6% 341 7%

这是历史上一起真实的官司,并且是辛普森悖论中最著名的例子之一。

我很喜欢辛普森悖论,它让我感到愉悦。因为它不仅仅会改变或扭曲结果,而且完全颠覆了结论。这样的事故在现实中经常发生。

肾结石治疗方案

接下来我提出一个问题,来强化对辛普森的悖论的认识。

假设肾结石有两种不同的治疗方法,你觉得哪一种更好?

  • 治疗方案 A:350 位患者,其中 273 位痊愈(治愈率 78%)
  • 治疗方案 B:350 位患者,其中 289 位痊愈(治愈率 83%)

正确答案是 …… 方案 A!奇怪吧?这次有什么不同呢?

治疗方案 A 治疗方案 B
小结石 治愈率 93% (81/87) 治愈率 87% (234/270)
大结石 治愈率 73% (192/263) 治愈率 69% (55/80)
整体治愈率 78% (273/350) 83% (289/350)

肾结石分为大小结石,治疗大结石更难一些。方案 A 无论在小结石还是大结石上,都有更好的治疗效果:治愈率分别为 93% 和 73%。

这里的关键在于,虽然每个方案的样本都是 350 人,但其中大小结石的样本数并不是均等的。

  • 方案 A:87 位小结石患者 和 263 位大结石患者
  • 方案 B:270 位小结石患者 和 80 位大结石患者

当对所有 350 位患者的治愈效果求平均值时,方案 A 的平均值将倾向于较低的大结石治愈率,方案 B 的平均值将倾向于小结石的较高治愈率。这导致方案 A 的综合治愈值被降低——尽管方案 A 在小结石和大结石上都有更好的治疗效果。

剥洋葱理论

我认为辛普森悖论就像剥洋葱。以刚才的肾结石治疗为例:洋葱的最外层认为治疗方案 B 更好;当我们剥掉最外层以后,分别考虑小结石与大结石,会发现在两种情况下治疗方案 A 都更好。

如果我们再剥掉一层,我们很可能会发现:至少在某些情况下,治疗方案 B 会更好。也许是对老年患者来说更好,或是对肥胖患者的小结石更好,或是对患有另一种疾病患者的大结石更好。等等。

让我们再回顾一次辛普森悖论:

当人们研究变量的相关性时,会对它们进行分组研究。这时,在总体趋势中存在的优势可能会消失,甚至发生反转。

每剥开一层,都有机会反转上一层的结论:乍一看上去 A 更好,但是我们深入一研究,发现是 B 更好;再深入一点,发现依然是 A 更好。我真的很喜欢这样的感觉。

游戏中的例子

到目前为止,辛普森悖论出现在了研究生招生和医学研究,接下来还会出现在我们经常玩的游戏中。准确地分析和解读数据真他妈不容易呢!

接下来是一个设想中实验。实验模拟了一个场景,我提出场景中的潜在问题。

在一个第一人称射击游戏(FPS)中,玩家觉得狙击手太强了。好,让我们来看看数据怎么说:

  • 每场比赛中,狙击手的平均击杀次数高于其他角色。

确定无疑,也许玩家是对的。让我们剥一层洋葱皮,看看下一步是什么:

  • 狙击手在水平较低天梯比赛中平均击杀次数更多。
  • 狙击手在高等级天梯比赛较少玩家使用。
  • 狙击手在某些地图上占据主导地位。

比赛等级、地图、玩家。基于这些选项,我们可以对实际情况的作出不同的解读。但还没有改变任何结论,说明我们不够深入,我们需要剥离更多层洋葱皮。

以下是我解读的七种不同场景,每种场景都会导致这一结果:

  • 狙击手的能力下限高,但是上限低。
  • 狙击手非常克制新玩家爱玩的角色。
  • 由于视野特别远,狙击手在某些地图确实太强了。
  • 狙击手在某些地图上很容易克制别的角色。
  • 狙击手并没有很强,但在某些地图上大家都爱玩支援类角色,导致狙击手感觉很强。
  • 狙击手并没有很强,但游戏匹配系统缺陷导致无法将高级别狙击手匹配到高级天梯。
  • 狙击手并没有很强,但游戏匹配系统缺陷导致将中等级别狙击手错误地匹配到高级别比赛。

最后两点是我最喜欢的。首先,这说明高等级天梯中缺少狙击手可能与游戏玩法无关;其次,两种相反的场景会导致相同的负面结果。

理论

我有一个想法,你可以理解成一个未经证实的理论:对于任何给定的数据集的统计结果,都存在相反的结论。

我认为在任何时候,只要你得出了一个统计结论,你都应该问问自己这个结论代表什么。如果你陷入了辛普森悖论怎么办?如果你剥离了一层洋葱皮,导致扭转了你的结论怎么办?

如果你主动问自己这些问题,你可能会发现你的结论是正确的,也可能会发现自己陷入了一个悖论,并走错了路。

结论

无论你有多少数据,你都需要提出准确的问题。可能你有良好的初衷,但很容易因为提出不准确的问题导致得出错误的答案。

辛普森悖论是一个很好例子,它说明了反转统计结果有多么容易。意识到它的存在,并不断问自己如何保持在正确的道路上,是值得坚持的事情。

一个彩蛋

之前提到的两个经典案例很硬核,也很适合学习悖论。但我最后得说一个有趣的故事。

故事发生在 2012 年, YouTube 高级工程师 Chris Zacharias 写了一篇博客 “Page Weight Matters”。Chris 的团队负责优化 YouTube 的视频观看页。他在文章中提到,随着时间的推移,这个页面的体积已经增长到 1.2MB,巨大的体积让页面加载时间变长了。

经过几天的努力,Chris 将页面大小缩小到仅仅 98KB,还减少了网络请求数,并用精简的 HTML5 播放器换掉了体积庞大的 Flash 播放器。他感觉很好,最终把这个优化上线了。

经过一周的数据收集后,Chris 发现 …… 新改动让页面的访问速度变得更慢了!页面的平均延迟增加了。尽管体积只相当于原来的 10%,但却需要更长的平均加载时间。

让我们用辛普森悖论来解读这个现象。

为避免悖论,我们必须准确了解当前正在测量的样本。 如果只是通过比较对照组和实验组的平均结果,不会得到有意义的结论——除非我们理解每个组的构成。

在 Chris 的故事中,改进的新方案获得了来自东南亚,南美和非洲的大量新流量。这些地方在新方案中平均需要两分钟才能完成页面加载。而在旧方案,它将花费二十分钟——也就是说,在旧方案中,来自这些地区的用户根本无法打开页面,也就不会进入到统计样本。

所以 Chris 的代码不仅是成功,这是一次大成功。本来二十分钟才能打开页面导致 YouTube 在这些地区而无法使用,改进方案虽然需要两分钟,但是能打开页面已经很好了。以前无法使用 YouTube 的人们突然能用上 YouTube。

然而,最初的数据分析却说这是一次失败的改进。这个故事让我们感到好奇:我们有多少次陷入悖论并对悖论毫无察觉? 有多少次使用正确的数据做出完全错误的结论?可以肯定,不在少数。


转载自:https://lyric.im/my-favorite-paradox/

本文翻译自 Uber 娱乐高级工程师 Forrest Smith 的文章《My Favorite Paradox》