最常见的统计学谬误

最常见的统计学谬误

导读

  • 在统计学中,有哪些常见的谬误?
  • 在分组比较中都占优势的一方,为什么在总评中反而成为失势的一方?
  • 小红热爱音乐,她更可能是琴师还是会计?
  • 乳房影像检查显示自己患上乳癌,确诊和误诊的概率分别为多大?
  • 把一个样本从一个组移去另一个组,怎么会同时提升两个组的平均值?


今天这篇文章,和大家分享几个最常见的统计学谬误。

(1)辛普森悖论(Simpson's Paradox)

辛普森悖论,指的是在分组比较中都占优势的一方,在总评中反而成为失势的一方。

上图显示的是某大学法学院和商学院招生的数据统计。我们可以看到,法学院男生的录取比例为8/53=15.1%,女生录取的比例为51/152=33.6%。同理,商学院男生的录取比例为80.1%,女生的录取比例为91.1%。

无论在法学院还是在商学院,女生的录取比例都高于男生。本文的男性读者读到这里,可能会感到一丝不平。

现在我们把两个学院录取的男女生人数相加,再来做一下统计。

男生录取的比例为209/304=68.8%。女生录取的比例为143/253=56.5%。男生的录取率要高于女生。这下,恐怕要轮到女生感到不公了。

那么问题来了:该大学的招生政策,到底有没有性别歧视?如果有,是歧视男生还是女生?

辛普森悖论告诉我们,很多时候,在分析数据的时候,不能简单的将分组数据汇总相加。我们需要仔细观察分组数据的特征。比如在上面这个例子中,法学院的录取率要远远低于商学院,而大多数男生选择申请商学院。因此即使男生在法学院的申请中被拒率很高,被拒掉的绝对数量却不见得多。女生的情况,则恰恰相反。

在我们得出任何基于统计分析的结论前,先认真想一想,该结论是不是符合常识?有没有可能被表面的数据掩盖了背后的真相?这是我们能够从辛普森悖论中学到的教训。


(2)基本比率谬误(Base Rate Fallacy)

让我先用一个简单的例子帮助大家理解基本比率谬误这个概念。

假设小红热爱音乐,几乎每天在家里弹钢琴,有时候还友情客串朋友的宴会为大家演奏一曲。 现在请问,小红的职业是什么?

在没有其他信息的前提下,你应该选择B)会计,而非A)琴师。主要原因在于,从事会计的人口数量,要远远高于从事琴师工作的人口数。这个数量,就叫做基本比率(Base Rate)。

再举个例子。乳房影像检查(Mammography),在帮助女性排查乳腺癌中应用广泛。事实上不少机构都鼓励40岁以上的女性每年在体检中包括乳房影像检查,以确认自己是否患上乳腺癌。

以一个40岁左右的女性为例。基于美国的统计数据,该女性患有乳腺癌的概率大约为1%左右。【注意,这个比率和一位女性一生中查出乳腺癌的概率是两个概念。根据美国的数据,到80岁查出乳腺癌的概率为12%左右。】

如果她选择通过乳房影像检查来测试自己是否患上乳腺癌,检查结果出现误差(即被误诊患上乳腺癌)的概率为9%左右。

那么问题来了:如果一位女性病人去做了一个乳房影像检查,测试结果显示她患上乳腺癌。她真正患上乳腺癌的概率是多少?

很多人可能会回答91%,因为乳房影像检查出现误诊的概率为9%。但这是错误的答案。

事实上,她患上乳腺癌的概率仅为9%。计算过程如上图所示。由于患上乳腺癌的女性的基本比率(Base Rate)本来就很小,再加上乳房影像检查自身带有的误诊率,因此导致最后测试结果为患癌的人群,其实只有9%左右真的患上了乳腺癌。

这个例子告诉我们,在我们做出任何判断前,首先需要对基本比率有个大致的认识,否则很容易不小心就陷入统计的陷阱。


(3)罗杰斯现象(Will Rogers Phenomenon)

罗杰斯现象指的是,在做数据统计时,如果把一个样本从一个组移去另一个组,会同时提升两个组的平均值。

一些读者看到这句话,可能会觉得不可思议。让我通过一个例子来给大家解释一下。

假设有6个人,分别为40、50、60、70、80、和90岁。现在将他们分为两组。第一组包括40岁和50岁的两人,因此组平均年龄为45岁。剩下的归入第二组,因此组平均年龄为75岁。

现在把第二组中的那位60岁的哥们,移去第一组。移过去以后,第一组的平均年龄变为50岁,而第二组的平均年龄变为80岁。两组的平均年龄都上升了。

罗杰斯现象,导致我们在医学领域产生一些容易让人混淆的,似是而非的结论。

举例来说,前列腺特异抗原测试(PSA测试)可以帮助我们诊断前列腺癌。在没有发明这项测试前,很多人患了前列腺癌却不自知,因此他们被归入“健康”人群。而那些被确诊前列腺癌的患者,被归入“患者”人群。

有了PSA测试这项技术以后,很多人在年纪轻轻时也能通过该测试确诊自己是否患上前列腺癌。这部分人,就被移出“健康”人群,归入“患者”人群。

由于这个归类的变化,导致患上前列腺癌的“患者”人群,以及“健康”人群的平均寿命都得到了提高。因为“健康”人群中被移去一部分癌症患者,而这些癌症患者属于“轻度病患”(前列腺癌的致死率很低),因此“健康”和“患者”两个人群的寿命平均值均得到了提升,让人误以为PSA测试能够帮助我们延长寿命。

【注:如果你没有看懂这个例子,可以尝试回过头去再读一遍,多想想就能明白了。】


(4)伯克森悖论(Berkson's Paradox)

伯克森悖论,指的是两个本来无关的变量之间体现出貌似强烈的相关关系。

举个例子来说,假设某学校在招收学生时,要求学生要么学习成绩好,要么体育成绩好。

所有的报考学生需要参加两门考试:文化(语数外),和体育(跑跳投)。最后,学校仅录取在任一考试中考到90分以上的报考学生。

所以能够被学校录取的学生,要么在文化考试中考到90分以上,或者在体育考试中考到90分以上,或者在两门考试中都考到90分以上。

现在如果我们分析这些被入取学生的成绩分布,会发现一个学生的学习成绩,和体育成绩是负相关的。因为那些体育成绩最好的学生(比如体育100分),他们的文化平均分为50分(假设他们的文化考试呈现正态分布)。而体育成绩最差的学生(比如体育成绩10分),其文化平均成绩为95分(因为只有超过90分的学生才被录取)。

因此,分析人员可能会得出结论:体育越好,文化成绩越差。文化成绩越好,体育越差。但这个结论显然是错误的。


(5)生日悖论(Birthday Paradox)

先来算一道很简单的题目:

假设你的班上一共有23位同学,其中任何两位同学生日撞期的概率为多少?

有人可能会这么想:一年有365天,把这23位同学分布在365天里,撞期的概率应该很小。大概不到10%吧。

事实上,23位同学中,生日撞期的概率为1/2。就是说,有一半的概率,这个班上至少有一对同学的生日相同。

对于这个问题,你可以这么考虑。我们先来算一下23位同学生日不撞期的概率。然后用1减去那个数字,就是这些同学生日撞期的概率。

假设23位同学排队逐个进入教室。第一个进入教室的同学,其生日和其他同学不一样的概率为1。第二位同学,其生日和其他同学不一样的概率为364/365。第三位同学,其生日和前面两位同学生日不一样的概率为363/365。

以此类推,所有同学生日不撞期的概率为1 X 364/365 X 363/365 ......

然后用1减去上面的乘积,可以得出,当教室里有23个同学时,其结果为0.5左右。


总结

统计学是一门非常有用的学科。可以毫不夸张的说,每一位大学生都应该学一点基础统计学。但是上面的例子也告诉我们,统计学中有不少陷阱。如果不了解这些误区,我们很可能会被错误的统计方法迷惑,得出不正确的结论。

提高自己的科学知识水平,保持不断学习的习惯,是让自己变得更聪明的唯一途径。

希望对大家有所帮助。

伍治坚是《小乌龟投资智慧:如何在投资中以弱胜强》的作者。10月16号那周,伍治坚会在复旦大学,南京审计大学,上海大学等学府进行巡回演讲。有兴趣报名参加的朋友,请私信微信号:woodsford。

数据来源:

Paradoxes of probability and other statistical strangeness

编辑于 2017-09-12 21:10