假设检验之七:为什么习惯将α风险定为0.05

这个问题估计会有很多人有疑问,网上也有人问这个问题。

通常课堂上老师会说,习惯上将α风险定为0.05,因为一直是这么用的。至于为什么要这样,其实老师也不见得知道。

最近在知乎上看到这样一种说法,人大的贾俊平老师是这样说的:“因为第一个提出这种方法的人(应该费歇尔大神吧)就是这么做的,大家也就跟着这么做了。其实,0.1的显著性水平就够了。” 0.1反过来就是0.9,按照我们日常生活上的理解,其实就是十拿九稳了。

我认为比较权威的解释来自这本书《The Little Handbook Of Statistical Practice》,作者Gerard E. Dallal。作者用了一节整整4页来解释,这里摘译一小部分,纯粹意译,不要计较翻译是否严谨。先说明一点,文中的p和我们所说的α不是一个概念(到底p是啥下一篇再细说),但讨论判断的临界值或称为显著性水平时两者基本上就是一个概念了。

是费歇尔检验给予0.05这个特殊的地位的(果然如此!),在他1925年所著的《研究工作者的统计方法》(简写为SMRW)第13版44页中写道:
p=0.05,或二十分之一,是(正态分布的分位数)1.96或接近2;这个值比较方便用于判断差异是不是显著。超过两倍标准差的差异可以明确地视为显著。用这个准则,即使只有统计量作依据,我们也仅仅会在22次试验中得到1次假结论。
但在费歇尔处理特定的例子时,与此有矛盾。在SMRW的137页中,费歇尔提出p值略小于0.05也不那么令人信服。
t值的计算结果显示介于0.02和0.05之间,结果应该判为显著,但很少这样判。但看看数据,我们不能忽略这样的可能性,在这块地上,连同所用的其它肥料,苏打中的硝酸盐比硫酸氨更能保持肥力,但是,毫无疑问数据却没有显示出这一点。(老爷子是不是在书里写错了?)
在139-140页中,他排除了大于0.05但小于0.10的值。
我们发现t=1.844[自由度13,p=0.088],回归系数之间的差异尽管相当大,但也不能认为是显著的。没有足够的证据断言B族比A族增长得更快。
但在另一个案例中,费歇尔倾向于对差异不太明显的值加以关注。
......p=0.89,因此2这个大的值可能从一系列随机顺序的值中被观察到,可能性为100次中有8.9次。因此有一些理由怀疑在连续的年份里降雨的分布不是完全偶然的,而是有某个缓慢变化的原因是容易在相同的方向上影响几个连续年份的降雨。
在同一页,又排除了另一个这样的值。
......在Elderton的表格中p=0.093,表明尽管在降雨分布数值中有关联的标志,但这种关联,如果存在的话,不足以在一组约60个值中明显看到。
这种不一致的部分原因是费歇尔看待p值的方式。当奈曼和皮尔逊提议将p值当成他们的固定水平检验的绝对分割线时,费歇尔强烈反对。费歇尔更多地将p值看成反对假设的一个证据的度量。

尽管如此,人们还是觉得0.05是个比较恰当的值,并且这也已成为多数领域里的共识。如果每个人都有自己的标准,对结果任意解释,那就没有科学性可言了。

在最后一段,Dallal是这样说的。

......当计算机变得普及,可以计算所需的精确p值时,标准的方法迅速转变到直接报告p值,而不仅仅是小于或小于0.05。费歇尔所建议的将0.02作为强烈拒绝假设的证据没能被接受,并被0.01取代。然而,继续保持0.05作为表达统计显著性的特殊地位是科学的。

看到这里,你是不是对此心里有数了?也就是说,0.05并不是一个法定的值,而是约定俗成的。但是就像我们自己塑了一个佛像,然后像神一样顶礼膜拜一样,用着用着,大家就觉得这是一个定理了。现在的科学论文如果不用0.05,似乎就不容易发表。其实完全不必如此。

统计学只是给你的决策提供依据,但并不能帮你做出决策。有时候即使统计上差异不显著,但这种差异也不一定就是可忽略的,只不过是你的样本量可能有点小。1992年3月22日,长二捆(CZ-2E)发射失败,故障原因就是一助推器的一个焊点有多余铝屑物,造成助推器点火后即关机,火箭主计算机测得推力不够,实施了紧急关机。

看过前面的文章的人应该知道,只要样本量足够大,再微小的差异也会检验出来的,因为随着样本量趋于无穷,样本均值的方差也趋于0,即样本均值的随机性最终消失。

α风险定为0.05不是绝对的,我们在做回归分析和DOE的分析时经常会将显著性在0.1左右的因子保留下来,这样可能模型的预测性更好。具体取多少,可以根据具体情况来选择。

还有一种现象需要注意。在很多心理学、医学的论文中,会取3个α值,分别为0.05、0.01、0.001,再对应一颗星、二颗星、三颗星,分别解释为“显著”、“非常显著”、“极其显著”。有些课本上也这样写,对此也有不少争议。在吕小康的论文《Fisher与Neyman-Pearson的分歧与心理统计中的假设检验争议》中就指出:

若严格按照奈曼-皮尔逊的步骤,如果考虑α=0.05作为判定是否显著的唯一标准,那么标准显然只能有一个而不是多个,它只能是固定而不动的。研究者在事先确立这一行为准则的基础上。再去执行检验,因此结果是否显著,应对是截然两分的。遵循这种严格的两分行为模式,那么NHST(原假设显著性检验)中“三种水平并存”的做法就相当于一次考试中“提前”设置了三道及格线,无论如何都不能与奈曼-皮尔逊原有的想法兼容。而且,由于奈曼-皮尔逊模式要求考虑检验的功效,而如果α发生改变,相应的β也会发生改变,这就会给功效的计算带来很大的麻烦。

虽然我非常同意以上说法,这也只是很较真的人痛苦想法。很多人就是这样用的,而且似乎大家也默认了。

一个大家都不一定很关注的问题写了这么多,实在是无聊,就此打住。



请关注我的微信公众号:张老师漫谈六西格玛

发布于 2017-03-24 16:07