经典比较篇之三:正态分布检验方法(二)

上一篇主要讲了数据正态性的直观判断,本篇要谈谈统计学家们提出的几种验证分布的方法。常用的方法包括:

Ÿ Kolmogorov-Smirnov D检验,简称K-S检验

Ÿ Lilliefors检验

Ÿ Anderson–Darling AD检验

Ÿ Shapiro–Wilk W检验

Ÿ Ryan-Joiner检验

还有一些其它的检验方法,不一一列举了。

在我国国标《GB/T4882-2001数据的统计处理和解释:正态性检验》中,在有方向的检验方法中,推荐了偏度和峰度检验;在无方向的检验方法中,推荐了Shapiro–Wilk检验和Epps-Pulley检验,并明确Shapiro–Wilk检验适用于8≤n≤50的样本数据,Epps-Pulley检验适用于n≥8的样本。

国标的主要起草人,华东师范大学的梁小筠教授专门编写了一本《正态性检验》,对各种检验方法做了详细介绍。本文试图用比较通俗的语言来把几种常用检验的原理解释一下

本文主要介绍正态性检验的基本原理,感兴趣的可以继续看下去,否则请飘过。

Kolmogorov-Smirnov检验

Kolmogorov大神在统计学界可是个里程碑式的人,1933年,他出版了《概率论基础》一书,建立了概率论公理结论,这是一部具有划时代意义的巨著,困扰统计学界几百年的概率论基本定义的问题得以解决。当然他的贡献涉及到数学的所有领域,可以说是20世纪最杰出的、最有影响的数学家之一。

回到正态性检验,最直观的想法就是拿样本数据与期望的理论分布进行对比,如果差异不大,则可以认为数据服从正态分布,Kolmogorov的检验方法就是这样的。为了说明Kolmogorov检验的思想,我们还是要用到上一篇的经验累积概率分布曲线。

图片来自维基百科

Kolmogorov检验找出在每一个数据点上经验累积概率与目标分布的累积概率之差的上界,列出公式是这样的:

其中sup函数表示一组距离中的上确界,这是个数学概念,表示在原假设F_{n} \left( x \right) =F\left( x \right) 的条件下,F_{n} \left( x \right) -F\left( x \right) 的绝对值的最小上界。F_{n} \left( x \right) , F\left( x \right) 分别代表经验的和理论的累积概率。其意图在于如果原假设成立,则D_{n} 应该很小,如果很大,则原假设不成立。

但是,这个上确界怎么求出来呢?请看下面的公式

其中k为样本从小到大排列后的序数。从公式中看出Dn是经验和目标累积概率之差和错一位后再求出的差中最大的一个。Kolmogorov还给出了这个距离的分布函数,并给出了判断的临界值。当然现在的统计软件都直接计算p值,很少有人查表了。

例:已知某工序输出指标为均值10,标准差0.2,且服从正态分布。现从工序中随机抽取10个样品,测量结果为:9.78、9.96、10.22、10.24、10.07、10.24、9.96、10.05、9.98、9.89,问:数据服从均值为10,标准差为0.2的正态分布吗?

解:根据题意,检验假设为H_{0} F(x)=N(10,0.2);H_{a} F(x)≠N(10,0.2)。

先将数据从小到大排列,然后计算差值。

后两列中最大值是0.221,取α=0.05,查表临界值为0.41。0.221<0.41,因此无法拒绝原假设,数据服从正态分布。

Smirnov检验则是针对两组样本数据是否服从同一分布的检验,其思想与Kolmogorov检验一致,区别在于Smirnov检验计算的是两个样本累积概率的最大差值,当然统计量分布和临界值表肯定也不一样。

上例中假设总体的参数是已知的,但这在实际应用中是很难做到的。在这种情况下通常用样本均值和标准差代替总体均值和标准差,这就是所谓的Lilliefors正态性检验。在很多统计软件中通常采用这种方法。

Anderson–Darling A^{2} 或AD检验

这个方法是由T. W. Anderson和D. A. Darling于1954年提出的,与K-S检验相比,AD检验度量经验累积概率和理论累积概率之差的方法显得更加自然。下面的公式就是其方法:

是不是感觉像是计算方差的公式,我的直观感觉,就是把每个数据点的差求平方以后相加,得到总的分布偏差,这样就考虑了所有的差异点,而不是像K-S检验那样只考虑一个最大的。

公式中f(x)是理论分布密度函数,w(x)是某个权重函数。若w(x)≡1,则为Cramér-Von Mises统计量W^{2}

用上面的积分公式计算统计量比较麻烦,因此两位统计学家又推导出了简单的计算方法,见下面的公式:

其中

注意这个公式计算所采用的数据顺序是从小到大排列的,不是原来的数据排列顺序。

如果总体均值和方差均未知,可以用样本均值和方差来代替,但需要对上式进行修正。修正公式为:

有的资料里写成

还是上面的例子,运用AD检验统计量计算如下:

表中的计算并没有按照原假设的总体均值和标准差来计算,而是用了样本的均值和标准差,因此需要计算AD*。对比某统计软件,你会发现它是用AD值来计算p值的,具体什么理由就不得而知了。

AD检验同样也给出了检验的临界值表,我就不列出来了,大家还是用软件计算吧。

请关注我的公众号:张老师漫谈六西格玛

编辑于 2017-04-23

文章被以下专栏收录