如何全面理解方差分析?

引用百度较全面的方差分析概念(涉及基础,原理,分类等): 方差分析_百度百科

方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

方差分析:单因素方差分析

从分析步骤角度再次介绍单因素方差分析:


对多个总体均值进行检验,需要用到方差分析方法(ANalysis Of VAriance,简称ANOVA)。例如,某工厂有A、B、C三台轧制板材的设备,如果想知道这三台设备轧制板材的厚度是否一致,就可以转化为检验来自三个总体的均值是否相同的问题。以上面所说轧制板材为例,检验A、B、C三台设备轧制的板材厚度是否一致,可以建立如下假设:

H0: μ1=μ2=…=μr;
H1: μ1,μ2,…,μr不全相等。

三个总体均值是否相等无从知道,但是可以通过样本均值是否有显著差异来检验总体均值是否相等。因为,如果H0为真时,则可以期望样本均值很接近,如果样本均值很接近,则推断总体均值相等的证据很充分,就可以接受H0。否则,当样本均值相距较远,就认为总体均值相等的证据不充分,从而拒绝H0,接受H1。

样本均值之间距离的所谓远近是相对的,是通过假定的共同方差的两个点估计值比较得出的。第一个点估计是组内方差,用各个样本方差估计得到的,只与每个样本内部的方差有关,反映各个水平内部随机性的变动。第二个点估计值是组间方差,在H0为真的前提下,由均值抽样平均误差计算得到,这样得到的方差包含两部分的变动:一是各个水平内部的随机性变动,二是各个水平之间的变动。将组间方差与组内方差相比,可以得到一个F统计量(F=组间方差/组内方差),可以证明该统计量服从F分布。

由推断可知,如果三台设备轧制板材的厚度均值相差很小,即组间方差中的各个水平之间的变动很小,F比值会接近于1。反之,则F的比值会显著地大于1,根据上面计算得到的F值,在显著性水平α给定的情况下,就可以做出是否接受三台设备轧制板材厚度均值相等的假设。

单因素方差分析步骤

现在假定一个因素B具有c个水平的因变量进行方差分析检验,例如上面提到的工厂轧制设备是因素,分别试验轧制了10块板材是水平。

1、建立假设
H0: μ1=μ2=…=μc;
H1: μ1,μ2,…,μc不全相等。

2、计算样本均值和样本方差




3、计算组间方差




4、组内方差的估计




5、构造F统计量进行检验
F=组间方差/组内方差=MSB/MSE~F(c-1, nT-1)
如果c个总体均值不相等,则组间方差(MSB)会大于组内方差(MSE)。当F值大到某一临界值时,就可以拒绝H0。临界值的大小由给定的α和自由度决定。所以,当给定显著性水平为α时,F的拒绝域为F>Fα(c-1,nT-c)。

6、方差分析表




范例分析
例题:有8位食品专家对三种配方的食品随机品尝,然后给食品的口感分别打分(满分10分),如下表。问三种配方的平均分数是否相同?(α=0.05)(假定打分服从标准相等的正态分布)。


解:设μA,μB,μC分别代表配方1、2、3。已知因变量是分数,因素是配方,水平为3,具有相同的样本容量8。根据题意建立假设:
H0: μA=μB=μC;
H1: 总体均值不全相等。

首先,计算样本均值及方差




其次,计算组间方差MSB




第三,计算组内方差MSE




第四,计算F统计量




最后,查表Fα(c-1,nT-c)= F0.05(2,21)=3.47。因为F=1.119<3.47= F0.05(2,21),落在接受域。所以接受H0,拒绝H1,即三种配方的口感分数没有显著的差异。

方差分析:有交互作用的两因素方差分析

多样本的参数估计与假设检验基础方差分析:单因素方差分析中以单因素方差分析为例,介绍了对于多个总体(大于等于3)均值假设检验的原理和假设检验过程,文章中多个总体是以单因素为标准划分的,不同总体有n个水平,以下表为例:




如果多个总体由两个因素影响,需要用到两因素方差分析,就是在方差分析中需要考虑两个因素对因变量结果的影响,两因素方差分析有两种类型:1、有交互作用的方差分析:两个因素对因变量都有影响,同时还有两因素同时存在时,共同对因变量产生的影响。2、无交互作用的方差分析:两个因素对因变量的影响是独立的,不存在对因变量的共同影响。它们的取样要求也是不一样的:





进行无交互作用的方差分析,一般是在完成有交互作用方差分析之后,当检验结果证明交互作用不显著时,就可以不考虑这个影响,重新进行无交互作用的方差分析。或者是在观察(试验)之前,有意识地控制某一因素,主要研究另一因素对因变量的影响,这样的观察(试验)的结果也适合做无交互作用方差分析。


有交互作用方差分析步骤
1、建立建设

对于A因素(行因素)
H0: μ1=μ2=…=μr;
H1: μ1,μ2,…,μr不全相等。
对于B因素(列因素)
H0: μ1=μ2=…=μc;
H1: μ1,μ2,…,μc不全相等。
对于AB交互因素
H0: 不存在交互作用影响;
H1: 存在交互作用影响。

2、各均值的计算公式




3、计算各项离差平方和




4、计算均方
MSA=SSA/(r-1)
MSB=SSB/(c-1)
MSAB=SSAB/(c-1)(r-1)
MSE=SSE/rc(n-1)


5、构造检验的F统计量
对于A因素,FA=MSA/MSE~Fα[r-1,rc(n-1)]
对于B因素,FB=MSB/MSE~Fα[c-1,rc(n-1)]
对于AB交互因素,FAB=MSAB/MSE~Fα[(c-1)(r-1),rc(n-1)];

对于上述三个因素,如果给定α,当F>Fα时,则可拒绝各自的H0,接受H1;如果F<Fα,则接受各自的H0,拒绝H1。

上述计算结果可以通过方差分析表:





范例分析
如果人事部门想同时研究奖励制度和领导的类型两个因素对员工生产力的影响,则需要调查更多的数据。下表给出了每个水平交叉单元都包含三个数据的调查资料。试检验各因素对员工生产力的影响是否一致?(α=0.05)



解:1、建立假设
关于奖励制度假设
H0: μ1=μ2=μ3;
H1: μ1,μ2,μ3不全相等。
关于领导类型假设
H0: μ1=μ2=μ3;
H1: μ1,μ2,μ3不全相等。
关于交互作用假设
H0: 不存在交互作用的影响;
H1: 存在交互作用的影响。

2、各均值的计算


根据题目数据,求出各均值,列于下表:




3、计算各项离差平方和


同样可以证明SST=SSA+SSB+SSAB+SSE=6.222+28.667+65.775+25.333=126

4、计算均方
因素A差异,自由度为r-1=3-1=2,所以因素A均方MSA为:MSA=6.222/2=3.111
因素B差异,自由度为c-1=3-1=2,所以因素A均方MSB为:MSB=28.667/2=14.333
交互因素AB差异,自由度为(r-1)(c-1)=(3-1)(3-1)=4,所以交互因素AB均方MSAB为:MSAB=65.778/4=16.444
内部差异,自由度为rc(k-1)=3*3*(3-1)=18,所以内部均方为:MSE=25.333/18=1.407

5、构造检验的F统计量
FA=MSA/MSE=3.111/1.407=2.211

FB=MSB/MSE=14.333/1.407=10.184
FAB=MSA/MSE=16.444/1.407=11.684

方差分析表:


根据给定显著水平α=0.05,查F分布表,得F0.05(2,18)=3.55,F0.05(4,18)=2.93。
对于A因素,FA=2.211<3.55= F0.05(2,18),落在接受域,即领导的类型对员工生产力的影响没有显著差别。
对于B因素,FB=10.184>3.55= F0.05(2,18),落在拒绝域,即奖励制度对员工生产力的影响显著不同。
对于AB交叉作用,FAB=16.444>2.93= F0.05(4,18),落在拒绝域,即AB交互作用对员工的生产力的影响是显著不同的。这就是说,领导的类型的水平本身没有影响,但当与奖励制度水平结合时就产生了交互作用的影响。

在进行两因素方差分析时,如果存在交互作用,主要影响就变得不再重要,就不能再使用通常的方法分析主要影响,检验结果已不能明确地说明行或列影响的差异是否显著。因此,当存在交互作用的影响时,一般不应去解释行或列因素的主要影响。


方差分析:无交互作用的两因素方差分析
进行无交互作用的方差分析,一般是在完成有交互作用方差分析之后,当检验结果证明交互作用不显著时,就可以不考虑这个影响,重新进行无交互作用的方差分析。或者是在观察(试验)之前,有意识地控制某一因素,主要研究另一因素对因变量的影响,这样的观察(试验)的结果也适合做无交互作用方差分析。

无交互作用两因素方差分析
假设A和B两个因素,因素A有r个水平,因素B有c个水平。假定不存在A与B的交互作用,或已知交互作用对因变量影响很小,则在观察或试验时,在r*c个整体中只抽取一个样本或只做一次试验即可,如下表:




无交互作用两因素方差分析步骤与有交互的一致:
1、建立建设
对于A因素
H0: μ1=μ2=…=μr;
H1: μ1,μ2,…,μr不全相等。
对于B因素
H0: μ1=μ2=…=μc;
H1: μ1,μ2,…,μc不全相等。

2、计算各项离差平方和




3、计算均方
MSA=SSA/(r-1)
MSB=SSB/(c-1)
MSE=SSE/(c-1)(r-1)

4、构造检验的F统计量
对于A因素,FA=MSA/MSE~Fα(r-1,(c-1)(r-1));
对于B因素,FB=MSB/MSE~Fα(c-1,(c-1)(r-1));
对于给定的α,A因素的拒绝域为FA>Fα(r-1,(c-1)(r-1));
B因素的拒绝域为FB> Fα(c-1,(c-1)(r-1))
上述计算结果可以通过方差分析表表示出来:




范例分析
某人事部门想研究奖励制度对员工生产力是否有不同的影响。为了消除不同类型领导对员工生产力的影响,分别按三种领导的类型调查了9个公司的员工生产力情况,如下表所示。表中数字是生产力分数(分数高代表生产力高)。试检验三种奖励制度对员工生产力的影响是否一致?(α=0.05)



解:假设领导类型与奖励制度没有交互作用,按无交互作用的方差分析方法。
1、建立假设
关于奖励制度假设
H0: μ1=μ2=μ3;
H1:μ1,μ2,μ3不全相等;
关于领导类型假设
H0: μ1=μ2=μ3;
H1:μ1,μ2,μ3不全相等。

2、计算各项离差平方和
将题目信息整理如下表:



离差平方和计算如下:




3、计算各项均方

MSA=SSA/(c-1)=13.556/2=6.778
MSA=SSB/(r-1)=20.222/2=10.111
MSE=SSE/(c-1)(r-1)=9.778/2*2=2.444

4、计算F统计量
对于领导类型:FA=MSA/MSE=6.778/2.444=2.773

对于奖励制度:FB=MSB/MSE=10.111/2.444=4.136



5、查F分布表确定临界值

已知α=0.05,对于奖励制度,查的F0.05(2,4)=6.94。因为FB=4.136<6.94= F0.05(2,4),落在接受域。所以接受H0,拒绝H1,即三种奖励制度对于员工的生产力没有明显差别。同理因为FA=2.773<6.94= F0.05(2,4),所以领导类型对员工生产力的影响也无明显差别。

发布于 2018-11-10

文章被以下专栏收录