方差分析——概念和原理

方差分析——概念和原理

方差分析(analysis of variance),简写为ANOVA,指的是利用对多个样本的方差的分析,得出总体均值是否相等的判定。本篇是我学习统计学的笔记,为了方便自己理解,也为了今后回顾能快速记忆起来。


案例说明

为了检验某小学六年级教学质量的差异,从该小学六年级的三个班级中分别选取一定数量的学生,分成三个组(三个样本),对他们期末考试的平均分进行统计分析。如果实验显示每个每组的均值相同,即三个班期末考试的成绩差异不大,则表明该小学六年级不同班级的教学质量没有差异,and vice versa。

每个样本组的平均分分别为 μ_1,μ_2,μ_3 ,方差分别为 \sigma_1^2,\sigma_2^2,\sigma_3^2

给出零假设 H_0\mu_1=\mu_2=\mu_3

备择假设 H_1 :样本组的均值不全相等

方差分析将会依据观测数据判定假设是否成立。


进行方差分析有3个假定条件:

  1. 每个样本的值服从正态分布
  2. 每个样本的方差 \sigma^2 相同
  3. 每个样本中的个体相互独立

假定零假设正确, \mu_1=\mu_2=\mu_3 ,三个样本均值相等,同时根据假定条件中的2:样本的方差相同,是不是可以看成——三个样本均取自均值 \mu = \mu_1=\mu_2=\mu_3 ,方差为 \sigma^2 的同一总体。

方差分析的核心是中心极限定理。

从均值为 \mu ,方差为 \sigma^2 的总体中抽取样本容量为 n 的样本组,每个样本组的均值服从均值 \bar{x}=\mu ,方差 \sigma_\bar{x}^2={{\sigma}^2}/{n} 的正态分布。(中心极限定理)

这里需要澄清样本和总体的概念:总体有三个,分别是三个班级的所有学生,从三个总体中分别抽取出样本容量为n的三个集合,是我们所谓的样本。如下图

经过观测,如果样本的均值差异较大,可以推出,每个总体的均值不同;如果样本均值相等,每个总体的均值可能很接近。

这里的一个隐含推理就是:三个样本来自同一总体,即将整个六年级看做一个整体,不存在班级差异。这样,在抽取的样本量相同的假定条件下,抽样符合中心极限定理。可以推测样本均值的分布符合正态分布,在某一区间内的概率会大。

正态分布曲线

H_0 成立,我们所得的三个班级是这个曲线上的某三个点,正态分布的均值是三个样本的均值的平均数,即 \mu=\sum_{i=1}^{k}\mu_i/k

正态分布的方差可用如下公式进行估计

S_\bar{x}^2=\sum_{i=1}^{k}{(\bar{x}-\mu)^2}/k-1

其中 k 是样本数量, S_\bar{x}^2 是样本均值的方差。根据中心极限定理

\sigma_\bar{x}^2={{\sigma}^2}/{n} ,有 {\sigma}^2=S_\bar{x}^2*{n} ,即 {\sigma}^2=[\sum_{i=1}^{k}{(\bar{x}-\mu)^2}/(k-1)]*{n} 可以证明这是样本方差的无偏估计,称为 \sigma^2 的组间估计。


另一方面,如果 H_0 为假,则三个样本来自不同的总体

三个样本来自不同总体

\bar{x} 有三个不同的分布。如果将三个班看做一个总体,则总体的方差也会更大,总体的方差可用三个样本方差的均值来估计:

\sigma^2={\sum_{i=1}^{k}{\sigma_i^2}}/k ,称为 \sigma^2 的组内估计。


如果 H_0 不成立,组内估计可用于总体的方差估计。因为当 H_0 成立时,每个样本的方差相同,等于总体方差,此时方差的组间估计是更好的估计。故当组内估计和组间估计接近时, H_0 为真。这就是方差分析的核心思路。

正式声明

设有 k 组样本,每组有 n 个独立样本, i 表示每组中的第几个样本, j 表示第几个样本组。

定义零假设 H_0\mu_1=\mu_2=...=\mu_i=...=\mu_k

对应的备择假设 H_1 :样本均值不完全相等

可以计算每组的均值 \bar{X_j}=\sum_{i-1}^{n_j}x_{ij}/{n_j} (其中 x_{ij} 为第 j 组的第 i 个样本)

每组方差 S_j^2=[\sum_{i=1}^{n_j}(x_{ij}-\bar{x_j})^2]/(n_j-1)

若k个样本来自同一总体,该总体的均值等于所有样本中的样本个体之和除以总个体数 \mu=[\sum_{j=1}^{k}\sum_{i=1}^{n}{x_{ij}}]/[\sum_{j=1}^k{n_j}] ,另一种方法是样本均值的均值 \mu=\sum_{j=1}^k\bar{x_j}/k

总体方差的组间估计为 MSTR=[\sum_{j-1}^k(\bar{x_j}-\mu)^2*n]/(k-1)

总体方差的组内估计为 MES=[\sum_{j=1}^k(n_j-1)*s_j^2]/(n_T-k)

有了上面一段啰里啰嗦的公式之后,F检验的正式说明是:如果零假设为真,总体方差的组间估计和组内估计的比值,服从分子自由度为 k-1 ,分母自由度为 n_T-k 的F分布

F=\frac{MSTR}{(MSE)}

F分布和当中的拒绝域

应用

给定显著性水平 \alpha ,F分布对应的临界值为 F_a ,当 F=\frac{MSTR}{(MSE)}>F_a 时,拒绝 H_0

编辑于 2017-10-21