Improving your statistical inferences第三周:控制一类错误和二类错误

Improving your statistical inferences第三周:控制一类错误和二类错误

hcp4715hcp4715

注:Improving your statistical inference是荷兰 Eindhoven University of Technology心理学研究者Danial Lakens在coursera上开设的一门公开课,目的是为了增加心理学研究者对心理学研究中常用统计的理解。我将在这里不定期更新自己的学习笔记。今天刚刚把上周的作业做完,趁热把笔记写了。

这一周的主要内容是讲我们心理学传统统计方法虚无假设检查中的一类错误(type I error)和二类错误(type II error),以及如何避免这些错误在我们不知不觉中膨胀(inflated)。

首先,什么是一类错误和二类错误?见下图:

图1. 一类错误与二类错误,引自:Ellis, (2010) 第50页。
图1. 一类错误与二类错误,引自:Ellis, (2010) 第50页。

所以,一般来说,一类错误就是:没有效应的时候,统计结果却显示p < 0.05,也叫假阳性;二类错误就是有效应时却显示p > 0.05,也叫假阴性。

控制一类错误,最主要的就是控制多重比较带来的假阳性率膨胀。有些多重比较显而易见,比如同一自变量有三个水平,两两比较就产生了3次比较,这种情况下需要校正。另外一个比较隐性的会带来假阳性率膨胀的是在收集数据时,边收集边分析,达到统计显著之后就停止收集。这种边收集边分析实际上是可以让一切实验都变得显著起来,包括Bem (2011)年的那个实验就有这种可能。

图2. 假定虚无假设为真的条件下,预计收集100个被试,在50个被试时分析一次,100个被试时分析一次。进行50000次模拟,各个p值出现的频次分析,可以看出在p刚刚小于0.05时的比例偏高。

控制二类错误,则是主要是统计检查力的问题,也就是实验有多大的可能性把真实存在的效应检测出来。课程中,Lakens引用了一句话:"Studies with high power (low type 2 error) are 'severe' tests."

课里也提到几个增加power的方法:减少测量误差(这个使用问卷会很明显:无效数据多的话,power就很低了);使用被试内设计(被试在不同的测量上通常有较高的相关);增加变异范围(increasing variability),比如问卷中测量某个维度的项目多一些,可能会更好;使用单侧的检验。

除了常规地介绍一类错误与二类错误外,这个课有三个亮点:

第一、Lakens还讲了pre-register,这个方法是非常有效地减少研究者的自由度的方法,现在越来越多的被强调。

第二、讲到了posterior predictive value (PPV), 也就是说根据已经发表的阳性结果,我们推断出有多大的可能这些阳性结果代表了真实的效应。正是根据这个指标,Ioannidis于2005年就指出,大部分发表的研究可能都是假的 (Ioannidis, 2005)。那么PPV到底是什么呢?

图3. If you perform 200 tests with 80% power, and 50% (i.e., 100) of the tests examine a true effect, you’ll find the following results (in the long run). PPV就是 80%*50% = 40%。
图3. If you perform 200 tests with 80% power, and 50% (i.e., 100) of the tests examine a true effect, you’ll find the following results (in the long run). PPV就是 80%*50% = 40%。

还有一个网站是专门让大家来体验PPV是如何变化的, Lakens也在课后作业中告诉大家如何来体验这个网站。


第三是optional stopping,也就是如何在控制一类错误的同时,能够最有效地收集数据(边收集边分析?这个对于心理学的研究者来说是一个有用的技能!!

这里提到了Pocock boudary,本质上,就是在实验开始之前,确定你大约需要进行几位分析(比如打算收集50人数据,准备在10人、20人、30人、40人和50人时各分析一次,哪次显著了就停止),根据分析的次数,来确定alpha的阈限取多少(如果是5次的话,大约就需要定为0.0158)。根据模拟的数据来看,如果进行5次分析仍然使用 0.05作为阈限的话,一类错误会变高(见图4);而使用0.0158,则总体而言的一类错误率仍然保持在0.05左右(见图5)。

图 4. 假定预期收集100人,准备进行5次分析,每次分析的阈限定为0.05时,H0为真的情况下,模拟50000次实验时P值的分布图。

图 5. 假定预期收集100人,准备进行5次分析,每次分析的阈限定为0.0158时,H0为真的情况下,模拟50000次实验时P值的分布图。
图 5. 假定预期收集100人,准备进行5次分析,每次分析的阈限定为0.0158时,H0为真的情况下,模拟50000次实验时P值的分布图。

这个课的一个好处是可以直接使用R代码来运行模拟的结果,对于想了解R的同行来说,这是一个不错的机会!

参考文献:

Ellis, P. D. (2010). The essential guide to effect sizes: Statistical power, meta-analysis, and the interpretation of research results. Cambridge, UK: Cambridge University Press.

Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124. doi:10.1371/journal.pmed.0020124

文章被以下专栏收录
6 条评论
推荐阅读