Improving your statistical inferences第一周:p值是什么?

Improving your statistical inferences第一周:p值是什么?

hcp4715hcp4715

注:Improving your statistical inference是荷兰 Eindhoven University of Technology心理学研究者Danial Lakens在coursera上开设的一门公开课,目的是为了增加心理学研究者对心理学研究中常用统计的理解。本次补第一周的内容。

你对p值的理解吗?让我们来测一测:sojump.com/jq/11122468.


第一周的内容主要是两个方面:1、对课程的介绍以及如何算成绩;2、三种不同的统计取向;3、频率主义(frequentism) 统计中p值;一类错误和二类错误。第一点就不说了,因为这个课已经结束了(有可能会再开,请关注,据说中文字幕正在准备之中)。下面就讲第二点和第三点。

开始讲之前,Daniel明确了一点:为什么我们要去认真地学习统计推断?原因可能如下:


这一点很重要,而且往往会被我们所忽略,虽然Feynman在1974就已经提醒过我们了,但今年Nature News仍然再次说到我们人类认知偏差(cognitive bias)对于研究可重复性的影响:nature.com/news/let-s-t

另外,在现在心理学的研究中,从在数据与理论之间,需要统计来进行连接 (当然,统计在科研中扮演重要角色的历史也不算非常长,可以看看the lady tasting tea)。

第一课的重点之一:心理学研究中可以使用的统计取向有三种:频率主义统计(frequentism statistics)、贝叶斯统计(Bayesian statistics)和似然率(Likelihood Ratio,这个翻译我拿不准)。这三种取向的统计分别回答的问题:“我应该怎么做?” “我应该相信什么?”以及“相对的证据是什么?” 频率主义统计实际上回答的问题是:"长此以往,我们的行为会是怎么?” 因此,对于我们当前的这个检验,它其实没有提供任何的信息(一脸懵逼啊)。贝叶斯统计考虑的问题则是:当前的数据会如何改变我们先前的信念。似然率则只是单纯地计算出当前数据在两种假设下的可能性,看他们的相对而言,谁更可能是正确的。由于似然率是相对的证据,因此即便两个假设都是错的,也有可能一个比另一个可能性更大。这三种统计方法之间并不相互冲突。

介绍完了三种统计的取向之后,Daniel开始先介绍频率主义的统计,实际上就是我们常用的基于p值的统计。p值无疑是现在科研中使用最多的一种统计方法(比如心理学中至少有95%以上的实验是使用p值作为统计推断的基础的),它也是有优势的:

当然,也有一种解释是说,我们之所以大量使用p值是因为不懂贝叶斯统计(嗯,这个理由我服)。

p值本身的含义到底是什么(抛开各种检验的原理不说)? 它是当你假定没有效应时,当前数据有多大的可能会出现。而我们人为地规定一个值(比如心理学中的0.05,物理学中的0.0000003),假如p值小于这个值,我们就论文认为:如果假定没有效应,当前的数据太奇怪了,因此可能是有效应的。

由于p值是我们假定没有效应(假定H0为真)时,出现当前数据模式的概率,所以我们不能根据p值推断出H0为真的概率。因为以H0为真作为条件时,当前数据模式的概率,不等于以当前数据模式作为条件,H0为真的概率。

p> 0.05也不能说明没有效应,有可能是效应比较小,需要更多的样本才能检测出效应。所以其实当p > 0.05的时候,能够提供的信息非常少。但是由于p值本身的分布也有一定规律的,所以单个研究的p值即便不显著,它从某种程度上也可以为科学做贡献:将它纳入到元分析中很重要。

从频率主义的角度来讲,一次实验并不能证明太多的东西,而是当作从无数个实验中的一次取样,所以一个研究的结果是否显著,从长远的角度来讲其实都是有贡献的。

在解读p值时,需要注意的另一点是,p值是关于数据在我们假定没有效应时的概率,而与理论无直接关系,所以不能为理论提供直接证据。

当效应真正存在(即H1为真时),p值的分布依赖于统计检验力;当效应不存在时,p值在0-1之间均匀分布(不管实验有多少被试)。这一点在第三周中讲得更加详细:zhuanlan.zhihu.com/p/23

第一课里最后的内容是一类错误与二类错误。这两个概念可能是在心理统计学中最经常出现的。

aphla : H0为真时出现显著结果的概率 (一类错误率、假阳性)。

beta: H1 为真时出现不显著结果的概率(二类错误率、假阴性)。

1-beta: H1为真时出现显著结果的概率(统计功效,statistical power我之前一直翻译为“统计检验力”,看来翻译的术语使用也要谨慎)


有意思的是,在这个课中,对于一类错误和二类错误还有一些模拟。

比如,如果H0和H1各有50%为真,如果把alpha 设定为5%,把统计检验力设定为0.8 (也就是1-beta = 80%),你做一个实验,出现各种结果的比例是多少?


所以最有可能出现的结果是真的阴性结果 (47.5%)。

如果把统计检验力提高到99%呢?

这时真的阳性结果出现的可能性才会略高于真的阴性结果。

同样,如果aphla水平或者H0与H1为真的比例发生了变化,各种结果出现的比例也会相应的变化,比如如果H1有90%的可能为真而H0只有10%:

这时,真阳性的比例大大提高了!

考虑到假阳性与假阴性,在实验中我们要对它们以及现实的因素(财力物力和时间)进行权衡。当然这个权衡的前提是,你要了解你自己是如何在控制这个因素,保证你从长远看来,没有欺骗自己。

第一课的课后练习,主要是通过R来画p值的分布,以及一类错误率和二类错误率会如何随着我们的统计检验力(1-beta)、效应量(H1为真的可能性)和aphla水平的变化。了解这些,可能才明白为什么我们需要进行统计检验力的分析:因为低统计检验力的实验中,假阴性可能比我们预想的要高。

「真诚赞赏,手留余香」
1 人赞赏
微雨初梦
22 条评论