2016年关于心理学可重复性的主要关注点

hcp4715hcp4715
修改自我对这一问题的回答:2016 年,心理学学科内部都出现过哪些有价值的争论?

心理学的可重复性问题自2011年起,就持续成为热点,争论到2016年,也许算是颇为持久,当然,2016年基本上可以算是对这个问题争议的尾声了,许多关键的问题已经为大家所接受,那么2016年有意思的可能主要问题有:第一、统计知识在讨论可重复性问题中的重要性;第二、讨论可重复性问题的时候语气应该是什么样的;第三、研究者如何面对自己过去的研究无法重复。

关于可重复性问题的争论,主要是各种博客和Facebook的两个群:Psychological Methods Discussion Group(目前有5389个成员)和psychMAP(目前有4465个成员),有兴趣的同行应该申请加入,可以围观大神们讨论。

第一个问题:统计知识在讨论可重复性问题中的重要性。
关于影响可重复性的因素,其实2011年的经典文章:false positive psychology (False-Positive Psychology)中就已经有了很好的说明:心理学中有许多研究问题,由于各位p-hacking手段的存在,实际上只是噪音而已。

而2015年心理学界最受到关注的文章:Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), 943. doi:10.1126/science.aac4716(以下称为OSC(2015)),又得到了关于心理学研究可重复性一个比较量化的估计:大约为39%的研究是可以重复的。

但是这个结论并非所有的研究者都认同,于是有了 Dan Gilbert在Science上对OSC 2015的论文的评论(Comment on “Estimating the reproducibility of psychological science”)以及其后续的争议。这个争议主要的问题集中于:Gilbert等人的批评是否有道理?很多人不这么认为,更要命的是,Gilbert等人的评论中,暴露了他们对一些统计概念的理解偏差。后面也有不少研究者来反驳这一点。最为正式的,还是在Science上的反驳:science.sciencemag.org/ 。还有一些其他研究者在自己博客上的反驳:Evaluating a new critique of the Reproducibility Projectdaniellakens.blogspot.co.id (需要科学上网)、deevybee.blogspot.co.uk(需要科学上网)

(无耻的自我推销来了!!!)
考虑到Dan Gilbert在社会心理学中举足轻重的地位,他的评论应该会影响很多人对OSC2015结论的看法,我们在《心理学研究中的可重复性问题:从危机到契机》一文中也用了一小节来讨论他们的这个评论以及相关的问题,具体内容在1505页最后一段到1506页的前两段。

关于第一个问题,还有另一个比较受到关注的争论:van Bavel在PNAS上的文章:

这个文章的一个核心论点是说:心理学中的不可重复性,是因为研究的问题的背景敏感性带来的,其实有一些隐藏的中介变量(hidden modulators)没有被发现。这个文章一出来,在fb上引发了非常强烈的反应,甚至有一些人身攻击。后来的反驳也非常多,包括 Inbar等在PNAS上写的一个评论,认为这实际上只是一个统计谬误Association between contextual dependence and replicability in psychology may be spurious)、van Bavel的反驳(Reply to Inbar: Contextual sensitivity helps explain the reproducibility gap between social and cognitive psychology),以及博客:如A critical comment on “Contextual sensitivity in scientific reproducibility”。在facebook的评论里,我觉得 Tal Yarkoni的评论非常具有实际的意义:
So I guess that while I support your conclusions here regarding context sensitivity, I would argue that the strongest and most actionable implication of what you're saying is not that people should ease up on replication efforts and criticisms of non-replicability, but that people who know their work is fragile should be very careful to announce that in the title and abstract, and not just in a sentence somewhere in the discussion.
这个问题我也觉得很严重:研究者明知自己所研究的效应很微弱却宣称自己的结果具有广泛的意义,这种夸大的问题,可能是非常严重的。(关于FB上的讨论,可以见这个帖子:facebook.com 的页面

关于什么因素导致心理学的研究不可重复,这个问题可能可以永远地争论下去。不过2016年,不管研究者对可重复性持什么观点,一些新的研究实践标准正在慢慢建立起来。OSC2015,以及van Bavel关于contextual sensitivity的讨论,都把他们的数据公开,许多讨论中也都附上了他们的分析代码,这一点,也许是我们最值得跟进的

第二个问题是关于研究者应该以何种语气讨论可重复性问题,也就是一个tone的问题。这个问题也不是2016年独有的,Cambridge心理学系的研究者Schnall 2014年就在博客上讨论过这个问题:Further Thoughts on Replications, Ceiling Effects and Bullying (Blog - Department of Psychology)。原因也很简单,当一些研究者的结果无法重复时,会有一些人对他们进行人身的攻击、嘲讽、恶意推断等。当年Dan Gilbert就在tweeter上说过有些人是little replication bully。到2016年,这个问题成为讨论的重点之一,因为Susan Fiske写了一篇文章,她认为存在一些methodological terrorism。目前,她写的原始版本仍然在dropbox上保存着:dropbox.com/s/9zubbn9fy
正式版本中,Fiske缓和了她的语气:A Call to Change Science’s Culture of Shaming
Fiske在她原来的评论中,认为现在社交媒体发达之后,一些原本应该在学术杂志上进行讨论的事情,在社交媒体以及博客上就迅速地展开了,而且是没有任何审查的。也正是因为如此,所以有许多人身的攻击和不当的措辞,这种methodoloigcal terrorism的存在,让很多有学术前途的人离开了学术界。

但是Fiske本人的观点是代表了主流的意见?到底在是否存在tone的问题?不同的研究者有不同的看法,一些比较好的博客:
Flying Flak and Avoiding “ad hominem” Response | Absolutely Maybe
There is no “tone” problem in psychology
What has happened down here is the winds have changed - Statistical Modeling, Causal Inference, and Social Science (这篇博客还简单地回顾心理学研究中的可重复问题的历史)

第三、研究者如何面对自己过去的研究无法重复。
这个问题上有两种态度:一种是发现自己原来的做法确实有问题,并且在后来的研究中更加重视统计以及研究的严谨性问题。这方面的极端代表是自己后面成为研究方法上的专家,比如有代表性的是Daniel Lakens,他现在积极地推进各种统计上更严谨的方法,但他之所以这么做,是因为他作为作者之一的第一篇论文(重量的具体认知:Weight as an Embodiment of Importance,这个研究我在2010年左右重复过,没有重复出来,说多了都是泪)被人质疑too good to be true,具体可以见他的博客:daniellakens.blogspot.hk (需要科学上网)。跟他相似的是 Joe Simmons,他们最初的非常“有趣”的研究结果(Daniel the Dentist: Moniker Maladies)后来被发现是假阳性,后来转而关注研究方法,成为了2011年False Positive Psychology的作者之一:[53] What I Want Our Field To Prioritize - Data Colada

另一种态度则是坚持自己原来的理论是正确的(注意,是理论,理论与数据之间的差异,见这我的这个笔记:Improving your statistical inferences第一周),并且准备采用一些方法来为自己的研究正名。这方面有代表性的是关于Power Posing效应的两个作者之间的申明:Power Posing - Sep 20, 2010的作者分别是:Dana R. Carney, Amy J.C. Cuddy, Andy J. Yap。2016年,一作Dana Carney (现在是伯克利加州大学商学院的副教授)公开表明了自己对Power Posing的态度(faculty.haas.berkeley.edu),核心观点是:

....
I do notbelieve that “power pose” effects are real
.....
要知道,这个power posing的研究,是TED上最火爆视频(Your body language shapes who you are)的科学来源。
二作Amy Cuddy对这个表态的反应是:power posing的效应是有的,但是我们需要先把power posing的定义弄清楚....., 具体见这里:
nymag.com/scienceofus/2
至于Amy Cuddy的对power posing的定义是否是一种post-hoc justification,每个研究者都有自己的看法。而关于power posing的重复实验,目前也是非常多的。有兴趣应该能够搜索到。

另外一个社会心理学影响非常大的研究:ego-depletion,在2016年也有了一个多实验室大规模注册重复的结果:A Multilab Preregistered Replication of the Ego-Depletion Effect。 Baumeister对此的反应在这里:Misguided Effort With Elusive Implications。当然,还有反驳:Commentary: Misguided Effort with Elusive Implications, and Sifting Signal from Noise with Replication Science

当然,2016年,还有许多其他的争论,但可重复性问题的争议慢慢进入尾声时,有人开始反思,为什么心理学的可重复性问题会如此引人注目?原因是多方面的(Why is the scientific replication crisis centered on psychology? - Statistical Modeling, Causal Inference, and Social Science),有两个比较有意思:一是心理学的研究比较开放,很多都可以公开讨论;二是没有涉及太多的利益,所以没有因为利益关系而被压制起来。从这个角度来说,心理学的研究者还是可以自豪一些的:起码,我们的领域没有太受到利益的捆绑而一直保持低可重复性而无所变化。总体来说,心理学的研究,还是在慢慢进步的。
文章被以下专栏收录
4 条评论
推荐阅读