常见的统计分析错误(Common mistakes in statistical analysis)

常见的统计分析错误(Common mistakes in statistical analysis)

统计学,可以说无处不在,我们每个人的日常生活都会受到统计学的影响。但是很多人,即使受过统计学的正规训练,也会在不知不觉之间犯一些常见的分析错误。下面这篇文章,我就和大家分享一些现实生活中比较常见的统计研究错误。

1. 参照组(Control group)

那天我恰好在网上看到一篇文章,叫做《眼保健操对于保护眼睛有作用么?》。作者的观点是眼保健操没有什么作用,列举的证据是眼保健操在中国的学校里推行了50多年,小学生和中学生的近视率大大上升了,而非下降。因此作者得出结论:眼保健操对视力有害。

乍一看,好像确实是这么回事:50多年前我们开始在学校里要求学生们做眼保健操。但是现在孩子们的近视率,则要比当时的那些孩子的近视率高出很多。但是如果就因为这个而得出眼保健操没用的结论,则是谬之大矣。主要原因在于:没有参照组。

和建国初那时候的孩子们相比,现在的孩子由于功课压力,在室内花的时间(读书,做作业,上补习班等)大幅度增长,用眼的“诱惑”也大大增加,比如电视,电脑,手机等等。因此无论是否做眼保健操,现在孩子的视力肯定都不及当时的孩子。这也不是中国独有的现象,日本,韩国,新加坡等国的情况也类似。而这些国家都没有眼保健操。

如果要真正研究眼保健操对于保护视力是否有效,那么就应该通过参照组来对比。研究人员应该找到两组情况类似的样本(比如同一个学校里的孩子)进行研究。这两组样本的区别除了他们是否做眼保健操以外,在其他方面越相似越好。然后通过一定时间的跟踪调查,研究人员才可能得出更加客观和可靠的研究结果。

1747年,苏格兰医生James Lind在一艘名叫Salisbury的船上成功的找到了治疗坏血病的方法:就是通过吃橙子和柠檬补充维他命C。而他找到该疗法的关键就是运用了参照组实验方法

坏血病是一种非常可怕的疾病。坏血病的发病特征包括皮下出血(因此腿会变黑),极度疲劳,牙床腐烂,肌肉变软。长期出海的船员和海盗是坏血病的多发人群。

James Lind使用的参照组实验是这样进行的。在Salisbury这艘船上,Lind医生找到了12个坏血病严重程度差不多的病人,将他们两人一组分成6组。对于这6组病人,Lind医生给予了他们6种不同的治疗方法,包括橙子,柠檬,苹果酒,醋和盐水等。后来Lind医生发现,食用橙子和柠檬的那组病人的恢复速度显然比其他组别要快很多,因此得出结论橙子和柠檬可以治疗坏血病。现在我们知道,橙子中的维他命C才是坏血病的克星。Lind医生通过参照组实验获得的这项重要发现,帮助挽救了成千上万的水手的生命。

如果没有参照组这个重要的分析方法,Lind医生能否找到正确的解药要打一个大问号。当时,Lind医生一度怀疑坏血病的病因和啤酒有关。Lind医生观察到,每次船上的啤酒被喝光时,往往也伴之以坏血病的大面积流行。

但事实上,啤酒喝光,和坏血病盛行,只是一个巧合而已。因为坏血病往往多发于长期航海旅途中,而在海上旅行久了,啤酒自然也会被喝完。如果不通过参照组方法去分析真正的原因,那么就可能得出啤酒能够治疗坏血病这样错误的结论。

在我们阅读分析一些统计研究报告时,一个很重要的地方就是要看该研究有没有参照组进行对比。如果研究只是比较了几个变量之间的关系而缺乏参照组进行对照,那么该研究的结论就值得怀疑。

2. 随机取样(Random Sampling)

下面来讲讲“随机取样(Random Sampling)”这个问题。在现实中,我们经常面对的问题是,需要研究的样本量太大,无法收集到完整的数据。比如我们想要了解全国十几亿人的想法,或者想要知道所有沿海城市的中产阶级的消费偏好,等等。要想精确的回答这些问题,我们就需要随机抽取一些代表性样本,通过样本的表现来推测整体的特征

如何确保收集到的样本真正“随机”,是一个技术含量很高的问题。在这方面有很多失败的例子可供我们学习。

1936年,美国的总统选举大战在罗斯福(FDR)和兰登(Alf Landon)之间展开。在选举投票前,当时一家非常大的调查机构Literary Digest发出了1千万张明信片来收集美国人的投票倾向。在这1千万张明信片中,Literary Digest收到了2百万份回复。在这些回复中,绝大部分人都倾向于选兰登。因此Literary Digest得出结论:兰登将赢得总统选举。

当时还有另外一家新成立不久的调查公司,名叫Gallup。Gallup没有Literary Digest那么大的预算。他们只是有针对性的选了几千个受访者做了民意调查,并得出罗斯福将会赢得总统大选的结论。

后来的结果被写进了历史:罗斯福大胜兰登,并成为美国开国以来任期最长的总统(因为有二战)。Gallup进而成长成为一家非常有名的市场调查公司,而Literary Digest则早已被世人淡忘。

Literary Digest犯的一个最重要的错误,就是他们调查的样本不够“随机”。Literary Digest邮寄明信片的地址名单来自于汽车注册名单和电话注册信息黄页。在1936年的时候,那些家里有汽车或者电话的家庭,都属于富裕阶层,而他们全都倾向于选共和党代表兰登。因此,Literary Digest收集到的只是富人对于总统的选择偏好,自然缺乏代表性。

从1936年到今天,80年过去了,但“随机取样”这个问题仍然困扰着很多行业专家。举个例子来说,2016年的总统选举,在选举前的绝大多数民调都显示希拉里会赢得选举。因此最后特朗普战胜希拉里的结果让很多人都大吃一惊。而这些民调不够准确的原因之一,也恰恰在于其取样不够随机。民调取得的结果主要来自于那些他们可以比较方便找到的人群(比如家里有电话或者网络),以及愿意诚实的回复民调的人群。那些很难找到的,或者不愿意回复民调的选民的意见,就这样被遗漏了。而这些被遗漏的意见,恰恰可能左右选举的结果。

挑选的样本不够”随机“,是很多统计研究人员最容易犯的错误之一。在我们分析一些问卷调查得到的结论时,我们需要问的第一组重要问题就是,样本量多大?如何得到的?是否足够随机?

3. 样本外测试 (Out of sample test)

那天我公司里的一位研究员拿着一份研究报告来找我,对我兴奋的说:伍总您看我这个投资策略如何?

原来他给我看的,是一个股票投资策略的历史回测业绩。这位年轻人对研究能够战胜市场的选股策略非常有激情,总是想测试这样或者那样的投资策略。于是我让他在不影响正常工作的前提下不妨花点时间追求一下自己的兴趣爱好。

这位研究员向我呈现的策略,是一个典型的多因子交易模型(Multi-factor model)。在他的选股模型中,融合了比较多的量化选股指标,比如价值(Value),动量(Momentum),技术分析指标等。由于这不是本文的重点,我就不在这里深入展开了。

然后该研究员向我展示了上面这张图表。红色代表他回测的交易策略历史业绩,蓝色代表该市场的基准指数(Benchmark Index)。因此他得意的说道:伍总你看,我这个策略在过去6年大幅度战胜市场,说明我选的这些因子(Factor)确实能够带来超额收益。

如果我们乍一看这两条线,似乎确实可以得出红色策略远比蓝色基准回报高的结论。但很可惜的,这个结论是错误的。这其中的原因有很多。我就问了这位研究员一个问题,他就没声了。这个问题是:有没有做样本外测试(Out of sample test)?

很多所谓的量化基金公司,花了大量的时间在数据挖掘(Data Mining)上面。AQR的创始人Cliff Asness说过,量化研究就好像在审问犯人。你的犯人就是那些数据,你做的工作就是不断的折磨这些数据,直到它们供认为止(意指它们给你满意的结果)。

通过这种大量反复回测方法设计出来的投资策略,有一个最大的问题就是它们只对过去管用。因为研究员做的事情只是不断的通过甄选,选出在过去历史中看上去能够提供超额回报的交易方法而已。

为了弥补上面提到的弱点,一个更加好的研究方法,是需要把测试的时间段分为两段:样本内(In sample, 上图黄线表示)和样本外(Out sample, 上图绿线表示)。在样本内和样本外的测试中全都经得起考验,是一个投资策略值得被重视的第一步。

样本内和样本外测试是金融统计研究分析里一个最基本的知识点。但是在现实中,很多有多年从业经验的职业分析师还是会犯这方面的错误。

统计分析的运用遍及每个行业,其重要性不需要我多作解释。希望本文可以帮助更多的朋友了解到那些常见的统计分析错误,并在实践中加以注意和避免,提高自己对于低质量分析的免疫能力。

希望对大家有所帮助。


数据来源:

apa.org/research/action

ncbi.nlm.nih.gov/pmc/ar

文章被以下专栏收录

    金融、投资、商业和经济。内含大量数据,搜索关键词可以找到相关资料。百分百全部原创,没有任何广告、软文或转载。