Clean Data
首发于Clean Data

2018年出生人口预测的启示——哪些变量才是最重要的?

2018年出生人口数字已经公布,全年出生人口1523万人,比上一年下降11.6%,「绝不会低于1500万人」的flag没倒,但比我预测区间(1550-1580万人)的中间值水平还是要低50万。

2018 年中国出生人口有多少?www.zhihu.com图标

主要有四个体会:

一,用「抽样调查」来推断总体时,首要考虑代表性。如果抽样结果不具备代表性,可以考虑合成一个。

绝大部分研究,包括知乎上的大部分答案,还有一些做出了研究报告的机构,都使用过去一年个别地区公布的出生人口变化,拿这个数据套到全国头上,然后预测了一个下至1378上至1464万的结果(典型的观点见图1,来自2018 年中国出生人口有多少?)。

为什么这样算会得出错误结果呢?很简单,因为这些城市不是一个有代表性的抽样。

比如上面一个例子里面,作者搜集了公布数据的8市1省,发现这些地区的出生人口下降至少15%,多的有35%。但问题是,这里的8个城市,有6个山东省的,1个广西自治区的。

这些地区是否对全国有代表性?一个很简单的检测办法,就是去看这个城市在过去时间里面和全国的出生人口走势是否一致。一致性很低的话,当然就是没有代表性了。

比如我们就看这里面占最大比例的山东。在山东统计年鉴―2018的表格3-2里我们可以看到,山东省2015年到2017年出生的人口分别是124万人、177万人和175万人。我们把2015年作为100,看一下全国和山东在2015年到2018年的走势对比:

其中2018年是假设山东2018年出生人口下降25%的预测。

在这里选择2015年开头,是因为2015年是单独二孩政策效应快要结束,全面二孩尚未开始的生育低谷,用它来做基准,能排除掉很多全国各地区的异质性。

从上图不难发现,山东是一个2016年和2017年上升幅度远超全国的城市,那么山东出生人口在2018年下降的话,他的降幅当然也不能代表全国了。因此,所有用山东省各个城市15%到35%的同比下降来代表全国出生率下降的研究,全都是错的。

那现在我们知道这样的数据和研究都不能用了,是不是就可以把他们全都扔进垃圾桶不管了?

也不一定,即使是垃圾,好好处理,也能翻出金子来。

想象一个简单的例子,美国大选时,有一些城市因为特别具有全国代表性,因此总能够和全国的选举结果一致,比如印第安纳州的Vigo市:

https://www.npr.org/2016/11/22/502980055/wanna-know-who-won-the-presidential-election-check-vigo-county-s-tallywww.npr.org
For more than a hundred years, Vigo County, Indiana has consistently voted for the winning president. It chose Barack Obama twice, and then picked Donald Trump this November. In fact, the county is a remarkably accurate bellwether; it's only been wrong two times since the 1890s.

那么有没有这样的地区呢?为了充分利用目前公布城市的信息量,我们可以把所有的城市都做一条类似的曲线出来,见下图:

数据来源见文末

从上表可以看到,每条曲线都有自己的走势,差别很大,但其中江苏省的走势相对来说是最接近的。而按照江苏省的同比走势,2018年出生人口大约是2015年的94.42%,套用到全国等于1562万人;按照环比走势,2018年江苏省出生人口是2017年的87.2%,套用到全国是1504万人。就结果来看,的确是最接近的。因此,2019年的出生人口,看江苏省的变化,说不定也能提前知道大概结果。

当然,选择一个地区来代表总体是比较偷懒的办法,标准的方法在经济学中称之为「合成控制法」

合成控制方法 (Synthetic Control Methods) 原理如何,是怎样操作?www.zhihu.com图标

简单说,就是用一堆样本,给他们一堆权重,让他们的加权结果和想要控制的总体具有一样的统计性质。

在上面的例子里面,相当于我们给江苏省一个等于1的权重。而在大部分情况下,我们需要用很多地区和不同的权重来合成一个控制组。


二,「当模型预测误差突然拉大时,考虑一个机械的突变,而非一些渐变的变量,无论后者多么有吸引力,都要坚决地排除掉他们。」

2017年我预测出生人口超1800万,结果只有1723万,这也是这些年来我做人口预测的唯一一次失败。检讨下来,问题出在一孩出生总量被我高估了。

然而正如我一直强调的,人口是一个极难受到外力影响的变量。这样大的预测误差,一定不可能是一个平滑的渐变,一定有一个突变,而且这个突变是我们之前没有考虑到的。比如1991年后的出生人口下降,我们已经考虑到了他,本来就在模型里面,所以不是预测失败的原因。

那这个突变到底是什么呢?就在人口数据里面一个个找,看哪些变量之前漏了考虑。

最终发现,这个突变,是1991年后出生人口的教育结构变化。

教育结构变化同时带来了机械的婚姻推迟和女性的相对收入提高,这两者都会非常显著的影响生育率。将教育结构变化放进去以后,2011到2017年的一孩出生数量走势就被拟合出来了。

从今年的结果看,2018年的一孩出生人口还未公布,所以暂时不知道预测相差的50万是由于一孩偏少导致的还是二孩偏少导致的,但无论怎样,用这个模型继续推测2019年和2020年,我的判断是1460万和1410万人。


三,「当一个模型工作正常,就没有必要加其他变量进去」。

这应该是所有具备科学精神的朋友的共识,但在很多情况下,关键在于你能否抵御诱惑。比如在我之前的答案里,提到这一点:

比起出生率变动的大趋势,什么经济危机、房价上升,都是连浪花都激不起一朵的小插曲罢了。

很多人不赞同这个观点,认为房价什么的对出生率造成了很大的影响。但事实并非如此。

人口学模型,就像一台确定性极高的机器,只要你正确地了解了他的内部构造,然后再看一下从各个给料口输进多少原料,那么对于产出的结果是有极高把握的。

所以,只要你的模型能够比较好的贴合现实,那么的确完全不需要考虑其他变量。或者说,这时候你即使加了其他变量,也没有数据能让你判断他的影像方向和影响大小。

对于这种确定性很高的非常机械的产出模型,非要说太阳黑子每11年不稳定一次你得考虑,或者有人在旁边跳绳造成地面震动可能影响了结果……当然,任何东西都可能有影响,太阳黑子也有,那又怎么样?他对结果不是很重要。


四,房价会影响出生率吗?

终于讲到了本文最想表达的东西。

在中国这个人口预测模型里面,房价也许有影响,但从模型预测结果来看,房价和其他人口学变量相比,影响太小了。

在美国的实证研究里面,比如这篇,

House prices and birth rates: The impact of the real estate market on the decision to have a babywww.sciencedirect.com图标

作者发现,房价每上升一万美元,会导致有房者的生育率上升2.1%,没房者的生育率下降0.4%,把两者一起算,一万美元的房价上升,会导致总体生育率上升0.8%。

你没看错,是生育率上升,而不是下降。作者还画了一个简单的趋势图:

当然,实证的手段远远不止这张图。

中国的房价和出生率之间的关系,也有一些人做过,但目前的结果都不能很好地说明问题,这里就不一一提名了。他们要么是用省层面宏观数据来做,忽略了人口的选择问题,因高房价地区更容易将低教育者挤出留下高教育者,而高教育者本身就生育较少;要么使用了相对的住房负担来当做房价,实际上体现出的已经是相对价格而不是绝对价格,无法呈现各城市之间的差异。

去年年中,我和我的合作者把这些文献研究透彻,去除了之前的错误之后,使用CFPS数据计算各地出生率和各地房价上涨程度和房价绝对值,重新做过一遍这个研究。

我们用各种手段折磨数据,想看看有没有一个显著的结果,能够把房价和出生率之间的故事讲出来。

可惜,没有。(要有的话,我们早就想办法发表了。)

在逻辑上,这到底是为什么呢?为什么房价对出生率的影响不大?

道理也很简单——问自己一个问题:你不肯生孩子,是因为没房子住吗?是因为住房太拥挤了吗?

或者再来一个思想实验:你一觉醒来,地球表面积变成原来2倍,所有的不动产同比例扩大,其他东西不受影响。现在,相当于所与人都用同样的钱买到2倍大的房子了。

请问,现在你就愿意生孩子了吗?

《机器猫》的21卷有一个有意思的故事,野比觉得日本太拥挤了

于是和机器猫一起把日本变大。

结果是造成了气候变化,海水倒灌,不得不退回原状。

但假设没有这些气候变化,沿着机器猫的剧情走下去,大家能继续生活下去,问题能解决吗?

强夫的房子还是野比的十倍大,他的不动产仍然是野比的十倍。

出木衫还是拿出了他攒了10年的首付加上六个钱包买了房子,虽然房子的面积是之前的两倍大。

野比还是买不起房子,因为房地产商并不生产150平方米以下的小户型,他们生产的房子总价永远恰好能掏空出木衫这一个层次的「精英」的六个钱包——因为房屋价格是强夫所拥有资本的markup和出木衫的需求弹性决定的,等式两边都乘以2时,花出去的比例保持不变。而野比?野比的六个钱包在这条线的下方很远。

静子还是不敢生孩子,因为她需要上班才能买得起150平米的市面上最小户型,而她要是不上班,也没法雇得起保姆。你说把房子租出去或者卖掉换钱?别忘了保姆家的房子也是之前的两倍大。

你马上会发现,所有人的房子都变大了,他们还是没有时间生娃,带娃,养育娃。横亘在生育面前的问题,一个都没解决。

我六年前有一个回答,提到了这样一个观点:

一个人购买房屋,不仅是在购买房屋的居住价值,更是在购买这块土地由于建造了房屋而被放弃掉的未来工商业产出。
中国楼市房价是否会崩溃?何时崩溃?www.zhihu.com图标

这句话的意思就是,房屋只是你的收入相对于资本回报的一个一般等价物,他体现出来的是你的劳动、他人的劳动以及资本的回报之间的比值。

因此,最重要的是,单位时间你的劳动能够换取他人多少单位时间的劳动,能替代多少资本的单位时间回报。

如果这两者没有变化,光是去变化房价,结果就是人们拿着数量是之前两倍但币值通货膨胀到之前一半的货币去买东西。

什么都不会改变。





前文所述数据来源

烟台统计公报:

中国烟台政府门户网站 统计公报 2015年烟台市国民经济和社会发展统计公报

中国烟台政府门户网站 统计公报 2016年烟台市国民经济和社会发展统计公报

中国烟台政府门户网站 统计公报 2017年烟台市国民经济和社会发展统计公报

潍坊统计年鉴:

http://www.wf-stats.gov.cn/TJYW/TJSJ/NDSJ/201901/W020190115350558781082.pdfwww.wf-stats.gov.cn

德州统计公报:

德州市2015年国民经济和社会发展统计公报 - 中国统计信息网

德州市2016年国民经济和社会发展统计公报_中国统计信息网

2017年德州市国民经济和社会发展统计公报-世界人口大全-2019年

淄博统计年鉴:

zibo.gov.cn/module/down

江苏省统计公报:

2015年江苏省国民经济和社会发展统计公报_中国经济网――国家经济门户

2016年江苏省国民经济和社会发展统计公报_中国江苏网

2017年江苏省国民经济和社会发展统计公报_中共江苏省委新闻网

金华市统计年鉴:

jhstats.gov.cn/tjnj/nj2

jhstats.gov.cn/tjnj/nj2

jhstats.gov.cn/tjnj/201

南宁市出生人口:

统计公报_南宁市统计局

编辑于 2019-01-21

文章被以下专栏收录