江炎骏,周晓津
(1.东莞行政学院,广东 东莞 523083;2.广州市社会科学院,广州 510410)
非开放条件下,流动人口的数量相对于总人口而言占比极低。在户籍制度和公安户籍统计系统双重保险下,改革开放前一普(1953年)、二普(1964年)的全国人口总量数据是可信的且质量高。三普(1982年)、四普(1990年)时虽然人口的流动性较大,但流动的短期性、本地性对普查数据中人口总量数据质量影响也相对较低。五普(2000年)、六普(2010年)时,我国流动人口的总量之大、区域之广世所罕见,省市级人口总量数据受到广泛质疑。作为新时代我国重大国情国力调查,第七次全国人口普查(以下简称“七普”)目的在于全面查清中国人口数量、结构、分布、城乡住房等方面情况,为完善人口发展战略和政策体系、促进人口长期均衡发展、科学制定国民经济和社会发展规划、推动经济高质量发展、开启全面建设社会主义现代化国家新征程等提供科学准确的统计信息支持。在构建新发展格局的背景下,如何选择一种便捷有效的普查数据质量评测方法,对七普省、市级人口总量数据质量进行系统分析构成了本文的研究主题。
人口普查数据的质量评估和检验是人口调查统计研究的重要议题。目前,国内尚未有文献全面深入考察省级人口总量数据质量问题,市级数据质量也仅是停留在网络质疑层面。全国人口普查数据分项质量的相关研究主要集中在生育率(董隽含、李强,2019;李雨松,2017;赵梦晗,2015;陈卫、杨胜慧,2014;胡耀岭、原新,2013)[1]-[5]、死亡率及预期寿命(张文娟、魏蒙,2016)[6]、受教育人口(朱红霞,2016)[7]。人口普查数据全国层面质量研究文献主要集中在六普之后:一是国家统计局人口和就业统计司普查处(崔红艳、徐岚、李睿,2013)[8]利用人口分析技术和历史数据、行政记录资料比较等方法,对六普普查数据的准确性进行评估;二是王金营和戈艳霞(2013)[9]采用年龄移算队列对比法对2010年六普全国性人口普查数据质量进行评估与校正研究;三是巫锡炜和甘雪芹(2013)[10]应用总和修正惠普尔指数对人口普查年龄数据进行准确性检验;四是陶涛和张现苓(2013)[11]通过比较多次普查数据的生命表回推结果以及不同来源的数据对六普数据中低龄组人口漏报和青年人口重报状况进行分析。
学者们借鉴国内外成熟的质量分析方法和工具,对2010年六普人口普查数据进行了较多的研究,提出了很多有价值的结论和校正数据。本文立足于刚性人口大数据,通过分析省市级层面人口总量背后的大数定律,设计大规模人口流动背景下的省市人口总量数据质量评测方法、手段和工具,分析省级和典型城市七普数据质量,为省市人口发展和经济社会规划提供人口基础数据支持。
与一般抽样检测不同,人口普查数据质量评测不能通过抽样来实现,也不可通过将某个小区域范围内的全部人口数据与更大范围内的数据相比较来进行推测,但可以通过一种大区域范围内与人口总量直接相关的刚性数据对同一区域的人口普查数据进行质量评测。人口刚性关联数据应与人类身心可观测需求直接关联。由于每个人对日常必需品的消费是有最大限度的,从概率统计上讲,样本人口的日平均必需品消费量在同一时期与总体人口日平均必需品消费量随着数据量增加而趋于相等。人们日常生活中消耗掉的水、电、蔬菜、水果、肉类、粮食等具备这种强关联性。因此,可以借用与人口直接强关联的刚性数据来分析比较不同区域内的人口总量。寻找与人口总量同步变动的刚性关联消费品并不困难,问题在于刚性关联数据记录的普遍性和可获取性。
个体之间的刚性需求是有较大差异的,不同群体和不同年龄人群的刚性产品的拥有量在不同时期也会有较大的差异。然而,当某刚性需求产品进入市场饱和期时,省市层面的人均拥有量变成了刚性数据,不再随着时间的推移而发生变化。
随着省市人口数量n的增加,省市层面刚性需求品的饱和均值将逐渐趋于相等,因此可以在统计推断中用总人口的饱和均值来构建人口普查数据(待评测数据集)的质量评测参照系(参照数据集)。弱大数定律可定义为:
相对弱大数定律,强大数定律(辛钦定理)定义为:
更进一步,切比雪夫定理:
设X1,X2,…,Xn为相互独立的随机变量,方差D(Xi)=δ 夹挤定理是用来判定极限是否存在的重要准则。本研究中,若放松饱和均值刚性数据生成的年龄段,则可构建包络人口普查数据的连续或单调序列的数据集。我国劳动力核心年龄段人口为25~50岁,15~18岁通常为中学在校生,18~24岁通常为高校在校生,60~64岁基本上处于退休状态或不纳入统计。考虑到我国外出人口中多为18~59岁人口,且60岁以上人口刚性物品的人均拥有量接近1,因此可将60~64岁人口是否作为饱和均值计算条件来构建包络数据。此外,15~64岁年龄段人口饱和均值刚性数据对各省而言是不同的,即单一饱和均值也可以形成类似的省市数据包络。 要构建评测数据参照系,必须找到一种覆盖全国的刚性需求物品,就目前而言,采用手机做参照系是比较合适的。当然人均饮水量也符合饱和均值刚性数据要求,但省市乃至全国范围内并没有统一的数据记录,而移动电话的使用及普及情况几乎完美符合刚性标准。2010年我国每百人拥有移动电话64.4部,这意味着除去非经济活动人口,15~64岁年龄段经济活动人口中没有手机的人极少。2014年手机普及率上升到每百人拥有94.5部,这意味着15岁以上的年龄段基本普及了手机,且2014年是我国劳动力人口的顶峰。2015年普及率下降主要原因是手机实名制,此后持续上升到2019年的每百人拥有114.4部,原因包括手机向15岁以下的低龄人口扩张、实名制效应消失、服务业一人多机现象普遍等。2020年我国移动电话用户总数15.94亿户,全年净减728万户,主要原因是疫情防控导致服务业人群因业务暂停而减少手机使用率。 图1 2010—2020年我国移动电话普及率发展情况 2020年全国移动电话百人普及率下降还有一种可能,即在普遍期望国家放松计划生育的大环境下,部分过去没能申报户口的人口在七普时补报,导致总人口基数略有增大,从而计算移动电话百人普及率时略有下降,而实际的普及率下降幅度可能更小。即便如此,2018年以来我国每年的人口增长率低于1%,若各省市的人口年龄结构大致相同,则仅利用全国移动电话普及率就可计算各省市区域内的人口总量。但在全国人口大流动背景下,人口净流入地区的人口高估和净流出地区的人口低估情况不可避免,因为低龄人口和高龄人口的流动率与劳动年龄段人口有非常大的差距。 计算适用省级人口评测的手机拥有量饱和均值刚性数据μ值,必须满足两个条件:一是人口流动绝大部分来自15~64岁的经济活动人口(简称“经活人口”),非经济活动人口流动率极低;二是省级户籍人口中65岁及以上人口流动率极低且大概率在本地生活。显然,这两个条件正是全国人口大流动背景下的基本面。泰尔利用信息理论中的熵概念构造了Theil系数,国内则较先应用于区域经济增长差异研究(徐现祥、舒元,2004)[12]。李博等(2016)[13]依据中国1982—2010年四次分县(区)人口普查数据,借助标准差椭圆分析方法、多阶段嵌套Theil系数、重心曲线、空间分布图系等方法,分析改革开放以来中国人口空间分布的基本演变态势。然而,改革开放以来的常住人口数据很难反映出人口的实际流动,且三普(1982年)至六普(2010年)四次全国人口普查更多以户籍人口为准绳,我国1978—2019年省区户籍人口Theil系数的总体差异、组间差异、组内差异基本保持平行线状态,反映了省区户籍人口差异并不随时间而发生改变(图2),表明户籍省区差异具有刚性。 不同年龄段的手机拥有率有很大的差异。一般而言,10岁以下人口的μ0-10≈0。11~14岁人口手机拥有率城市和乡村差异相对明显,但如果孩子不随父母流动,则该年龄段城乡差异小;另一方面,虽然城乡差异及不同类型的城市差异不可避免,但城市少子化导致该年龄段人口占总人口的比重是非常小的(广深约为2%,京沪则小于2%),且仅与户籍人口相关,该年龄段非户籍人口由于就学问题基本上留在其户籍所在地;此外,该年龄段人口的手机在实名制时代通常由其父母代持。15~64岁经活人口手机拥有率地区差异较小,该年龄段内组内差异更大,其中20~40岁拥有率最高,“一人多机”非常普遍,而50岁以上趋于“一人一机”。65岁及以上老龄人口则趋于一人一机,且流动较少。省区常住人口的Theil系数在五普(1990年)和六普(2010年)前后发生了较大的变化(图3),而这种变化在普查年份之前并不明显,是在普查之后对以前年份的数据进行相应调整之后才出现的。 截至目前,《欧盟不正当商业行为指令》是《巴黎公约》之后对不正当竞争行为的类型化最成功的条约性文件,它列举了31种不正当商业行为,也规定了侵害性商业行为和误导性商业行为的适用条件,进一步发展了禁止不正当竞争的一般规则。我国法院采用的非公益必要不干扰原则,也是对反不正当竞争法一般条款解释的一种尝试,尽管该原则的适用范围值得进一步探讨。 图2 1978—2019年我国省区户籍人口Theil系数 图3 1978—2019年我国省区常住人口Theil系数 为减少研究的复杂度,可以将户籍人口中的0~14岁人口和65岁及以上人口定义为省区不可流动人口的刚性数据子集,而15~64岁人口则是可流动人口的数据子集,这一子集与省区手机拥有量饱和均值刚性数据相对应,可构造出测定该年龄段人口的转换刚性数据子集。利用三个刚性子集可以得到省区总人口的刚性参照数据集。 15~64岁年龄段人口是我国人口流动的绝对主力,非经活人口的流动则依赖于其对应的经活人口在流动目的地常住化或户籍化之后。有两种方法计算经活人口的刚性参照数据集。一是将省区内的移动用户数量全部视为经活人口,计算各省区移动用户占全国的比重,再与全国经活总人口相乘,即转换为经活人口刚性参照数据。二是将省区移动用户总量减去65岁及以上人口,计算15~64岁经活人口作为刚性参照数据,经计算后形成表1。 表1 刚性参照人口与统计口径人口数据比较 单位:万人 数据列4和数据列6给出了省级区域人口七普期间的可信变动范围。首先,落在该区间内的省市普查数据都是可信度极高的,即差异值有正有负的省市,如天津、河北、辽宁、江苏、广东、重庆和陕西,且两次差异平均值与七普及参照数据平均值之比都非常小。其次,除前面7个省市以外,两次差异平均值与七普及参照数据平均值之比的绝对值在5%以内的还有浙江(3.58%)、福建(-2.68%)、山东(-3.51%)、海南(-4.59%)、山西(-2.04%)、吉林(1.90%)、黑龙江(2.90%)、河南(-3.75%)、内蒙古(2.75%)、广西(-1.55%)、四川(-1.58%)、贵州(-1.35%)、甘肃(-2.82%)、青海(-4.78%)和宁夏(-1.99%)等15个省份。其次,两次差异平均值与七普及参照数据平均值之比的绝对值在5%~10%主要是安徽、湖南、湖北等3个人口流出大省,另一个人口流出大省江西则略微超出10%。最后,北京、上海和西藏3个省级单位异常,两次差异平均值与七普及参照数据平均值之比的绝对值差异较大,见图4。 图4 1978—2019年我国省区常住人口Theil系数 特别需要说明的是,北京和上海两市的刚性参照值与人口普查值的差异并非表示人口普查数据的极大误差,因为其中更多的差异成份是两大直辖市将相当一部分市外流入人口只计算成流动人口而非常住人口口径,从而表现为江西、湖北、湖南、安徽等4个人口流出大省的常住人口多计,将这一因素除去,则安徽、湖南也将落入5%的区间内。其次,2020年的疫情也对湖北人口外出影响较大,除去该因素与前一因素,湖北和江西两省的实测绝对差异值也会少于5%。有两个主要因素影响西藏的高绝对差异值,一是大量外流藏民依旧计入本地常住人口,二是外来建设人口在秋冬离开西藏后依旧被计入当地常住口径,还有一种可能是西藏的手机用户饱和均值可能较大程度上低于全国平均水平。 总体而言,2020年七普省级区域的人口普查常住人口数据质量是非常高的,标准化之后的省市数据质量在95%以上。经验研究表明(周晓津,2020)[14],北上广深超级城市的常住性人口占外来总人口的78%~82%,取中值80%,得到北京、上海实有外来常住人口分别为1 183.33万和1 395.99万。对北京、上海两大直辖市常住人口调整后,将普查数据的相对差值进行标准化调整后可得到2020年省级单位的普查质量(见表2)。表中跨省外来常住人口负值表示净流出,而正值则表示净流入。 表2 标准化后的人口普查数据质量及省市外来常住人口 七普公报显示,全国跨省流动人口为12 484万(常住口径)。表2中数据列3外来净流入为正的合计为7 896万,列3刚性参照系外来净流入为正的合计为9 969万人,是普查结果的1.26倍,以线性插值法可计算得到全国跨省流出人口为15 761万,其中流入流出相抵的跨省流动为5 792万。研究表明,自2000年以来我国人口流动呈现明显的“三三制”,即本地、本省、跨省约各占三分之一,2008年以来跨省流出有所减弱,目前仍占30%左右,由此可计算我国人户分离人口的可信区间为[47 283万,52 537万]。七普数据显示,全国人户分离人口为49 276万,也落在可信区间内。 利用同样的方法,评测广东省各地级市人口普查数据质量时,为观察饱和均值刚性可靠性,将前面省级饱和均值刚性中的人口年龄段由15~64岁改为15~60岁。 表3 广东省各地级市不同统计口径的人口数据及比较 单位:万 从常住统计口径来看,全省2020年普查常住人口比2019年统计公报高出1 080.68万,增长9.38%。珠三角区域内常住人口增量及增速除江门和肇庆外其他都出现显著增加和明显的增速。然而,从构建的移动用户数量饱和均值刚性数据来看,自2019年11月以来,珠三角区域内人口净流入城市的饱和均值数据刚性明显,基本上是一条相对平行且略有下降的水平线条,特别是2021年2月至4月广州、深圳和东莞三个人口净流入大市有明显的下降。各地级市移动用户总数占全省的比重基本保持不变(图5)。2021年5月,广深发生本土病例,全员核酸检测为人口普查数据质量分析提供了直接的检验特例。例如佛山顺德区全员检测了339万人,而2020年七普顺德常住人口为322.9万,总人口常住率为95.25%,普查结果与全员核酸检测人数非常接近,数据吻合程度高。深圳福田区2020年七普常住人口为155.32万,而6月6日至8日,福田区全员核酸检测人数为176.9万人,总人口常住率为87.80%。由于普查人口为常住口径,而全员核酸检测人数为实时总人口,因此后者必须大于前者,即后者包含常住人口及不计入普查中的外来流动性较强的人口。一般而言,流动性较强的人口数量大致相当于外来人口总数的10%~20%,越是大城市,其人口流动性越强。顺德实时总人口中只剩下4.75%的流动性较强人口,同期深圳福田非常住人口占12.2%。 图5 珠三角地区城市移动用户总数占全省比重及变化(2016.06—2021.03) 利用前述原理及方法,将饱和均值刚性数据的人口年龄段由15~64岁改成15~60岁,测定广东各地级市2019年的实有人口总量为13 426.93万,2020年受疫情影响下降到12 801.77万,详情见表4。数据列5非常住人口数据为正表示应计未计数,数值为负表示已计流出数。将数据列5除以七普常住人口,可得到七普误差初步数(列8),最后一列为对广州、珠海调整后的数据质量。 表4 广东省各地级市人口普查数据质量及外来常住人口情况 单位:万 2020年6月中山市全员核酸检测再次提供了人口普查数据的直接评测案例。黄圃镇、民众镇、东凤镇、三角镇、南头镇核酸筛查人数分别为22万、11万、19.6万、15.95万和18.31万,2020年七普这五个镇常住人口分别为18.78万、11.23万、20.10万、12.63万和15.82万。五镇七普常住人口占核酸筛查人数的91.53%,而图5表明中山自普查以来人口总数变动不大,同比例推算七普时中山市实际人口为482.69万。火炬开发区(中山港街道)和翠亨新区(南朗镇)核酸筛查45.23万,两区七普常住人口分别为28.95万和10.16万,常住人口占核酸人数的86.47%,两区人口密度与石岐、东区差异甚微,同比例推算七普时中山市实际人口为510.93万。前五镇加上两区第三次同比例推算中山市七普实际人口为493.53万。因此,七普中山市总人口区间为[482.69万,510.93万],中值为496.81万。考虑到中山市区镇实力较强,七普中山市总人口(含流动人口)最可能值位于区间[493.53万,496.81万],而七普中山官方常住人口441.81万,表明其七普数据质量很高,另一方面也印证本文评测方法的精准性。另据中山市政府疫情防控指挥部公布的数据,中山此次全员核酸检测共完成采样人数579.65万,此数据应包括那些两次或多次重复采样总人次。据东莞市卫生健康局一级调研员张亚林通报,在此轮核酸大筛查中,东莞市采样人数共计1 117.95万。作为广东人口第三大城市,东莞七普常住人口为1 046.66万,常住人口为核酸人数的93.63%。由此可知,与2019年统计公报相比,2020年广东省七普数据基本上摸清了广东的人口家底。2020年省外净流入2 993.11万,其中常住口径的净流入量为2 792.61万,尚有200余万流动口径的净流入。珠三角九市除肇庆为净流出外,其他8个城市均为净流入4 256.99万;净流出地级市城市共13个,净流出量为1 263.88万。由于非常住人口数量较少,未来各城市人口相对于七普都难有较大变动。 2003年珠三角制造业出现劳动力短缺,至2008年前后我国农村可供流出劳动力基本上枯竭了。与此同时,无人村也大规模出现。据统计,仅在2000年到2010年,就有近90万个村落消失,平均每天消失80到100个。2013年,我国15~64岁劳动力人口总量达到100 582万的高位,自此持续下降,至2020年七普时为96 776万,7年累计减少3 806万,平均每年减少543.7万劳动力。在劳动力总供给逐年减少的大趋势下,人口流入大省能保持平稳已是不易,外来人口逐年减少则是常态。外来人口中,60后、70后已进入快速退出劳动力时期;00后作为新生供应主力,比60后、70后的年平均人数少810万。根据出生人口数推算,2002年我国外出流动劳动力人数约2.45亿,而到2012年下降到2.21亿,2020年之后外出劳动力人数将因以往出生人口的减少而持续下降,预计到2028年将下降至2.02亿,比2020年减少2 200万,2040年将进一步下降到1.68亿,比2020年减少5 600万,平均每年减少280万。 国家近年来统筹基础教育和农村医疗保险的努力已经取得巨大的进展和成功,中西部基础教育学位充足,质量也有较大提升,外省流入人口对粤浙苏京沪等五大流入地基础教育的压力相对以前的人口流入高峰期反而有所下降。例如,根据深圳市福田区招生系统显示:与往年为一位难求不同,2021年福田多个学校在报名时出现空余学位。其次,外来人口大多为青壮年劳动力人口,发病率低于全国平均水平,遇有重大疾病更愿意回流出地治疗。再次,外来人口的住房供给更多地依赖小产权房,真正的住房压力更多地来自外地户籍迁入人口,特别是深圳、广州、东莞和佛山等人口大市的新入户大学生人群。最后,养老问题是一个全国性和系统性的问题,人口净流出地养老金缺口更加依赖全国统筹。 2003年以来,我国年平均出生人口数只有1 627万,从人口性别比来看,每年出生人口中的女性人口不到800万,未来我国每年人口出生数很难超过1 400万甚至在1 300万以下。2020年七普我国新出生人口为1 200万,比2019年下降了18%,比放开二胎的2016年下降了33%,创下新中国有记录以来新出生人口和出生率最低的一年。我国快速步入了人口增长的拐点区,出生人口越来越少,且下降幅度也在加快。如果趋势不改变,2030年之前我国新出生人口就将下降到1 000万以内,2040年后我国每年出生人口甚至会不到700万。另一方面,我国目前每年死亡人口已近千万,表明2030年之前我国人口将进入负增长,而且之后死亡人口数量会越来越多,出生人口数量越来越少。自1982年计划生育正式成为国策近40年后,2021年5月我国宣布实施三胎政策,促进生育时代正式来临。就已有的生育意愿调查数据来看,三胎效应仅可促生350万人左右,应将促进生育重点应放在城镇适龄男女。 2000年以前,国内高校招生数占对应年份的人口出生数比例不到10%,而大学生是第三产业的主要供给来源,这也是我国外出人口中农民工在2003年以前长期占据90%左右比例的主因。随着60后、70后逐渐退出劳动力市场,80后、90后逐渐成为外出人口主力。而2000年国内高校招生人数占对应年份的出生人口数比重首次突破10%,2010年达到31%左右,2017年突破40%,2018年估计值为43.83%。这就意味着2020年之后外出劳动人口中从事第三产业的比重将逐年上升到60%以上。1998年全国出生人口为1 934万,除去本地城镇化50%左右的人口,外出供给量不到1 000万,其中对应2020年可供给制造业的劳动力人口不到600万。而在2000年,对应出生人口比2020年提前2年左右,即1980年1 776万出生人口,其对应高校毕业生招生年度录取率不到10%,除去2000年不到40%的城镇化率,对应的可供给制造业的劳动力人口近1 000万,即2000年涌向制造业的外来劳动力人口比2020年多400万左右。高校招生人数的增加、城市化率的提高和早前出生人数的减少,是广东乃至全国制造业劳动力短缺的根本原因,也是未来我国流动人口总量会持续减少的主因。 中国迈向高质量发展将面临更深层次的人口矛盾,2020年之后制造业劳动力将更加紧张,而在疫情依旧全球流行的大背景下,第三产业也许无法吸收大量的高校毕业生。面对新的发展形势和环境,中央提出加快构建以国内大循环为主体、国内国际双循环相互促进的新发展格局,是我国应对国内外环境变化作出的重大战略抉择。从当前人口分布来看,胡焕庸线以东、山海关以南区域内大城市养老压力相对较轻,但大量农村陆续进入退休年龄人口的养老金缺口极大,在全国统筹养老的框架内,传递给沿海发达地区的养老压力相对于教育、住房和医疗更大。为应对这种系统性转换与调整,本文建议:一是加快推进农村山地丘陵七通一平(道路通、给水通、电通、排水通、热力通、电信通、燃气通及土地平整)建设。二是在解决农业用水用电基本制约后,将单个农户分散土地重新调整到一起,推进农业小型机械在农户层面的全应用。三是聚焦农村就业和有机化精耕,探索恢复交公粮制度,公粮缴纳与农民进入退休年龄后的养老金数额挂钩。四是土地承包期限与退休年龄挂钩,农户在进入退休年龄后只代际流转宅基地和少量菜地。五是启用农村供销、代销连续,实行快递到村。六是对无人村统一收储,将七通一平后的农村生产资料以打包形式交由成家的大学毕业生或退伍军人经营。生产资料包大小为“三三制”,即“十亩水田、十亩旱地、十亩山林”。(四)夹挤定理(Squeeze Theorem)
三、省级人口总量普查数据质量分析
(一)饱和均值刚性数据选择及人口关联分析
(二)手机拥有量饱和均值刚性数据μ
(三)省市人口刚性参照数据与普查及年度公报人口总量比较
四、地级市人口总量普查数据质量分析——以广东为例
五、结语及对策建议
(一)稳中有降是人口净流入省份未来劳动力供给的大趋势
(二)人口净流入地面临的教育、医疗、住房和养老压力低于流出地
(三)保持每年1 000万新出生人口规模应成为目标
(四)高校招生人数的增长决定二产劳动力持续短缺和三产劳动力供给相对过剩
(五)应对人口及劳动力问题需要政策组合包