户籍登记系统的净误差估计

2023-08-08 13:17胡桂华吴笛刘誉环
人口与经济 2023年4期
关键词:抽样调查

胡桂华 吴笛 刘誉环

摘 要: 户籍登记系统存在登记误差,为发挥其作用,应估计其净误差。我国尚未估计户籍登记系统的净误差,这一状况应该改变。双系统估计量是目前估计净误差的重要方法。

本研究的目的是,用组合式三系统估计量替代双系统估计量来估计我国户籍登记系统的净误差,即目标总体的未知实际人口数与已知的户籍登记系统人口数之差,为相关部门或有关人员科学使用户籍资料提供依据。采用抽样理论和数理模型方法构造组合式三系统估计量,利用样本普查小区的三份人口名单演示其计算过程。研究发现:虽然户籍登记系统是获得人口统计数据的重要来源,但由于它内含错误登记或漏登人口的登记误差,因此它所提供的人口数偏离实际人口数,需要采取恰当的方法估计这种偏离程度;抽样登记的组合式三系统估计量适合于净误差估计;为使估计的户籍登记系统净误差符合统计口径的一致性要求,样本普查小区的普查人口名单、事后计数调查人口名单和户籍人口名单中的每一个人必须具有本地户籍,否则从名单中剔除;组合式三系统估计量须在同质人口层建立,否则内含异质性偏差,低估总体实际人口数;在分层二重抽样下,组合式三系统估计量各个元素的估计量采用双重扩张估计量构造,抽样方差采用分层刀切法近似计算;净误差估计既可以在普查年进行,也可以在非普查年进行。本研究的意义在于,组合式三系统估计量有望被国家统计局采纳,用于未来户籍登记系统的净误差率估计。此外,还可以用来估计人口普查、农业普查及经济普查的净误差率。

关键词:抽样调查;政府统计;人口行政记录;组合式三系统估计量;分层刀切法

中图分类号: C921.2

文献标识码:A

文章编号:1000-4149(2023)04-0056-19

DOI:10.3969/j.issn.1000-4149.2023.00.028

一、引言

国民经济发展中迫切需要解决的一个关键问题是人口数目的准确性问题。对作为世界第一人口大国的中国尤其如此【 联合国发布的《世界人口展望2022》报告显示,中国2022年7月1日总人口数为14.25887亿人。】。人口统计调查和人口行政记录是我国国家统计局获得人口统计数据的两大来源。人口统计调查包括每隔10年进行一次的人口普查及非普查年进行的人口抽样调查。户籍登记系统、常住人口登记系统、出生人口登记系统、死亡人口登记系统和人口迁移登记系统,是我国常见的人口行政记录。从对总体人口登记的范围和准确性等来看,户籍登记系统是最重要的。中国公安部每年向国家统计局提供户籍登记系统人口数。

相关信息表明,我国的户籍登记系统人口数存在误差,因而有必要研究或估计它,其必要性具体体现在两个方面:

一方面,作为我国人口行政记录中最重要的户籍登记系统,在登记目标总体人口的过程中,通常会发生两种误差,一种是应该登记却未登记而引起的漏登误差[1],另外一种是无效登记引起的错误登记误差[2-3],包括重复登记、目标总体外登记和地址错误登记。漏登误差使户籍登记系统不适当减少人口数,而错误登记误差导致户籍登记系统虚增人口数。漏登误差和错误登记误差相抵后的结果,即为净误差【 净误差可定义为漏登误差与错误登记误差之差,或者定义为目标总体实际人口数与户籍登记系统人口数之差。各国政府统计部门在人口普查净误差中使用第二种定义。本文也采用第二种定义计算户籍登记系统的净误差。】。另一方面,为确定能否使用及在多大程度上使用户籍登记系统人口数提供依据,因为使用较大净误差的户籍登记系统人口数可能会影响决策的科学性。

本文拟用组合式三系统估计量来估计中国户籍登记系统的净误差[4],即目标总体未知的实际人口数【 目标总体实际人口数为全国各个普查小区的应该有本地户口的无重复的人口数之和,其中包括应该且实际拥有本地户口的人口数和应该有但实际上没有本地户口的人口数。】与已知的户籍登记系统人口数【 户籍登记系统人口数为全国所有公安部门派出所户籍底册所显示的某一指定时点的人口数之和,或者是全国各个普查小区的拥有本地户口的人口数之和。】之差。实际人口数可以采用双系统估计量、普通三系统估计量和组合式三系统估计量【 双系统估计量依据普查人口名单和在它之后进行的事后计数调查人口名单建立,普通三系统估计量依据这两份调查人口名单和户籍人口名单构造,组合式三系统估计量的缺失单元估计量依据多个普通三系统估计量的缺失单元估计量建立。】估计[5-10]。组合式三系统估计量相对较优,首先它比普通三系统估计量利用的信息更多,其次它不像双系统估计量那样要求系统之间独立。

与已有相关论文和其他研究成果相比,本文具有一定的学术价值和应用价值。

学术价值体现在四个方面。

第一,提出抽样登记的组合式三系统估计量,使其应用于户籍登记系统净误差估计成为可能。

第二,利用不完整三维列联表单元数据构造的组合式三系统估计量的缺失单元估计量的分子和分母,分别是若干个普通三系统估计量的缺失单元估计量的分子和分母之和,其中每个子总体指标使用线性估计量构造。

第三,研究不同抽样方法下的刀切抽样方差估计量及复制权数计算公式,为相关人员提供更多选择。

第四,利用样本普查小区的三份人口名单和公式,计算户籍登记系统的净误差及抽样方差估计值,使相关人员可以正确使用组合式三系统估计量。

应用价值体现在三个方面。第一,为政府统计部门制定户籍登记系统净误差估计方案提供参考,提高方案的科学性和可操作性,对户籍登记系统的质量作出客观科学评价。第二,为相关

工作者正确认识和使用户籍登记系统数据提供依据。第三,开发利用包括户籍登记系统在内的行政记录资料,从而为实施以户籍登记系统为核心的行政记录式人口普查创造更好的条件。

二、文献综述

包括美国、北欧在内的许多西方发达国家,以及部分非洲国家已经建立起类似于中国、朝鲜和贝宁的户籍登记系统的民事登记系统和人口动态统计系统[11]。民事登记系统是确立一国个人权利和特权的法律基础,是对活产、胎儿死亡、死亡、结婚、离婚、收养等重要民事事件进行强制性、连续性记录的系统。人口动态统计系统依据民事登记系统的人口动态记录,人口普查、抽样调查和行政記录的人口记录,样本登记区的人口动态记录和保健服务部门的记录建立。只要坚持详细登记,民事登记系统就可以成为人口动态统计系统的主要来源。户籍登记系统是登记自然人的姓名、出生日期、户主或与户主关系、住址、性别、籍贯、居民身份证号码、文化程度、婚姻状况、民族、死亡和收养等的系统。我国《户口登记条例》规定,出生者和死亡者应该携带有关证件在规定时间内到常住地办理入户、注销户口,每个人都有资格上户口,而且只能有一个户口。这三个系统的共同点都是对总体人口的登记,存在登记误差和需要估计净误差。不同点是:建立户籍登记系统的目的是限制人口的无序流动,减少人口管理的社会成本,提供人口数不是其主要功能,而是其副产品;构建民事登记系统有双重目的,即行政和法律目的及统计、人口和流行病学目的;建立人口动态统计系统的主要目的是为政府统计部门和其他相关部门提供准确的人口数。由于这三个系统的登记人口数已知,所以净误差估计只与总体实际人口数的估计有关,与这三个系统的功能和登记对象无关,组合式三系统估计量适合于它们的净误差估计。

相关文献资料显示,关于民事登记系统、人口动态统计系统和户籍登记系统的研究主要集中在系统的建立、资料来源及用于政策或计划的制定方面[12-15]。有关估计这三个系统净误差的研究成果并不多见[16]。因此,本文研究中国户籍登记系统的净误差估计。

为提高中国户籍登记系统净误差估计精度,了解其发生登记误差的三个原因是很有必要的。

第一,虽然户籍管理条例明确规定为出生者或户口迁移者及时入户,为死亡者及时销户,但实际上从出生到入户,从迁出地到迁入地入户,从死亡到销户有一个时间差。如果这个时间差发生在估计户籍登记系统净误差时,就会发生漏登误差和错误登记误差。

第二,我国曾经实施过严格的计划生育政策【 1971年到2015年,为控制人口增长,我国实行计划生育政策。在这一政策背景下,超生婴儿是无法入户的。如果不能入户,就失去读书和享受福利等权利。】,禁止为超生婴儿入户,或只有缴纳足额罚款才让超生婴儿入户,导致较为严重的漏登误差。随着二孩或三孩政策的实施【 为鼓励生育,解决劳动力不足问题,我国于2015年起开始实施二孩或三孩政策,所有活产婴儿都有资格入户,户籍登记系统漏登人口的幅度减少。】,虽然所有出生时的活产婴儿目前都有资格入户,但仍然没有做到一旦出生便及时入户。

第三,

在實行农村养老保险政策之前,有些农村老年人一辈子都没有上户口,导致漏登误差。随着新型农村社会养老保险试点指导意见的实施(有户籍的年满60周岁的农村老人可以按月领取养老金),漏登户口的情况显著减少,尽管这样,及时入户并未做到。第六次人口普查前的户籍整顿结果显示,全国有1300万净无户籍人口,占总人口的1%【 数据来源于国家统计局《马建堂解读中国第六次全国人口普查》,stats.gov.cn/zt_18555/zdtjgz/zgrkpc/d6crkpc/dcrkpcyw/202303/t20230306_1935378.htm

】。净无户籍人口数就是净误差,为无户籍人口数与重复登记户籍人口数和死亡未注销户籍人口数之差。从以上三方面的原因分析可知,我国户籍登记系统确实存在登记误差,应该采取恰当方法估计其净误差。

联合国经济及社会事务部和统计司在关于《人口动态统计系统的原则和建议(修订版2)》报告

中,使用双系统估计量来估计民事登记系统或人口动态登记系统的净误差。该报告未提及户籍登记系统有两个原因,一是世界上只有三个国家实施户籍登记制度,二是这两个系统的净误差率估计方法同样适合于户籍登记系统。这里的双系统估计量中的两个系统包括民事登记系统和人口统计调查系统。使用双系统估计量的前提条件是,民事登记系统对总体人口的覆盖率不得低于既定标准(如80%)。美国全国卫生统计中心建立的民事登记系统的覆盖率在1960年以后接近100%。美国人口普查局构造人口统计分析模型所需要的出生人口数和死亡人口数可以直接从该系统获得。美国对民事登记系统的净误差率每年或每隔2—3年估计一次。然而,一些非洲国家的民事登记系统的覆盖率往往达不到标准,不具备使用双系统估计量的条件。我国户籍登记系统的覆盖率超过标准,可以使用双系统估计量来估计其净误差率。使用双系统估计量还要满足另外一个条件,即两个系统必须独立,否则会低估或高估总体实际人口数[17]。相比依据人口普查资料和人口抽样调查资料构造的双系统估计量,根据民事登记系统和人口统计调查资料建立的双系统估计量,能比较好地满足独立性条件。这是因为,人口普查资料和人口抽样调查资料均来源于政府统计部门,独立性自然难以保证,而民事登记系统数据和人口统计调查资料分别来源于行政管理部门和统计部门,独立性应该能够满足。也就是说,在民事登记系统净误差估计中,构造和使用依据民事登记系统和人口统计调查资料的双系统估计量是合适和可行的。尽管如此,我们还是认为用三系统估计量取代双系统估计量更为合适。一方面,双系统估计量只利用了两种资料,而三系统估计量利用了三种资料。抽样理论指出,在构造估计量的时候,利用的有效信息越多,估计量的精度也会越高。另一方面,三系统估计量不要求三个系统相互独立,既可以在它们独立,也可以在它们非独立的情况下构造。按照缺失单元估计量构造方法的不同,三系统估计量包括普通和组合式两种。对我国来说,在人口普查年,三系统估计量的三个系统分别是人口普查、人口普查之后组织的事后计数调查和户籍登记系统;在非人口普查年,三个系统分别是人口抽样调查、人口抽样调查的事后计数调查和户籍登记系统。基于三系统估计量的户籍登记系统净误差估计工作,既可以在人口普查年进行,也可以在非人口普查年实施。

我国国家统计局尚未开展户籍登记系统净误差估计工作,这一状况应该改变。使户籍登记系统在人口统计中发挥应有作用,应加强户籍登记系统净误差估计基础理论研究,尤其是组合式三系统估计量的研究工作,逐步建立起符合我国国情的以组合式三系统估计量为核心的户籍登记系统净误差(率)估计体系。

三、理论

使用组合式三系统估计量估计人口普查年中国户籍登记系统的净误差,需要建立相应的理论,包括普通和组合式三系统估计量、户籍登记系统净误差及其抽样方差估计,以及对三份人口名单的必要说明。

1. 普通三系统估计量

为了更好地理解和运用组合式三系统估计量,有必要对其进行简要介绍。这个估计量的理论基础是三次捕获模型。“出现在本次捕获结果之中”和“未出现在本次捕获结果之中”是每一次捕获结果的两种取值。用来构造普通三系统估计量的普查人口名单、事后计数调查人口名单和户籍人口名单分别对应于三次捕获模型的第一次、第二次和第三次捕获。

三次捕获模型要求总体中的个体同质,而人类总体中的人不具有同质性,这样在构造基于三次捕获模型的普通三系统估计量之前,需要对总体中的人进行同质性分层。我们将总体划分为V个同质人口层,并且将同质人口层v(v=1,2,…,V)中的人在三份人口名单的登记结果指定到不完整三维列联表的相应单元,其中七个单元的人口数是已知的,其和用xv表示,一个缺失单元的人口数未知,其估计量使用 m︿000,v表示。普通三系统估计量(General Triple System Estimator,GTSE)由这两部分组成。七个单元中的每个单元的实际人口数使用xijk,v表示,右下标i,j,k分别为同质人口层v的人是否

在普查人口名单、

事后计数调查人口名单和户籍人口名单的登记结果的

变量。i=1表示该人登记在普查人口名单,i=0表示该人未登记在普查人口名单;j=1表示该人登记在事后计数调查人口名单,j=0表示该人未登记在事后计数调查人口名单;k=1表示该人登记在户籍人口名单,k=0表示该人未登记在户籍人口名单。将这些符号及其人口数填写在表1中。注意,表1假设事后计数调查为全面调查。

4. 对三份人口名单的必要说明或规定

为了正确地、合乎逻辑地使用式(12)到式(35),有必要对用来构造组合式三系统估计量的普查人口名单、事后计数调查人口名单和户籍人口名单做必要说明或规定。前两份调查人口名单依据普查表和事后计数调查表编制而成,户籍人口名单依据派出所提供的户籍登记底册编制。组合式三系统估计量的使用须符合我国人口口径、统计调查及估计理论的要求。

我国户籍登记系统净误差为目标总体实际人口数与户籍登记系统人口数之差。按照国家统计局人口口径的划分,目标总体实际人口数有三种口径,即常住人口数、现有人口数和户籍人口数。依据统计指标计算要求,目标总体实际人口数与户籍登记系统人口数在口径上需一致。对于实际人口数估计,就是要估計目标总体有户口且只有一个户口的户籍人口数。按照统计调查要求,对发生的人口动态事件要及时登记或处理,所估计的户籍人口数就应该包括在普查标准时点前出生但未入户的婴儿,但不包括该时点前死亡但未注销户口者,也不包括重复户口者。按照户籍登记条例及现实做法,公安部门公布的户籍登记系统人口数包括了死亡未注销户口者和重复户口者人数,但未包括应该及时入户的婴儿人数。可见,估计的目标总体户籍人口数不同于户籍登记系统人口数。

为了获得与户籍登记系统人口数在口径上一致的目标总体户籍人口数的估计值,在确定三份人口名单的户籍人口时,要坚持三项原则。

一是研究范围原则。如果研究范围是重庆市,只要这个人在该市的任何地方上了户口,就可作为本样本普查小区的户籍人口,而不要求这个人的户口登记在本样本普查小区的所在地。如果研究范围是全国,只要这个人在全国的任何地方有户口,即可视为本样本小区的户籍人口。例如,某人是重庆市的常住人口,但其户口登记在武汉市,也可以算作是本样本普查小区的户籍人口。这是可以理解的,因为使用组合式三系统估计量估计的是研究范围内拥有户籍的人口数,而不是估计所有样本普查小区本身有户口的人口数。

二是登记范围原则。普查标准时点居住在本样本普查小区的人,不管其户籍登记在何处,以及户口登记在本样本普查小区但在该时点未居住在本样本普查小区的人,无论其外出时间多长、外出原因如何,都要进行登记。对于出差、旅游、走亲访友等原因临时外出的人口,也要进行登记。为避免重复登记,临时来访的人不登记。标准时点后出生的人和该时点前死亡的人、港澳台和外籍人员以及现役军人不登记。使用出生医学证明、死亡医学证明、居民身份证号码或现场调查法,核对样本普查小区的三份人口名单,判断它们是否登记了普查标准时点之前出生的婴儿及死亡者或重复户口者。如果未登记该时点前出生的婴儿,则添补到这三份人口名单,这是因为这类婴儿在该时点具备了上户口资格,未上户口是因为其他难以抗拒的原因,因此应该视为户籍人口。如果三份名单登记了该时点之前死亡者或重复户口,或者登记了标准时点之后出生的婴儿,则从中剔除。

三是分割指定原则。组合式三系统估计量对总体户籍人口数的估计依据的是样本普查小区的三份人口名单,因而须获得这样的三份人口名单,可是我国的户籍登记系统并不是按普查小区划分的,而是以街道为范围登记的,街道建立了分建筑物的普查小区户籍登记系统。这样一来,为了获得本样本普查小区的户籍人口信息,需要在街道的户籍登记系统搜索本样本普查小区的户籍人口,或者比对本样本普查小区三份人口名单的人口地址和街道户籍登记系统的人口地址。

四、实证研究

按理应该以全国为实证范围估计全国户籍登记系统的净误差率,但是因为无法获得估计全国户籍登记系统净误差的原始数据,所以从数据可获得性及数据处理难度两个方面考虑,选择重庆市某行政区为研究范围,估计其2010年11月1日户籍登记系统的净误差率(没有获得该行政区2020年户籍登记系统净误差率估计所需要的原始数据)。

1. 抽样方法

采用分层二重抽样方法。在抽取第一重样本之前,为提高样本对总体的代表性及便于编制抽样框,按照住房单元数将该行政区的总共2200个普查小区分为两层(H=2)。h=1表示含80个及以上住房单元的普查小区层,h=2表示含80个以下住房单元的普查小区层。以普查小区为抽样单位,在每层采用简单随机不重复抽样方式抽取样本普查小区。Nh表示层h的普查小区总数,nh表示从层h抽取的样本小区数。对抽取的第一重样本普查小区,了解每一样本普查小区的户籍人口数,并作为第二重抽样的辅助变量。依据户籍人口占全部人口数比例将第一重样本普查小区重新分为两层(G=2)。g=1表示户籍人口比例不足50%的普查小区层,g=2表示户籍人口比例大于等于50%的普查小区层。Mhg表示交叉层hg的普查小区总数,mhg表示从交叉层hg抽取的样本小区数。表2和表3为样本形成过程及抽样权数,其中,第一重样本含普查小区13个,第二重样本含普查小区8个。

2. 数据采集与处理

估计该行政区户籍登记系统的净误差,所需要的是表2中带有“*”号和“**”的8个样本普查小区的三份人口名单。通过比较,得到了每个样本普查小区人口在三份人口名单的登记结果。为简化计算,按照性别对样本普查小区的人口同质分层(V=2),v=1表示男性层,v=2表示女性层。比较结果见表4和表5。

3. 估计结果

(1)户籍登记系统净误差(率)估计值。使用表1到表4数据和式(12)到式(16)得到男性层、女性层和总体的实际人口数及户籍登记系统的净误差(率)估计值,见表6。

从表6可以看出以下三点重要信息。

第一,总体的户籍登记系统的净误差估计值5657人,并不是漏登人口数,而是净漏登人口数,即从漏登人口数中剔除错误地登记后的剩余人口数。有学者将国家统计局人口和就业统计司估计的2020年人口普查净误差率0.05%错误地解读为漏登率0.05%。户籍登记系统净误差可以表现为该系统的漏登误差与错误登记误差之差,也可以表现为估计的目标总体户籍人口数与该系统人口数之差,所以净误差既不是漏登误差,也不是错误登记误差。

第二,从总人口数来看,采用组合式三系统估计量估计的重庆市某行政区2010年的户籍人口数为563227人,总体的户籍登记系统人口数为557570人。这表明总体的户籍登记系统净漏登人口数5657人,净误差率为1.004%。《中国统计年鉴》上提供的是户籍登记系统人口数,而不是估计的户籍人口数。如果估计的净漏登人数多,那么依据户籍登记系统人口数进行人口统计研究工作就有可能得出错误的结论。所估计的净误差率1.004%与公安部门组织的同年户籍整顿得到的净误差率很接近。

户籍整顿采用的是全面调查,即对每个住户进行调查,登记其无户籍人口、重复登记户口者和死亡未注销户口者,而全面调查得到的结果受到研究人员和实际工作者的广泛认可。我们估计的结果与全面调查得到的结果接近,一定程度上说明我们提出的组合式三系统估计量适合于户籍登记系统的净误差率估计。

第三,从类别人口数来看,男性的净误差估计值为3453人,净误差率为1.2%,而女性的净误差估计值为2204人,净误差率为0.799%。这表明,无论从绝对数还是从相对数来看,户籍登记系统漏登男性的情况比女性要严重。这主要源于我国在2015年前实行计划生育政策,在这一政策背景下,对于超生人口需要按规定缴纳社会抚养费才能入户,而很多家庭无力足额缴纳社会抚养费,因而超生人口实际上没有申报户口的资格或机会,而在超生人口中,男性所占比率大于女性,这是因为在中国农村,养儿防老思想在一些人的头脑中根深蒂固,即便无力缴纳社会抚养费,在没有儿子之前,也要冒着无法入户的风险超生男婴。户籍登记系统漏登人口,除了超生人口之外,还有申报户口手续不全者(出生证明不全、抱养手续不全)、正在申报户口但未入户者、户口待定人口。

(2)户籍登记系统净误差(率)估计值的抽样标准误差估计值。首先,使用式(22)和表2到表3数据,得到逐一剔除第一重样本普查小区后,进入第二重样本的普查小区的复制权数(见表7)。然后,使用表2到表7数据和式(23)到式(31),计算男性层、女性层的抽样方差,以及它们之间的协方差,见表8到表10。

表7中的第二重样本普查小区的复制权数是构造复制组合式三系统估计量及户籍登记系统复制净误差估计量的基础数据。复制组合式三系统估计量不同于组合式三系统估计量,前者依据复制权数构造,后者依据抽样权数构造。

在表8中,CTSEB(st)男性

=1∑Hh=1nh∑Hh=1∑nht=1

CTSEB(st)男性

表8中的合计数5619324.20为男性层户籍登记系统净误差的抽样方差,其抽样标准误差约为2371人,这表明男性估计的户籍人口数和户籍登记系统净误差的估计值与其实际值平均相差2371人。抽样标准误差越小,估计值的精度越高。

在表9中,CTSEB(st)女性

=1∑Hh=1nh∑Hh=1∑nht=1

CTSEB(st)女性

表9中的合計数1914029.94为女性层户籍登记系统净误差的抽样方差,其抽样标准误差约为1383人,这表明估计的女性户籍人口数和户籍登记系统净误差的估计值与其实际

值平均相差1383人。与表8中男性抽样标准误差相比,表9女性的抽样标准误差要小许多,因此使用组合式三系统估计量估计的女性实际人口数的精度高于男性。

在表10中,CTSEB(st)男性

=

1∑Hh=1nh∑Hh=1∑nht=1

CTSEB(st)男性,CTSEB(st)女性

=

1∑Hh=1nh∑Hh=1∑nht=1

CTSEB(st)女性

与表8和表9中的抽样方差所不同的是,表10提供的是男性层和女性层户籍人口数估计

值的协方差,为-1747676.22。协方差可能为正、负和零。若为零,表示这两个同质人口层无关,对总体抽样方差无影响;若为正,表示正相关,增大总体抽样方差;若为负,表示负相关,减少总体的抽样方差。

我们最后根据前面的有关计算结果和式(32)到式(35)给出户籍登记系统净误差和净误差率的抽样标准误差,见表11。

表11分别提供了重庆市某行政区户籍登记系统的净误差(率)及其抽样标准误差,其中,总体的净误差率为1.004%,抽样标准误差为0.357%,男性净误差率和抽样标准误差分别为1.2%和0.824%,而女性净误差率和抽样标准误差分别为0.799%和0.502%。可见,总体的净误差率介于男性层和女性层之间,其抽样标准误差也在它们之间。从数据上看,这三个净误差率的抽样标准误差均较小,估计精度均较高。

五、结语

第一,虽然中国建立户籍登记系统的目的并不是提供人口数据,但它客观上成了人口统计数据的重要来源。由于种种原因,该系统可能会重复登记、漏登、滞后登记目标总体人口,从而导致户籍登记系统人口数偏离户籍实际人口数。这就需要采取恰当的方法估计这种偏离的程度,从而更有效地发挥该户籍登记系统人口数在社会经济发展与科学研究中的作用。此外,部门应建立起密切的数据共享关系,并制定必要的数据共享规则以保证能够从公安部门顺畅地得到户籍微观数据。

第二,是否使用估计的净误差率调整户籍登记系统人口数要考虑两个方面的因素。一是净误差率估计值的大小。如果误差程度很小,就可以考虑直接使用户籍登记系统人口数作决策或开展科学研究;如果误差程度较大,就需要根据估计的净误差率调整户籍登记系统人口数,依据调整后的户籍登记系统人口数进行相关工作。

二是调整对象的范围。

在决定调整时,调整的对象既可能是全国的户籍登记系统人口数,也可能是全国以下地区的省级单位或其下所管辖的行政区的户籍登记系统人口数;既可能是对总人口的户籍登记系统人口数调整,也可能是类别人口的人口数调整。本文只估计了总体的户籍人口数。建议国家统计局使用组合式三系统估计量估计全国和全国以下较大范围的行政区的户籍实际人口数,以及总体全部人口和类别人口(男性和女性等)的户籍实际人口数,为户籍登记系统人口数的调整提供数据基础。

第三,估计户籍登记系统净误差的关键是构造估计目标总体户籍实际人口数的估计量。建议国家统计局培训人口数目估计专门人才,加强组合式三系统估计量及其抽样方差估计量的研究,为户籍登记系统净误差估计做好理论和人才准备工作,以提高净误差估计的精度。

第四,使用组合式三系统估计量估计户籍登记系统的净误差时,需要解决的一个关键问题是,怎样对总体中的人进行同质性分层。如果分层不当,在同一层内出现异质情况的,在这样的层内建立组合式三系统估计量则会导致人口数估计值的异质性偏差,低估目标总体实际人口数和户籍登记系统的净误差。为解决这一问题,建议国家统计局慎重选择分层变量。

参考文献:

[1]胡桂华, 漆莉, 迟璐婕. 人口普查中遗漏人口数的估计[J]. 数量经济技术经济研究, 2022(1): 132-153.

[2]胡桂华, 刘誉环, 文婷. 人口普查多报估计研究[J]. 人口与经济, 2022(3): 71-85.

[3]张广宇, 顾宝昌. 人口普查重报: 人口普查面临的新挑战[J]. 人口与经济, 2018(3): 1-12.

[4]胡桂华. 人口普查净误差估计综述[J]. 数理统计与管理, 2018(5): 796-814.

[5]胡桂华, 吴迪,迟璐婕. 人口普查覆盖误差估计方法研究[J].

徐州工程学院学报(自然科学版), 2023(2): 8-16.

[6]胡桂華, 迟璐婕. 基于四系统估计量的人口普查净覆盖误差估计[J]. 系统科学与数学, 2022(7): 1910-1928.

[7]迟璐婕, 胡桂华. 人口数目估计的多来源方法[J]. 徐州工程学院学报(自然科学版), 2021(2): 84-92.

[8]孟杰, 杨贵军, 冯国雷, 滑梦珂. 人口总数估计:基于三系统估计量与比率估计量的组合方法[J]. 系统科学与数学, 2022(1): 35-49.

[9]ZHANG L C. A note on dual system population size estimation[J]. Journal of Official Statistics, 2019, 35(1): 279-283.

[10]GRIFFIN R. Potential uses of the administrative records for triple system modeling for estimation of census coverage error in 2022[J]. Journal of Official Statistics, 2014, 30(2): 177-189.

[11]联合国经济及社会事务部, 联合国统计司. 关于人口动态系统的原则和建议(修订本2)[R], 2002.

[12]张庆五, 张云. 从国外民事登记看我国户籍制度改革[J]. 人口与计划生育, 2002(3): 21-23.

[13]接栋正. 国外民事登记制度及其对我国户籍制度改革的启示[D]. 上海:华东师范大学, 2009:95-112.

[14]靳卫东, 杜育红. 农民工城镇居留意愿、自主就业选择与户籍歧视变化[J]. 华中师范大学学报(人文社会科学版), 2022(4): 25-37.

[15]李五荣, 丰晨宇, 陈华帅. 城市落户门槛对农村流动人口创业决策的影响——基于新一轮户籍制度改革的分析[J]. 中南财经政法大学学报, 2022(4): 82-95.

[16]胡桂华, 薛婷. 中国户籍登记系统覆盖评估研究[J]. 统计与信息论坛, 2018(7): 34-46.

[17]孟杰. 双系统估计量的交互作用偏差研究[J]. 数理统计与管理, 2019(5): 858-872.

[18]胡桂华, 吴婷, 范署姗. 人口普查质量评估中的三系统估计量研究[J]. 数量经济技术经济研究, 2020(8): 159-175.

[19]胡桂华. 人口普查质量评估中抽样后分层变量的选择[J]. 数理统计与管理, 2015(2): 254-263.

[20]胡桂华, 武洁, 丁杨. 人口普查质量评估中Logistic回归模型的应用[J]. 数量经济技术经济研究, 2015(4): 106-122.

[21]金勇进, 刘晓宇. 大数据背景下的抽样调查[J]. 系统科学与数学, 2022(1): 2-16.

[22]金勇进, 刘晓宇. 权数对基于模型推断的影响分析[J]. 统计与信息论坛, 2022(3): 3-13.

[23]王小宁. 权数在人口抽样调查估计中的应用研究[J]. 统计与信息论坛, 2019(12): 9-15.

[24]鞏红禹, 张士琦, 王春枝. 基于分层平衡抽样的多目标代表性样本设计——以住户调查为例[J]. 统计与信息论坛, 2021(2): 36-44.

[25]陈光慧, 刘建平. 构建新时代现代化统计调查体系的问题研究[J]. 统计研究, 2018(6): 11-17.

[26]EFRON B, STEIN  C. The jackknife estimate of variance [J]. Annals of Statistics, 1981, 9(3): 586-596.

[27]孟杰, 沈文静, 杨贵军, 刘杨. 复杂抽样的Bootstrap方差估计方法及应用[J]. 数理统计与管理, 2021(2): 266-278.

Estimation of Net Error in Household Registration System

HU  Guihua, WU  Di, LIU Yuhuan

(School of Mathematics and Statistics, Chongqing Technology and Business University,

Chongqing 400067, China)

Abstract: There are registration errors in the registered residence system. In order to play its role, the net error should be estimated. The net error of the registered residence system has not been estimated in China, which requires to be changed. Dual system estimator is an important method to estimate net error at present. The purpose of this study is to estimate the net error of household registration system by using the combined three-system estimator instead of the dual-system estimator. It is the difference between the unknown actual population of the target population and the known population of the registered residence registration system, which  provides the basis for the scientific use of registered residence registration data by relevant departments or personnel.The sampling theory and mathematical model method are used to construct a combined three-system estimator, and the calculation process is demonstrated by using three population lists of sample census districts.

The research finds that:

1) Although the registered residence system is an important source of demographic data, due to the error of misregistration or missing population registration, the population provided by registered residence registration system is different from actual population, where appropriate methods should be adopted to estimate the extent of such deviation.

2) The combined three-system estimator of sampling registration is appropriate for net error estimation.

3) In order to make the estimated net error of the registered residence system meet the consistency requirements of the statistical caliber, each person in the census population list the post-enumeration survey population list and the registered residence population list of the sample census communities must have local registeration, otherwise they must be removed from these lists.

4) The combined three-system estimator must be established in the homogeneous population stratum, otherwise it contains heterogeneity bias and underestimates the actual population size.

5) Under stratified double sampling, the estimators of each element of the combined three-system estimator are constructed by the double expansion estimator, where the sampling variance is approximately calculated by the stratified jack-knife method.

6) Net error estimation can be conducted in either a census year or a non-census year. The research significance is that the combined three-system estimator is expected to be adopted by the National Bureau of Statistics to estimate the net error rate of registered residence system in the future. In addition, it can also be used to estimate the net error rate of population census, agricultural census and economic census.

Keywords:sampling survey;official statistics;population administrative records;combined three-system estimator;stratified cutting method

[責任编辑 崔子涵,方 志]

猜你喜欢
抽样调查
我国基层人大代表选举中的问题及对策
中外安乐死法律问题研究
中外安乐死法律问题研究
对整群抽样与分层抽样结合使用的探究
计算机辅助的抽样调查应用框架探讨
《抽样调查》实验教学创新性研究
中小企业融资问题研究及对策
农户对土地确权的认知及影响因素分析
城市居民住户调查抽样框存在的缺陷及优化策略分析
简述抽样调查在“大数据”时代下的意义