对我国人口普查数据质量评估的若干思考

2014-09-18 23:47陈培培金勇进
现代管理科学 2014年9期
关键词:人口普查

陈培培++金勇进

摘要:文章根据官方公布的历次中国人口普查方案和相关数据质量抽查实施办法,分别从普查摸底阶段、普查登记汇总编码阶段和普查事后质量抽查阶段分析现有人口普查数据质量评估特点,并在此基础上提出了双系统估计量在我国普查实践中的科学应用、汇总数据时要综合运用评估方法和在普查数据质量抽查中采用系统完善的抽样设计等改进措施,期望能够进一步完善人口普查数据质量评估的理论方法。

关键词:人口普查;数据质量评估;事后质量抽查

一、 引言

人口普查是一项重大的国情国力调查,人口普查的数据结果为科学制定国民经济和社会发展规划、统筹安排人民的物质和文化生活、构建社会主义和谐社会提供科学准确的统计信息支持。目前国内学者主要从数据质量控制和数据质量评估两个方面对人口普查的数据质量进行研究,比较有代表性的有:李成瑞(1984)从我国1982年人口普查的方案设计、普查登记和数据处理等方面介绍了数据质量控制的具体措施;武洁(2002)介绍了我国第五次人口普查的事后质量抽查;张为民等(2003)采用人口统计分析法评估了我国第五次人口普查的某些代表性指标;胡桂华(2013)通过对比我国与美国等五个国家的人口普查数据质量评估情况,对我国人口普查质量评估提出若干改进建议。

我国先后经历了六次人口普查,1953年第一次人口普查后在全国抽取了9%的人进行复查,这可以被视为我国最早的事后质量抽查尝试。改革开放后,从第三次全国人口普查开始,每次都要在普查登记工作结束后开展事后质量抽查,并从2000年第五次人口普查开始引入双系统估计量评估普查数据质量。虽然历次人口普查都开展了事后抽查,但相比国外,我国的人口普查数据质量评估尚处于经验借鉴中。从我国已有的人口普查事后抽查看,人口普查事后抽查也亟待进一步从理论上加强和完善。

二、 对现有人口普查数据质量评估的认识

1. 普查摸底阶段缺乏严谨的数据质量评估方法。《全国人口普查条例》规定人口普查对象为普查标准时点在中华人民共和国境内的自然人以及在中华人民共和国境外但未定居的中国公民,不包括在中华人民共和国境内短期停留的境外人员。为了保证人口普查登记期间普查登记工作的不重不漏,需要通过普查登记前的摸底工作编制《户主姓名底册》,真实、全面地记录本普查小区所有房屋及其他建筑物内居住人口的状况。《户主姓名底册》不仅是普查登记工作的主要依据,而且也是各级人口普查办公室指导工作、核查质量和验收数据的重要依据,同时还为抽取普查表长表调查户提供抽样框,因此编制高质量的《户主姓名底册》至关重要。

我国第一次和第二次人口普查方案中均未明确说明普查登记前是否编制《户主姓名底册》,1982年第三次和1990年第四次人口普查方案仅规定在普查登记前根据户口整顿情况编制《户主姓名底册》,但未开展摸底工作。2000年第五次和2010年第六次人口普查方案明确规定在户口整顿和区域划分的基础上由普查员、普查指导员通过实地勘察和入户访查,开展摸底工作,并在此基础上编制《户主姓名底册》。摸底工作完成后,乡级人口普查办公室组织村级人口普查小组和普查指导员对各普查小区《户主姓名底册》的汇总结果进行评估,结合经整理的流动人口、户籍人口、港澳台和外籍人员、死亡人口和出生人口等资料以及房管、物业部门提供的入住率(空房)清单、出租房屋户数等资料进行比对,确保在正式普查登记之前及时发现问题,保证普查数据质量。

人口普查数据主要从普查摸底和登记填报这两个环节取得,其中普查摸底工作关系到普查地址码库建立的准确性,是一项基础性工作。因此,普查摸底数据质量不仅是普查数据质量的基础,同时也关系到普查事后抽查样本框的质量。虽然我国自第五次人口普查以来均制定了全国统一的摸底工作细则,明确了摸底工作的实施过程和质量控制措施,但只是对各普查小区《户主姓名底册》的汇总结果进行比对评估,并没有在摸底工作结束后随机抽取一部分普查区重新逐户调查核对,也没有制定统一的主要数据质量评估指标。因此,有必要采用系统完善的抽样设计保证普查摸底质量评估的可行性。

2. 普查登记汇总编码阶段的检验规则过于单一。我国人口普查主要调查人口和住户的基本情况,内容包括姓名、性别、年龄、民族、国籍、受教育程度、行业、职业、迁移流动、社会保障、婚姻、生育、死亡和住房情况等。1953年我国第一次人口普查仅调查6个项目;1964年增加了本人成分、职业和文化程度3项;1982年增加到19项;1990年又增加了“迁来本地的原因”和“1985年7月1日常住地状况”两项;2000年第五次全国人口普查表分为普查表长表、普查表短表、暂住人口调查表和死亡人口调查表四类,其中长表已达到49个项目,分为按户填报的项目和按人填报的项目,比上一次普查增加了28项,并首次加进了住房项目;2010年第六次全国人口普查表分为普查表长表、普查表短表、境外人员普查表和死亡人口调查表四类,其中长表共计45个项目。由此可见,普查表和普查项目越来越多。虽然我国历次人口普查均开展了复查审核验收工作,但还是很有必要建立一套系统完善的数据质量控制和评估系统。

人口普查登记汇总编码阶段的审核评估属于数据质量评估技术中的逻辑规则检验范畴,主要检验普查表填报代码、普查表内和表间相关指标的逻辑关系的一致性和准确性,主要通过汇总、议查或个别访查和人工逻辑检查方法验收。这种审核验收方法需要事先了解普查表内和表间进行对比的相关指标间的逻辑关系,而且这些相互对比的指标又互为参照标准,使得验收结果只能反映误差的方向(被高估或低估),不能反映误差的确切水平。所以实践中,需要采用更多的方法评估人口普查登记汇总数据的质量。

3. 普查事后抽查阶段的数据质量评估缺乏严谨的科学依据。事后质量抽样调查是在普查登记结束之后进行的独立调查,是整个普查工作的一部分,其目的在于评价全国人口普查登记的质量,而不评价省级及其以下各级人口普查的登记质量,也不对抽中普查小区的登记质量进行评价。1953年第一次人口普查后在全国抽取了9%的人进行复查,抽查的结果是,重复人口占抽查人口0.139%,遗漏人口占0.255%,二者相抵,净遗漏人数仅占0.110%。改革开放后,1982年第三次人口普查的事后质量抽查以全国各省为层,按照区(县)、街道(镇、公社)、普查区、普查小区的分层四阶段整群抽样设计,在全国共抽取972个普查小区,重报人口占0.71‰;漏报人口占0.56‰,重漏相抵,净差人口占0.15‰。1990年的人口普查事后抽查也基本沿用了这一事后抽查设计思路。2000年第五次人口普查的事后质量抽查将全国31个省按总人口的多少分为四层,对每个省再按城乡分层,在每个层内采用一阶段随机等距整群抽样,直接抽取调查小区。同一层内的各省分配相同的样本量,全国共抽取了602个调查小区,抽查结果显示,人口漏登率为1.81%。本次普查数据质量评估除了以事后质量抽查为准计算漏报率以外,初次应用双系统模型评估普查数据质量。2010年第六次人口普查事后质量抽样调查根据人口普查地址码库,首先将全国31个省市区按人口流动类型(流入、流出和流入流出基本平衡地区)分为三类,然后按照常住人口规模或者净流入人口规模等指标对以上各类进行分层,最后在每层内按照一阶段随机等距整群抽样的方法抽取普查小区。第六次全国人口普查共抽取了402个普查小区,抽查结果显示,人口漏登率为0.12%。

由此可见,虽然第六次全国人口普查的事后质量抽查在抽样设计和估计方法等方面有所改进,但仍然存在以下问题。第一,在省(自治区、直辖市)层级只按城乡标志对普查小区分层,然后在每层内采用随机等距整群抽样直接抽取普查小区,以这种方式抽出的样本的代表性明显不足;第二,估计方法存在漏洞:在当前流动人口规模大,流动速度快的情况下,普查和事后质量抽查均存在人口遗漏问题,所以以事后质量抽查为准评估普查数据质量的做法并不科学,有必要引入考虑两次调查均存在遗漏问题而构建的双系统估计量评估普查数据质量;第三,违背抽样估计理论的要求,没有利用抽样权数把样本数据还原为总体估计量,而是直接使用样本调查小区的普查人口数和事后抽查人口数估计该调查小区的真实人口数。

三、 对人口普查数据质量评估的若干建议

1. 科学应用双系统估计量。人口普查作为大规模的数据收集过程,无法准确计数目标总体的每一个人及其人口统计特征,所以不可避免地会存在两种类型的调查误差。一种类型是遗漏误差,当真实的普查人口被遗漏时,便会发生这种误差,并会引起人口低估。另一种类型是由普查中的无效记录引起的计数误差(EE),比如虚假或重复的人口,会使普查计数增加。这两种误差都会显著影响普查人口总数的准确性。因此,评估人口普查的数据质量,需要估计人口普查的误差。人口普查误差可进一步分为覆盖误差和内容误差。其中人口普查覆盖误差是普查人口数和真实人口数N之间的差,它直接影响人口总数的精度,进一步分为遗漏和错误计数。人口普查内容误差虽然不影响人口总数的精度,但却影响普查各个类别人口数的精度。所以,世界各国政府统计机构都在致力于研究评估人口普查数据质量的方法,其中又以估计人口普查覆盖误差为主。

双系统估计是建立在捕获—再捕获模型基础上的。人口普查摸底阶段没有应用双系统估计评估摸底数据质量;事后抽查阶段虽然应用了双系统估计,但在抽样设计和估计方法等方面并未严格满足应用双系统估计的前提假设。把双系统估计科学引入我国人口普查数据质量评估,需要同时满足如下假设条件:

(1)封闭性假定。即总体U是封闭的,总体单位数N固定。实践中,该假定意味着普查的推断期得到了很好的定义,而且在此期间没有新增(出生或迁入)和损失(死亡或迁出)人口。

(2)独立性假定。该假定包含两层含义:一层含义是指事件第i个人是否被普查(或事后调查)调查到与事件第j个人是否被普查(或事后调查)调查到相互独立,另一层含义是指事件第i个人在普查中是否被调查到与事件该人在事后调查中是否被调查到相互独立。其中:i,j=1,2,…,N,i

(3)匹配假定。即假定样本调查结果可以和普查结果进行正确匹配。也就是说,可以毫无误差地确定样本调查中的哪些个体出现在普查中,哪些个体不在普查中。

(4)虚假事件假定(Spurious Events Assumption)。即假定普查和事后调查均不存在虚假事件,或者这些虚假事件在估计之前已经被剔除。这意味着普查和调查结果均不存在记录误差。实践中确实存在一些虚假事件,如:①普查表中的重复记录;②在普查或样本调查中报告了本不存在的个体;③普查中错误登记了范围外的个体,如在推断期之后出生的个体。

(5)无回答假定。即假定一定会存在某种程度的无回答,但在普查和样本调查中均会向无回答者收集充分的识别信息,实现调查和普查的精确匹配。

(6)事后分层假定。即假定估计N时最好采用某种事后分层。例如,可以按照年龄进行事后分层,得出特定年龄的人口数估计值,然后加总所有事后层人口数估计值便可得到人口总数N的估计值。普查和样本调查中任何事后分层变量都必须在所有个体上正确登记。

(7)捕获概率满足pi1+=p1+,pi+1=p+1,i=1,2,…,N。即第i个人在普查(或事后调查)中的捕获概率和第j个人在普查(或事后调查)中的捕获概率相同,但第i个人在普查中的捕获概率和他在事后调查中的捕获概率不相同。i,j=1,2,…,N,i≠j。

显然,科学应用双系统估计量的关键是看人口普查及其事后调查的实际情况是否符合模型中的假设条件。对于假定1,由于人口出生、迁移和死亡,人口总体总是处于动态变化之中,缩短两次调查的时间间隔将有助于人口总体的稳定。为满足假定2,从事事后调查工作的调查员不应该是普查中的普查员。但在实际调查中,为节约时间和便于事后调查工作的开展,事后调查仍然使用普查时的普查员。为保证两次调查一定程度上的独立性,不让普查员事先知道选为事后调查员,将他派往不同于普查时工作过的调查区都是必要措施。假定4和5的实现有助于满足假定3,即在估计之前应该剔除普查和事后调查中的虚假事件。针对无回答个体,可以通过后续调查收集充分的识别信息,使得样本调查结果可以和普查结果进行正确匹配。假定6的实现有助于满足假定7,即可以通过适当的事后分层,使层内个体具有相同或相似的捕获概率。

2. 汇总数据时要综合运用评估方法。人口普查登记汇总编码阶段产生的数据属于总量汇总数据。一般而言,汇总数据的质量评估方法有逻辑规则检验、相关指标比对、经验参数比对、参数稳定性分析和基于模型的异常值识别等。所以,该阶段的数据质量评估方法除逻辑规则检验以外,还可以利用评估参照标准来检验待评估数据的准确性。若已知某些统计指标与待评估数据具有较长时期稳定的高度相关关系,并且这些指标事先已知是正确的,那么可以把这些相关指标作为评估参照标准,根据这些相关指标的变动趋势递推待评估数据的变动趋势,以此检验待评估数据的准确性。若能掌握某些反映人口特征的统计指标间较为稳定的变动关系,如比例或比率等相对指标,可以把它们视为这些指标间基本固定的经验参数,然后把这些经验参数作为评估参照标准。如果根据待评估数据计算的比例或比率关系值与经验参数严重不一致,就可以对待评估数据的准确性提出质疑。

以上评估方法要求事先确定评估参照标准,当难以得到与待评估数据存在稳定而确切相关关系的统计指标时,可以考虑采用基于模型的评估方法。通常情况下,该评估方法从以下两个方面检查待评估数据的质量:一方面通过分析模型参数估计值的实际意义是否合理,来判断模型所反映的人口特征是否违背现实情况和模型假定;另一方面通过分析待评估数据与模型拟合值之间的差异情况,识别出严重偏离拟合值的异常值。

3. 数据质量抽查中采用系统完善的抽样设计。2010年全国人口普查事后质量抽查采用分层一阶段随机等距整群抽样方法从城市层和乡村层分别抽取样本普查小区,这样的样本明显缺乏代表性。为提高样本代表性,本文提出两步抽样法,即首先依据事后质量调查目的确定全国样本量,然后根据全国各省(自治区、直辖市)的上次普查人口数按比例分配它们在全国的样本总量,再根据各抽样层的具体情况分配该省(自治区、直辖市)各地区的样本量,最后以两步方式从各抽样层抽取最终样本单元。具体来看,第一步,首先在各省(自治区、直辖市)内将所有调查小区按城乡标志分为城市层和乡村层,然后在层内以调查小区为抽样单元进行等距抽样,抽取样本调查小区;第二步,分别对抽取的城市层和乡村层样本调查小区编制家庭户目录,这样便使得属于同一个样本调查小区的家庭拥有两个家庭户目录,即普查目录和事后调查目录。对这两个家庭户目录进行比较,会出现两种情形,要么事后调查目录的家庭户数目与普查目录的家庭户数目差异较小,要么两者数目差异较大,即两个层。相应地,我们把第一步抽取的样本调查小区分在这两个层中,在层内仍然以调查小区为抽样单元,采用等距抽样抽取最终样本调查小区。

参考文献:

1. 张为民,崔红艳.对中国2000年人口普查准确性的估计.人口研究,2003,(7):25-35.

2. 王谦等.中国第六次人口普查:经验与启示.人口研究,2010,11(6):19-31.

3. 陶然,金勇进.普查事后抽查理论研究与经验启示.调研世界,2010,(9):9-12.

4. 陈培培,金勇进.对经济普查数据质量评估的若干思考.市场研究,2012,(5):49-53.

5. 戴世光.我国1953年的人口普查.教学与研究,1957,(4):1-6.

6. 胡桂华.国外人口普查质量评估方法综述.调研世界,2011,(11):55-58.

7. 胡桂华.人口普查覆盖误差估计方法综述.统计与信息论坛,2013,(9):39-46.

8. 武洁.人口普查中的事后质量抽样调查.南方人口,2002,(3):18-24.

基金项目:国家社科基金项目“普查数据质量的事后抽查理论及其应用研究”(项目号:11BTJ009);教育部人文社会科学研究项目“复杂抽样中的模型方法研究”(项目号:10JJD790036)。

作者简介:金勇进,教育部重点研究基地“应用统计科学研究中心”研究员,中国人民大学统计学院教授、博士生导师;陈培培,中国人民大学统计学院博士生。

收稿日期:2014-07-18。

猜你喜欢
人口普查
无人机助力人口普查
人口普查学问多
邮票上的人口普查
邮票上的“人口普查”
垦利街道:代表助力人口普查
陈庄镇:人大代表助力人口普查宣传工作
黑龙江省人民政府关于做好黑龙江省第七次全国人口普查工作的通知
人口普查为什么既要“查人”又要“查房”
人口普查,巴基斯坦出动20万军人
人口普查由谁首创