史龙梅,徐蔼婷
(浙江工商大学 统计与数学学院,浙江 杭州 310018)
综观各国的人口普查实践,人口统计信息大致源于两类资源。一类是调查数据源,是指通过专门组织的普查或抽样调查,借助问卷、填报、邮件、面访、观察、计算机辅助采访等方式获取的调查数据;一类是行政记录源,是指政府部门在日常行政管理过程中,借助登记、报告、行政许可审批、检查等方式收集和存储的包含人口信息的行政记录大数据。对应地,人口普查便可区分为具有显著差异的三类模式:以调查数据源作为唯一人口统计信息来源的传统模式(简称“传统模式”人口普查)、综合调查数据源和行政记录源获取人口统计信息的组合模式(简称“组合模式”人口普查)、以行政记录源作为唯一人口统计信息来源的完全模式(简称“完全模式”人口普查)。
1990年以来,全世界的人口普查实践遵循着“传统模式→组合模式→完全模式”的演化路径。以欧洲国家为例,在1990年左右开展人口普查的36个国家中(简称为“1990轮人口普查”),除挪威开展“组合模式”人口普查、丹麦和芬兰开展“完全模式”人口普查之外,其余国家均开展“传统模式”人口普查。在2000轮人口普查中,荷兰、西班牙、拉脱维亚等6个国家的人口普查由“传统模式”转向“组合模式”,挪威则由“组合模式”转向“完全模式”[1]。在2010轮人口普查中,开展“组合模式”人口普查的国家增至12个,开展“完全模式”人口普查的国家也扩展至6个*需要说明的是,在2010轮世界人口普查中,法国开展基于抽样调查获取人口统计信息的“轮换模式”人口普查。捷克、爱沙尼亚、意大利、立陶宛和波兰5个国家的人口普查由“传统模式”转向“组合模式”,斯洛文尼亚由“组合模式”转向“完全模式”,奥地利则直接由“传统模式”转向“完全模式”。[2]。据此,将行政记录大数据资源融入人口普查,开展“组合模式”人口普查或“完全模式”人口普查是改革“传统模式”人口普查的必然之选。对于长期实施“传统模式”人口普查且行政记录资源尚未足以满足“完全模式”需求的国家而言,“组合模式”人口普查无疑是创新首选。
新中国成立以来,我国分别于1953、1964、1982、1990、2000和2010年组织实施了六次人口普查。第七次全国人口普查将于2020年开展。动态考察前六次人口普查,尽管普查内容不断完善、普查方法逐渐合理、普查技术逐步提高,但调查模式均属于“以调查数据源作为唯一来源”的“传统模式”。然而,随着个人信息保护意识的增强和人口迁移流动频率的提高,普查对象的锁定难度、人口信息的获取难度和普查投入成本均不断增加,同时,广大用户对人口信息的数量、质量、时效等方面的要求与日俱增,基于“传统模式”人口普查获取的人口统计信息越来越不能满足广大用户的需求。我国“传统模式”人口普查的供需矛盾日益凸显,亟待进行改革创新。
为此,相关学者基于“传统模式”人口普查前提对完善我国人口普查实践提出了较多重要的改进思路。如陈培培和金勇进提出完善我国人口普查数据质量评估的若干措施[3],胡桂华等基于人口普查中现有多报人口估计量的缺陷,提出构造新估计量的设想[4]。同时,国内学者已逐渐认识到应用行政记录资源对人口普查的重要作用,提出了较多有见地的观点。如刘建平和陈东进提出将行政记录资源纳入官方统计的实践理论[5],方越峦和刘建平等学者探讨了行政记录应用于政府统计的渠道与方式[6],胡桂华提出综合使用行政记录数据和抽样调查数据,设计我国调查失业率估计的抽样方案[7]。另外,少数研究如徐蔼婷和杨玉香涉及到对基于行政记录人口普查的初步认识[8]。然而,专门探讨“组合模式”人口普查方法的文献仍较为鲜见,涉及具体国家实施“组合模式”人口普查经验解析的文献更为匮乏。
基于上述背景,本文尝试以西班牙2011年“组合模式”人口普查(简称“西班牙组合普查”)为例,阐释“西班牙组合普查”的实施框架,归纳其成功经验,为加快改革我国“传统模式”人口普查方法提供借鉴。之所以选择“西班牙组合普查”主要基于四方面考虑:一是西班牙组合普查的实施前提与我国的现状更为匹配。西班牙依据相关法律将原本由各自治区政府独立管理的市(自治区)居民行政登记记录转变为由各自治区政府和国家统计局联合管理的连续行政记录,可为人口普查提供姓名、常住地、全国身份证号码等多项人口基本信息。正是基于此,西班牙统计局(Instituto National de Estadisticia,简称INE)决定将人口行政记录信息运用于人口普查。反观我国,由公安、计生、教育等部门分头管理的户籍登记、出生登记、学籍登记等行政登记记录被集成于国家人口基础数据库中,为“组合模式”人口普查的开展奠定了基础,这与“西班牙组合普查”的实施前提较为类似。二是以传统调查为主、行政记录调查为辅的西班牙组合普查对我国“传统模式”人口普查的首次转变更具借鉴意义。西班牙组合普查的行政记录源仅为人口普查提供人口总数的初步估计,普查所涉及个人、家庭结构、住宅特征、建筑物特征等信息仍由两类调查数据源提供。相较于荷兰以行政记录源为主要信息源的组合模式人口普查,西班牙组合普查呈现出对行政记录源较低程度的依赖,这与我国行政记录源尚且无法覆盖就业状况、教育水平、住房条件等一系列人口普查变量的现状更为吻合。三是西班牙组合普查中的部分抽样技术可为我国“组合模式”人口普查的开展提供明确可行的指导。西班牙引入计数因子进行确定人口数的估计、建筑物普查实地调查路线设定等抽样技术基本适用于我国开展抽样调查对人口总数进行校准、对建筑物信息进行更新等。四是西班牙拥有更为丰富的“组合模式”人口普查实践经验。较之德国、以色列、土耳其等国,西班牙于2001年、2011年两次开展“组合模式”人口普查,积累了相对成熟的实践经验[9-11]。
2011年,INE基于《政府统计法》《数据保护法》和《公共统计服务法规》三大法律条款,组织实施了西班牙历史上的第18次人口普查。普查标准时点为2011年11月1日零时。“西班牙组合普查”的调查对象分为两部分,人口普查的调查对象是“所有在西班牙领土内拥有常住地的人口,而不论居民的国籍”,住宅普查的调查对象是“所有在西班牙领土内供居民居住使用的建筑物,而不论其本身原有用途”[12]。作为人口普查与住宅普查的结合体,西班牙组合普查不仅获取全国和各自治区的人口数量和结构信息,还获取住宅和建筑物的地理坐标信息、数据特征信息。普查内容涉及个人信息、核心家庭和家庭结构信息、住宅特征信息、建筑物特征信息四方面:个人信息,如人口基本特征信息、教育特征信息、经济活动特征信息、流动性特征信息、相关人口信息、无酬任务信息等。核心家庭和家庭结构信息,如个人关系特征信息、夫妻特征信息、家庭特征信息等。住宅特征信息,如居住住宅类型、家庭住宅传统类型、可用面积、人均居住面积、卧室个数、人均卧室个数、供热类型、是否带有浴室、是否带有浴缸或淋浴、互联网接入情况、供水情况、住宅所有权、人员构成(根据住宅类型)等。建筑物特征信息,如基于建筑物类型的住宅类型、建筑物施工时期、建筑物地上楼层数、建筑物地下楼层数、建筑物内的住宅数、建筑物状态、建筑坐标、电梯、车库的可用性、车库中的车位数量、供气、电话连接、中央热水、污水处理系统类型等。详细如表1所示。
表1 “西班牙组合普查”基本情况[注]有关人口普查变量的详细分类详见:Instituto Nacional De Estadistica,Demographic Census Project 2011,Subdirectorate-General for Statistics on the Population February 2011.e.es/en/censos2011/censos2011_proyecto_en.pdf
西班牙组合普查拓展了“行政记录调查+抽样调查”的一般框架[注]各国开展抽样调查的形式各异、目的不一。如以色列借助区域抽样调查和行政家庭抽样调查两个较大范围的独立抽样调查获取人口统计信息;瑞士开展年度结构调查、年度主题调查和年度综合调查三项抽样调查获取住宅、家庭等主题的详细信息;德国通过建筑物和住宅抽样调查、特殊建筑物抽样调查收集住宅和行政记录无法提供的其他人口信息;拉脱维亚组织人口抽样调查收集人口教育信息、专业技能和职业方面的信息,并纠正行政记录错误信息。总体来看,它们都将抽样调查作为人口统计信息补充、修订、校准的唯一方式,围绕“行政记录+抽样调查”的一般框架评估和发布最终的人口统计信息。,形成了“行政记录调查+抽样调查+建筑物普查”的“组合模式”人口普查实施框架,即综合使用行政记录数据源、抽样调查数据源和普查数据源获取人口统计信息。西班牙组合普查的基本框架如图1所示,其实施步骤大致可归为五步。第一步,行政记录调查的设计与实施。INE在梳理现有行政记录信息的基础上,选择了城市登记、住宅登记、社会保障登记等12个行政记录、2001年人口与住房普查数据库和2010年生命统计数据库两项统计数据库形成了一个普查前文件(Pre-census File,简称PCF)。进一步地,INE基于PCF获取大部分的人口统计信息并形成对人口总数的初步估计。第二步,建筑物普查的设计与实施。依据地图信息,西班牙建筑物普查分可定位建筑物和不可定位建筑物分别展开。普查过程中,普查员不仅需要采集建筑物地理坐标信息,同时还需对道路、支架、建筑物内的房地产等每个部分的信息予以校对。覆盖全部领土范围的建筑物普查为大型抽样调查提供了一份由PCF未包含的建筑物形成的抽样框。由此,大型抽样调查中来源于PCF和建筑物普查的两个抽样框形成。第三步,抽样调查的设计与实施。西班牙大型抽样调查基于PCF和PCF未登记的住宅形成的“抽样框A”、“抽样框B”,采用系统抽样和等概率抽样方式获取样本。经过大型抽样调查,INE获得了更为详细的人口、家庭和住房特征信息。第四步,行政记录调查与抽样调查的信息匹配与对接。INE基于三部分信息的交叉程度和重叠关系,根据一定的规则将三部分信息合成,进而形成全部人口普查信息的获取与估计。INE将来自于行政记录调查、建筑物普查和抽样调查获取的信息存储于一个共同的数据仓库系统中,以避免多来源数据导致的数据不一致问题的产生。第五步,人口数据质量评估与数据发布。尽管INE没有明确公布“西班牙组合普查”的详细质量评估方法,但Rodero-Cosano等基于自治区视角将西班牙2011年的人口普查结果分别与人口行政记录信息、基于不同数据源[注]涉及的数据库包括:人口普查数据库(2001年人口普查和2011年人口普查);市(自治区)居民行政登记记录库(2002—2012);基于出生和死亡统计的营养平衡数据库(2002—2011);居民变化统计数据库(2002—2011)。的人口总预测结果进行了比对[13]。结果显示,基于该模式取得普查结果数据质量相对较高,普查成本也相对较低。
INE认为,与传统人口普查模式相比,2011年西班牙组合普查优势明显[14]:一是参与调查的工作人员大幅减少,调查成本大幅降低。传统普查70%的调查成本与工作人员的数量相关,而所有参与2011年人口普查数据搜集的人员不足5 000人,这不仅便于对工作人员的管理和培训,更能节省大笔的人员开支,大幅度降低普查成本;二是多途径的数据采集方法使得普查问卷的回答率显著上升。2011年人口普查提供了网络调查、邮寄问卷和CAPI三种数据搜集途径,提升了被调查者的回答可能性。大部分年轻人和不希望受时空限制的被调查者更愿意通过网络来回答问题;对新技术“不感冒”或者家里没有网络的人,邮寄问卷调查可能是更好的数据搜集方式;对于完成普查有困难的居民来说,普查员手持计算机设备进行面访调查将确保较高的回答率。三是多手段的数据质量控制手段使得普查的质量明显改善。如将核查程序引入人口普查数据采集阶段,在一定程度上提高了人口普查的数据质量;允许新行政记录管理系统在运行过程中纠正系统的固有误差,提升了行政管理系统的灵活性;详尽及几乎同时的信息比对将更易对人口信息变化的一致性进行验证。
图1 “西班牙组合普查”的整体框架
西班牙组合普查的成功实施经验可归为“基于普查前文件形成人口统计信息的初估计”“基于建筑物普查实现地理信息的更新”“围绕抽样调查完成详细特征信息的获取”以及“引入计数因子进行确定人口数的估计”四方面。
行政记录调查的核心在于构建一个覆盖完全的记录库。由于缺乏统一管理,西班牙存在大量分级管理的“市(自治区)级”人口行政记录,却缺乏统一管理的中央人口行政记录,加之各“市(自治区)级”人口行政记录5年一次的更新频率,这在一定程度上制约着西班牙“组合模式”人口普查的实施进程。INE在综合分析其人口行政登记记录资源“散、慢”特征的基础上,实施了以PCF为起点开展的行政记录调查。
PCF由个人文件和领土文件构成,以连续行政记录(Continuous Register,简称PADRON)[注]PADRON也可被称为模糊市居民行政登记记录(Municipal Register of Inhabitants Indistinctly)。为基础,经其他行政登记记录与统计数据的补充链接形成。具体地,INE基于“单位准匹配”[注]所谓“单位准匹配”是指行政记录登记单位类型与人口普查统计单位基本对应。一般地,人口普查的统计单位是“每一位常住居民”,那么所有以“居民个人”为登记单位类型的行政记录均符合成为基于行政记录人口普查信息来源的要求,如“每一位有收入的居民”、“每一位在校生”,“每一位失业者”等等。原则选择了城市登记、住宅登记、社会保障登记、税收登记、就业登记、失业登记、出生登记、死亡登记、婚姻登记、电力消耗登记、地籍和身份证数据库等多种行政记录,亦选择了2001年人口与住房普查数据库和2010年生命统计数据库两项统计数据库。不同人口行政记录数据与PADRON之间主要径由全国身份证号码(Number of the National Identification Card,简称NNIC)、外国人身份识别码 (Foreign National Identification Number,简称FNIN)和替代识别码(Alternative Identifiers,简称AI)实现链接[注]为提升行政记录的被识别性,INE实施了一个专门用来确认行政记录识别码的“纵向人口研究项目”。项目对所有涉及西班牙人和外国人的行政登记记录实施了识别码(NNIC、FNIN)确认程序。对未得到确认的行政记录,项目基于确定方法和概率方法,借助名字、姓氏、出生日期等其他标识字段执行一个搜索替代识别码程序。。鉴于PADRON中的领土记录主要根据2001年的人口和住房普查数据调整,2001之后年份建造的建筑物和之后年份才供人居住的建筑物信息便较少涉及[注]西班牙2001年人口和住房普查涉及的建筑和住宅仅针对有人居住的。。INE主要选择了土地登记记录、地籍和身份证数据库两类行政记录,对PADRON信息予以补充,以形成一个较准确的建筑物和住宅目录清单。由此便形成了一个普查前文件,对人口总数进行初步估计并提供部分人口变量信息、建筑物信息等多项信息[12],如图2所示。
图2 PCF构成与提供的信息
值得一提的是,PCF对人口数的估计并没有停留在一个简单的人口总数数据上,INE将总人口分为确定人口、错误人口和怀疑人口三部分,分别计数。其中,确定人口是指通过相关行政记录的充分证据表明其属于人口普查对象范围“没有任何怀疑”的常住居民;错误人口是指通过相关行政记录的充分证据表明其不属于人口普查对象范围而“需要排除”的居民;怀疑人口是指没有充分证据表明其是否属于人口普查对象范围的居民。
作为额外增加的调查,建筑物普查尽管在一定程度上增加了调查成本,却是“西班牙组合普查”不可或缺的组成部分。大体来看,建筑物普查具有三项功能:一是获取更为精准的地理信息。PCF可以提供部分建筑物和住宅信息,却未覆盖近期新建、拆除的建筑物以及无法定位的建筑物的具体信息。通过建筑物普查,INE可以获取该部分建筑物的地理坐标、特征信息和住宅特征信息。二是提供更为精准的抽样框。由PCF中住宅、建筑物信息形成的抽样框尚未包括一定比例的应登记却未登记的建筑物,相应地,基于此抽样框开展的大型抽样框的信息准确性亦会受到一定程度的影响。开展建筑物普查为大型抽样调查提供了更为精准的建筑物分布地图,满足了建筑物信息可视化呈现的要求,提高了抽样调查信息的准确性。三是形成进一步的数据质量评估。建筑物普查能作为人口普查信息的一个补充渠道直接获取较广泛且质量相对较高的统计信息,更能通过普查信息与行政记录信息的比对,获得较可靠的未涵盖误差信息和过涵盖误差信息,对基于行政记录调查形成的统计信息予以质量检验。
为方便地理信息的实时参考,建筑物普查员将随身携带地图和电子路线笔记本。地图便于对建筑物的邮寄近似地址进行定位,亦可展示相关的字母数字信息。电子路线笔记本将提供一份有关领土元素的字母数字识别数据清单,也将提供一份有关建筑物内的房地产清单。普查员的实地考察路线遵循邮寄近似地址的字母数字信息目录(已被设计成一个软件)制定。对于那些可被定位的建筑物,普查员将采集其地理坐标信息;对于那些不可定位的邮寄近似地址,普查员则基于地图信息制定考察路线并进一步采集建筑物的地理坐标信息。在实地调查中,普查员应当基于不同的领土水平对普查每个部分的信息予以验证,如总体单位、道路、支架、邮寄近似地址、建筑物和建筑物内的房地产,补充行政记录尚未登记的建筑物信息、调整行政记录登记的错误信息,尽力使行政记录内容与实际情况一致。同时,对于每一个建筑物,普查员将填写一份建筑物问卷,详细记录建筑物的特征信息。由4 000名普查员和900多位管理员完成的建筑物普查,不仅为大型抽样调查提供抽样框B,更针对新入样的家庭和个人实施调查,补充了大型抽样调查的内容。通过建筑物普查,INE获得了一份包含所有建筑物地理参考坐标的清单、一份所有建筑物内含房产的清单、一个大型抽样调查的抽样框B以及相关建筑物与住宅的特征信息。
INE设定了大型抽样调查的三项目标:获取校准因子对基于PCF的人口总数初步估计值进行校准,获取校准因子对各城市的人口数进行校准,获取较详细的人口、家庭和住房的特征信息。为此,INE将由PCF中涵盖的住宅形成的抽样框视为“抽样框A”,并将所有住宅归为可定位住宅和不可定位住宅两类[注]所谓“可定位住宅”是指那些可根据邮政地址在实地考察中进行定位的住宅,而所谓“不可定位住宅”则是指那些不存在完整地址而无法定位的住宅。。接着,所有住宅被进一步归为主要住宅和非主要住宅两类。同时,考虑到PCF提供的住宅信息并不详尽,INE组织的大型抽样调查还包括了一个来自于建筑物普查的“抽样框B”,由全国范围内应该登记而未登记的全部住宅组成。
大型抽样调查的抽样单位是住宅,由住宅中的居民构成最终样本,最终样本覆盖所有城市。为提高样本的代表性,INE根据城市规模将总体分成15层,分别对各层、各层中的“可定位住宅”、各层中的“不可定位住宅”设定了不同的抽样比。为提升抽样设计效率,INE允许各城市统计局根据需要对设定的抽样比进行小幅调整。最终,住宅的总抽样比为11.9%,样本量为3 024 276户,居民的总抽样比为12.3%,样本量为5 797 425人,住宅样本和人口样本的具体构成情况如表2所示。2011年10月,INE先后发送了220万封信给入样家庭,要求其填写人口普查问卷,被调查者亦可选择通过网络填写问卷。对于无回答的家庭,INE将进一步提醒其是否需要一份纸质问卷或需要在线帮助。只有对经多次提醒仍未合作的家庭(约50%的入样家庭),INE才派调查员上门进行面对面的计算机辅助面访调查。从操作层面看,基于抽样框A的样本采用随机起点的系统抽样方式获取,而基于抽样框B的样本则按贝努里程序分配的等概抽样方式获取[12]。
表2 西班牙2011年大型抽样调查的样本构成情况
需要注意的是,上述抽样调查并没有包含居住在酒店、宾馆、旅舍等地的流动群体以及无家可归者的人口计数。对于这些流动群体,INE于2012年1月至3月间组织了独立的调查获取人口数。具体的做法是,预先编制一个组织机构的目录,使用样本对其进行综合研究。首先在每个小组内建立一个临界值,只有当小组人数超过这个临界值的情况,才被作为样本进行调查,获取各组住户的姓名、性别、年龄、出生地、国籍、住所一年前、婚姻状况、教育程度、妇女人数、经济活动和职业地位等信息。对于无家可归者,INE同样设立了单独的研究项目获取人口数。
尽管行政记录可以提供每个居民的居住地、性别、年龄等信息,但其中仍有2.2%的居民被视为怀疑人口,这是因为当前的行政记录没有充分的证据证明其在西班牙境内拥有常住地。据此,INE通过构造计数因子进而确定怀疑人口中确定人口的比例。引入计数因子对该怀疑人口进行估计是西班牙2011年“组合模式”人口普查的又一创新所在。
INE通过大型抽样调查结果对基于PCF得到的总人口数初步估计结果进行校准以形成对全部人口普查信息的估计,再将源于大型抽样调查的补充数据和校准数据,同来源于PCF的行政记录调查数据共同存储于数据仓库系统中,以避免“组合模式”人口普查多来源数据的不一致性问题。具体地,PCF为INE提供总人口数的初步估计,大型抽样调查资料主要用于提供各组人口总数、确定人口数等指标的估计。
(1)
(2)
其中,Si表示第i组中的确定人口数,Di表示第i组中的怀疑人口数,CFi表示第i组怀疑人口数的计数因子。鉴于更偏好对确定人口数而不是怀疑人数的估计,第i组确定人口比例为:
(3)
(4)
(5)
当对第i组所有怀疑人数分配相同的计数因子(CFi)时,第i组人口总数的估计值为:
(6)
(7)
(8)
Rodero-Cosano等(2016)基于各自治区视角,对2011年人口总数普查结果与2012年市(自治区)居民行政登记记录记录数、2011年人口总数普查结果与2001年普查的理论人口预测数、2011年人口总数普查结果与2001年MRI的理论人口预测数展开异质性检验。结果表明,2011年人口总数普查结果与2012年MRI记录数更为接近,2011年西班牙人口普查取得的普查结果数据质量较高[15]。
西班牙先后两次开展“组合模式”人口普查,积累了丰富的实践经验,值得我国在改革传统人口普查时有所借鉴。我们认为,值得借鉴的经验主要有以下几点:
首先,以国家人口基础信息库为中心形成我国“组合模式”人口普查前文件。2017年11月17日,国家人口基础信息库竣工验收。国家人口基础信息库的建成初步实现了对我国人口基础信息的统筹管理。我们认为,国家统计局应该以“国家人口基础信息库”竣工验收为契机,尝试开展以“国家人口基础信息库”为基础,以人口出生信息登记记录、婚姻登记记录、全国中小学生学籍信息登记记录等行政记录和劳动力调查信息等统计数据库为补充的中国“组合模式”人口普查前文件。我国“组合模式”人口普查前文件的形成不仅有助于我们对当前丰富分散的人口行政记录进行梳理、更新和完善,更为重要的是,它可以为我国“组合模式”人口普查的实施奠定良好的数据基础。
其次,以建筑物普查为辅助获取更为准确的建筑物及住户清单。INE通过建筑物普查,获得了一份包含所有建筑物地理参考坐标和一份所有建筑物内含房产的清单。这有效地降低了由于漏记、错记导致的覆盖误差。我国幅员辽阔,建筑物更新速度快,且存在很多违规房屋,不免存在漏记、多记、错记等诸多问题。因此,在开展人口普查前有必要组织建筑物普查,获取一份最新的建筑物、住宅清单,辅助后续人口普查的开展,从而最大限度地降低覆盖误差。
再者,以专项调查为依托获取行政记录调查未覆盖的人口统计信息。西班牙以PCF中包含的住宅为抽样框,综合使用分层抽样、系统抽样、随机抽样相结合的抽样方法,获得行政记录未覆盖的人口、家庭和住房等特征信息。比对我国行政记录数据资源和人口普查变量信息,不难发现,行政记录无法满足人口普查对于住房条件、就业状况等变量的信息需求。据此,可以尝试开展以国家人口基础信息库为抽样框,多种抽样方法相结合的方式获取住房条件、就业状况等变量信息。
最后,以改进人口统计指标计算方法和使用多类数据资料为途径提高输出数据质量。西班牙通过两个方面的工作提高人口统计信息质量。一方面,改进确定人口的计算方法。“西班牙组合普查”通过引入计数因子计算怀疑人口中确定人口的比例。就我国的实际而言,纵使近年来流动人口比例稍有下降,但人口的迁移流动仍然活跃,人口的重记、漏记等问题依然存在。开展主题讨论、专题研究,改进数据汇总、处理手段以及各类人口统计指标的计算方法,进一步提高人口统计数据质量;另一方面,综合使用多类数据资料获取更为可靠的数据信息。“西班牙组合普查”利用了大型抽样调查和建筑物普查两项数据资料对初步人口数据进行校准估计,有效提升了估计结果的可靠性,值得借鉴。类似地,在进行数据校准时,可考虑将行政记录数据源与其他数据源结合,如与劳动力调查数据源组合,对雇佣状态进行校准等。此外,挖掘商业交换数据、在线搜索行为数据等互联网大数据,也可构成一个新的数据来源途径。