谢裕军
(舟山市统计局普查中心/主任,浙江 舟山 316021)
透析人口普查数据审核的有效方法
谢裕军
(舟山市统计局普查中心/主任,浙江 舟山 316021)
数据质量是普查工作的第一生命线,而数据审核是确保普查数据质量的最终屏障。当前,数据审核存在未提前谋划、未编制专项审核程序等问题。建议拓宽数据审核的狭义范围,并提出了从夯实基础、细致审核、周密评估等三个方面来切实做好数据审核的若干有效方法和齐心协力、兵贵神速的审核工作要求。
人口普查;数据审核;方法
普查数据质量是普查工作的第一生命线。做好普查数据审核工作与抓好清查摸底、普查登记、确保原始调查数据质量是普查全过程质量控制的最为关键的两个工作环节,而数据审核是确保普查数据质量的最终屏障。只有确保了最终上报数据的高质量才能使普查工作立于不败之地。本文以舟山市第六次人口普查为实证,结合笔者本人的亲身实践和体会来探讨人口普查数据审核的有效方法。
狭义的数据审核仅指普查数据以手工或光电扫描录入到计算机后对数据内部存在的逻辑差错和合法而不合理差错进行查错改错的过程。笔者认为这样的认识太过粗浅,或者说是数据审核的范围太过狭窄。
数据审核应该泛指对与普查数据直接或间接相关的以计算机数据为表现形式的调查数据、编码、标准、汇总数据等的综合审核。
首先,数据审核区别于对清查摸底表、普查登记表等手工填表数据的人工审核,指的是对计算机数据或信息的审核。对于录入到计算机的摸底表汇总数据、手工快速汇总数据,则也可把它们列入到数据审核的对象范围,通过设置审核公式等来提高上报质量。
其次,数据审核至少包括三大方面内容。一是对与调查数据相关的分类、编码、标准等基础数据(信息)的审核,比如对普查区地址码、普查小区地址码、城乡划分码、舟山岛屿地址码的审核。二是对普查调查数据的逻辑审核、合法而不合理数据的审核,也就是传统狭义范围的数据审核。三是对汇总的综合性数据的审核,以确保最终数据的合理性、与经济社会发展趋势的吻合性。由于这三类数据都是以计算机数据形式存放在电脑里,因此可以采用计算机数据处理的相关技术,并结合人工质量评估的方法来做好对它们的审核。
当前,数据审核存在四方面问题。
1.未提前谋划,造成审核关系(公式)缺漏。往往在普查数据处理期间还多次反复修补审核关系,造成审核反复,引起基层怨言。
2.对难以用审核公式表示的审核关系缺少有效的审核方法,没有编制专项审核程序,导致数据审核不严格,存在盲区。
3.在方案设计制定时未从数据最终使用角度出发提前考虑综合指标数据的汇总公式和口径,导致指标设计有缺陷、综合指标数据难以有效汇总,影响了数据的汇总、评估和资料开发进程。
4.对地址码等分组、分类基础信息审核不够重视。如在数据光电扫描时才发现普查小区码库有遗漏、多余等。
对与调查数据相关的分类、编码、标准等基础数据(信息)的审核是数据审核的基石。
1.地址码和城乡划分码审核。首先,要设置严密的逻辑审核条件做好地址码库的机审。一是审核地址编码是否规范,如行政村的3位编码是否以“2”开头、普查小区个数是否等于小区的最大编码(判断是否连续编码、有无遗漏)、区划名称和编码有无重复等。二是审核城乡连接属性是否编错、是否与地址码相匹配,如某个小海岛乡镇下属村的2位连接属性编码不能以“1、2”开头,因为不可能与县级政府连接等;其次,根据民政等部门的区域信息来核查行政区域有无遗漏、撤扩并区域及相应的城乡划分码有无调整等;再次,要把新的地址码库与上年的统计地址码库进行比对,对每一项变动都要仔细核查,确保万无一失。
2.统计标准的审核。一般而言,尽量要直接取得已被多次使用并证实是正确的标准化电子文档或数据库表,如农普、经普中已经使用过的行业、职业码表。但有时因某些原因难以获取,就要根据书籍、教材等通过人工录入来构建电子化码表,而方法主要是采用人工审核,辅以计算机逻辑关系审核。
3.自增分类等其他基础信息的审核。如舟山为了出份岛屿的人口资料,就必须增设岛屿地址码库。同样,也要通过设置逻辑审核条件和人工评估来做好审核。
对普查调查数据的逻辑审核、合法而不合理数据的审核,也就是传统狭义范围的审核,是数据审核的主体。人口普查将之称为编审净化。
1.细致认真,精心研究设置(增设)审核关系。上级审核关系不全面、不严密,在历次普查中或多或少存在,导致上下需要进行多轮审核,即使如此还常常需要进行集中会审。因此,作为地方各级普查办,要在研究国家程序审核关系基础上,尽早研究,进一步完善逻辑审核关系,尽力做到严密而不遗漏。
一是完善指标取值范围和指标之间、表表之间的审核关系。如“户主的父母、岳父母、祖父母、媳婿的婚姻状况不能填未婚”、“本科以下在校生有过婚姻,请核实”、“离开户籍地原因为‘婚嫁’而婚姻状况为‘未婚’,有冲突”等。对于户主底册住房情况录入数据,由于国家下发的程序中几乎没有逻辑审核关系,笔者对此就增补了十余条审核关系。
二是增加记录总数遗漏或多余等检查的审核关系。如在人普短表审核中,由于此时长表还未扫描,因此应增加审核关系:“短表最大正常户编号(编号600以下户)大于等于正常户户数的92%时,请检查长表抽样比例是否正确。”实际有些小区长表抽样错误,比例远小于8%而不是规定的约10%;有些小区对长表户同时又填报了短表;有些小区没有抽取长表。对于这些情况通过设置关系就能查出错误,而有些地区未设置该关系,导致后来长短表冲突,影响上报质量。
三是增设针对本地实际的审核关系。如:“舟山户籍50周岁以下妇女存活子女人数超过2人,请核实”,对生3个孩子及以上妇女家庭要核实,看是否有双胞胎之类。
2.创设过渡表进行审核。数据记录间的相互关系,有的可以用一条逻辑审核关系来实现审核,如“户主的配偶有2个及以上”、“户主父母有3个及以上,或父母的性别相同”,用一条SQL语句还是可以检查的,而有些就比较困难,如“岳父母或公婆,与户主子女的年龄相差小于30岁”。对此,笔者通过编制小程序来产生一张“家庭成员关系表”,把家庭成员之间的关系以多条记录形式一一罗列,再对这张过渡性的“家庭成员关系表”设置逻辑审核关系,对成员关系的所有审核就迎刃而解了。
3.编制专项检查程序。有些审核,靠几条审核关系是难以实现的。如户籍少数民族人口的正确性问题,对此笔者专门编制了一个与公安户籍人口库进行对比检查的专项程序,产生对比不一致的人口清单并交付基层核查。
4.人工审核与机审的结合。人普长表行业、职业编码的审核,不能像经济普查那样根据主要业务活动来审核,因为对应的文字虽经扫描但并没有识别入库。对此,可用三种方法来做好审核:一是利用某些行业码与职业码互有冲突、不能成对出现的情况设置相应的逻辑审核关系;二是把行业码、职业码配上行业标准和职业标准的文字信息,组织人工进行审核;三是根据人工审核后错误的行业、职业组合构建一张错误组合码表,设置一条逻辑审核关系判断行业职业组合是否在其中,是的话就需要核查,以此来避免数据修改后的人工多次复审。
对汇总的综合数据的审核,包括数据之间的逻辑审核和质量评估,应以确保最终数据的合理性和与发展趋势的衔接性,这是数据审核的最终屏障,也是把好质量关的重要一环。
逻辑审核就是判断经汇总得到的综合性数据之间有无逻辑矛盾和互相冲突的地方,可以依照前述方法通过设置检查公式和人工审核相结合的方法来审核。当数据间冲突时,要判别是因为口径不一致还是汇总程序或汇总公式错误引起,及时向上级反映,如果是自行编制的程序就修正程序。
质量评估,就是要评估各类人口大数、人口结构数据、综合指标数据是否符合本地实际,与经济社会发展趋势、有关部门行政登记数据、前次人口普查数据等是否吻合。重点做好六方面评估工作:一是常住人口、外来人口、现有人口、家庭户规模、城镇化水平等是否符合发展趋势;二是户籍人口、户籍人口的年龄性别结构、户籍少数民族人口与公安部门户籍登记数据是否吻合;三是年龄结构、性别结构、受教育程度相对“五普”数据的延续性,异动点判断是否受到外来人口结构的较大影响;四是出生、死亡人口数据与民政、卫生、计生等部门数据的吻合性;五是人口自然增长率、就业失业率、劳动参与率、少数民族人口、人口平均预期寿命等的合理性;六是这些综合数据的地区间差异是否正常。质量评估主要依靠人工审核和判断评估,辅之以专门编制的汇总小程序、汇总公式、数据图表(如男女人口金字塔、年龄性别结构曲线、城镇化率直方图等)来完成。
1.充分认识,上下齐心。省、市、县区、乡镇街道等各级人普机构要切实增强对数据审核重要性的认识,上下齐心、步调一致;人普办领导、业务和编码组、数据处理组要形成合力抓数据审核,确保普查数据上报质量。
2.统计与计算机专业人员的紧密结合。复杂的逻辑审核关系,要全面、严密设置到数据处理程序中或自行编制专项检查程序,就必须做到人普办内部统计(普查)专业业务人员与计算机数据处理技术人员的紧密结合,互相配合。
3.兵贵神速的工作作风。逻辑审核关系一定要提早研究,有些指标、指标间关系、表间关系甚至在方案设计过程中就要熟悉精通。普查表式一旦定案,就要及早确定逻辑审核关系,力争全面而严密。同时,在工作中要抢抓时间,提早开展一些必要的工作。如普查方案规定死亡表扫描时间与普查长表一样放在第二批,由于死亡表数据与短表的户信息有非常密切的联系,因此舟山提早进行死亡表的光电扫描,在舟山普查伴侣程序中设置短表与死亡表之间的逻辑审核关系进行数据审核,提高了舟山普查短表上报的数据质量,赢得了主动。
10.3969/j.issn.1674-8905.2011.11.023
张巧燕)