陈海侠
摘要:一定年龄尾数数据的观测值与真值相比存在的偏离就称作人口统计数据系统误差。此文针对以往人口统计的检验方式展开分析研究,并指出其中的缺陷,且提出新型檢验手段,使用其对广义人口函数的年龄变动系统误差进行检测,能够判断传统检验手段无法判断的存在散失以及年龄积聚之类的数据信息,此种方法与以往检验手段相比是有较大优势的。
关键词:人口统计;数据检测;系统误差分析
数据属于人口统计中非常关键的条件因素。因此,保障其质量是非常重要的。必须针对数据质量以及误差进行明确认识的基础上,才可以从数据当中获得最准确结论。人口数据一般都是统计得到的,所以难免会有误差存在,通常能够分成系统误差、过失误差以及随机误差。此文主要对系统误差进行分析。
一、空间信息与人口信息
人口信息主要指的是和人相关的人口质量、数据和人口结构之类的数据信息。空间信息指的是将地球表层现象借助数学抽象用符号化语言来表达处理。人口数据具备显著的时空特征,必须将人口信息和地理空间信息有效结合起来,若是行政区域出现改变,才可以精准反映在变化之后该区域人口信息。这样,同一地区不同时间人口数据具有可比性,最终才可以把人口数据和其余社会经济要素的统计数据展开综合性研究。人口统计信息一定要添加空间分布信息才可以称作和现代经济以及社会发展水平适应的人口信息。且空间信息能够在相关边界区域内提升任意数量属性数据,比如:人口性别年龄的分布,文化组成,民族组成,职业组成,行业组成,婚姻情况以及流动人口情况之类内容,进而对不同特点的人口分布与变化进行灵活制约,使得政府决策,地区规划,城市管理以及企业市场分析能够有据可依。
二、人口数据空间方法介绍
人口统计数据和空间特性相互连接,依照研究问题需求,其连接具有全局以及局部性方案。其中全局方案就是将该趋于视为“均质”性地区,而如此一来人口统计数据就可以表示为此区域平均值。局部方案就是在各个“均质”区域人口内部分布都不断变化,这便表明,我们必须依照统计数据针对人口实际的分布状况展开模拟又或是近似表现出来。全部的这些都必须做好人口统计数据空间分析。统计数据的空间化本质在于依据地理空间信息数据结构实现统计数据再组合以及有效化管理,属于完成多种统计数据和地理空间数据的匹配,从而针对附着到区域上的相关统计数据怎样变化展开模拟的一个过程。
三、人口数据系统年龄错误研究
数据系统误差特征在于观测值一直朝着同一方向进行偏差,其误差大小以及符号进行重复观测时大体一致。人口年龄数据系统误差具体表现为特定年龄上(比如:一个偶数,0和5是其尾数)人口函数观测值超过或者低于其实际值。这种误差是广泛存在所有以年龄作为自变量人口函数之中的。
人口统计学通常借助人口年龄统计数据质量评估手段,此文称作指数方式,一般依靠迈耶尔指数,惠普尔指数以及联合国的综合指数。此种指数法是先要建设起年龄有均匀变化的一个人口,将其作为标准,针对研究对象人口以及标准人口的年龄结构展开对比,将两者的离差视作具体的尺度,对人口年龄数据的精准性进行判断,针对质量较低数据来指出什么年龄尾数人口存在集聚又或是散失。迈耶尔指数法以及惠普尔指数法仅适合对人口年龄结构进行检验,对于广义人口年龄数据适不适合的。而联合国综合指数是通过整体对人口的年龄性别变化的平稳性进行判断,然而无法对某尾数年龄堆积进行判断,因此在这里是不进行讨论的。为了使得人口年龄数据系统误差具有直观印象。具体针对某省份女性年龄结构展开分析。
①女性的人口年龄结构(见图1)
对图1进行观察能够清楚了解到,0、5、8结尾年龄,其人口要显著多于其左右的年龄人口。对于出现于人口集聚在一些特定尾数年龄的情况我们就称作人口堆积。
现时人口年龄结构,属于历史人口自然变动还有社会变动共同导致。如果在历史上人口变动不属于周期性变化,那么年龄人口数便不会每间隔5个年龄以及10个年龄存在一个高峰期。
②1999~2010的人口存活率(见图2)
我们再了解根据两次普查人口进行的存活率误差计算。
图2为1999~2010年的两次人口普查dRx数值,我们为方便观察的更加明确,所以上图仅对部分的年龄段进行选取。若是两次人口普查人口年龄数据保证准确的话,那么存活率就是NRx。并且属于均匀变化。dRx数值应当是依据一定方向进行稳定变化,就算人口普查与抽样调查人口年龄数据存在误差,若是随机性的,不存在年龄尾数指向,则dRx数值同样应当随机波动。然而对上图记性观察能够了解到,dRx数值变化是不稳定的,属于上下波动的,而且此类波动并不随机,存在显著规律性:如果x为奇数,dRx>0,如果x为偶数,dRx<0。另外一种说法是:如果x为奇数,NRx>0.5(NRx-1+NRx+1),如果x为偶数,NRx<0.5(NRx-1+NRx+1),因此属于系统误差。
以上情况表明,从1999~2010的两次普查数据中得到存活率观测数值,奇数年龄的时候要高于存活率实际值,偶数年龄要低于存活率实际值。出现此种状况,能够设想在两次人口调查之中最少一次调查中的一些年龄尾数存在人口的集聚以及散失问题,其中可能会两次调查之中都有人口集聚或者散失,还可能仅为其中的一次,若是仅其中的一次调查存在质量问题,则还应当了解上一次的调查质量或者是之后调查质量。
因为人口数据的改变程度存在差异,有关人口的年龄曲线形状以及方向影响是不同的。通常而言,人口数据出现变化的时候(在某一年龄存在积聚或者散失),首先改变其形状,再改变其方向,因此,进行实际的数据检验之时,会出现误判问题,为了避免出现误判问题,我们还应当思考人口数据的性质又或是与其余数据结合进行思考。
四、人口函数年龄变化的符号分布检验
此文提出了对人口系统误差进行判断的一种新手段,此手段适合广义人口函数年龄变化系统误差的判断,我们称作为符号分布检验法。在这里广义的人口主要包含迁移、生育、婚姻以及死亡之类。对于将年龄视作自变量的人口、死亡以及生育之类函数全都称为人口函数。
人口函数的年龄变化符号,假使年龄是自变量x,而人口属于年龄函数,具体用Y(x)进行表示(x取0,1,2,…),而Y(x+1)-Y(x)就属于Y(x)于x中的一阶差分。设DYx=Y(x)-(Y(x-1)+Y(x+l))/2用其对x年龄人口和两边年龄人口平均值之间差值进行表示。如果Yx>0,就说明Y扭)数值在x中呈现增长趋势,这时曲线提升。如果x=0,就说明Y(x)于x时数值超过两边年龄的平均值,函数曲线属于凸状,如果DYxS的时候,以上假定是否定的,相反以上的假定就是肯定。如果假设肯定,就判定异常属于随机出现,对象人口数据并不具备特定年龄尾数指向。如果假定是否定的,就判定因为报告特定年龄尾数指向而导致。
五、结束语
此文方式必须一定基础,假使人口年龄曲线的变化形状与方向特征符号于各年龄之中属于随机分布,如果假设是肯定的,数据不具备特定年龄尾数指向,相反就判定具备尾数指向。作者进行过相关验证,只要采取以往的指数法能够判断出的积聚与散失人口数据,应用此文手段也是可以判断出来的。而采取以往的指数法判断不出来的,采取此文提到方式能够判断出来,所以表明此方法与以往方法相比更加有效。因为此文方法必须概率判断作为基础,进行实际数据检验的时候,会有出现误判的可能性,为了防止误判现象,还应当考虑到人口数据性质以及与其余的数据结合进行考虑。
参考文献:
[1]黄容庆,曾学伟,王建志.人口分析技术方法[J].北京经济学院出版社,2014,17-28.
[2]乔肖淳,孙晓龙.浅析年龄结构检验指数应用到中国的局限性[J].人口数据分析方法及其应用.中国外文出版社,2014,13-27.
[3]翟真吴,姜振兴,刘晓涵.常用的人口统计公式介绍[J].中国人口出版社,2014,28-32.