山东省泰安市第六次人口普查年龄数据检验

2014-04-29 13:56刘少敏刘德鑫
中国集体经济·下 2014年3期

刘少敏 刘德鑫

摘要:数据质量对于科学研究具有重要意义,为了解数据质量的优劣,本文运用国际上通用的指数检验方法,对山东省泰安市第六次人口普查的年龄数据进行检验,得出了其数据符合要求的结论,同时对存在的问题进行了分析和修正。

关键词:年龄偏好;惠普尔指数;迈耶斯指数;联合国年龄-性别准确性指數;指数检验

举世瞩目的第六次人口普查已经结束了,从中央到地方,各级人口统计数据都已陆续公布。通过人口普查,可以获得我国在新时期最基本的人口数据和有关社会经济资料,反映我国在人口领域的基本国情和国力,其数据是进行科学研究的重要源泉和财富。然而,如果普查数据的质量存在问题,无论计算多么精确,都将会产生错误的结论,造成严重的后果。因此,在人口普查中,作为最基本的年龄数据,其准确性至关重要。

在人口普查过程中,由于存在文化素质、风俗习惯、宗教信仰等多种因素,年龄数据的准确性经常会受到影响。例如,有些人对年龄有忌讳或偏好心理,而不愿意申报自己的真实年龄;有些人由于自身利益的关系,常常会瞒报或虚报年龄;还有些老年人常常会夸大自己的年龄,以增加社会对自身的尊重程度。凡此种种都会造成某个特定年龄人口数的增加或减少,使整个人口年龄数据发生偏离。这种偏离真实年龄的心理倾向在人口统计学中称为年龄偏好。年龄偏好会导致人口数在年龄分布上引起不真实的波动,有的年龄组上的人口数比实际人口数要多,有的年龄组上的人口数比实际人口数要少,从而形成年龄堆积。为了检验年龄数据的准确性,本文通过国际上常用的指数方法,包括惠普尔指数、迈耶斯指数和联合国年龄-性别准确性指数,对山东省泰安市第六次人口普查的年龄数据进行准确性检验与分析。

一、惠普尔指数检验

惠普尔指数是检验年龄偏好的一种常用指数,由于父母和儿童对年龄的记忆比较准确,偏好的现象一般较少发生,因此这种方法较多的用于检验成年人,特别是对老年人口的年龄偏好。在中国,主要用于对0和5结尾的年龄进行检验。国际上,惠普尔指数计算的年龄区间为23~62岁。而我国公民的成年年龄为18岁及以上,同时我国人口的人均预期寿命已经大大提高,考虑到实际情况,在这里我们把年龄区间稍微扩大,定义为18~72岁。惠普尔指数既可分性别计算,也可按总人口计算,其计算公式为

W1(0,5)=■×100=■×100

惠普尔指数的实质是测定在所选年龄中,以0或5结尾的人数为总人数的几倍。其变动范围在100~500之间:惠普尔指数等于100时,表示完全没有年龄堆积现象;大于100小于110时,表示人口数的年龄分布平滑,基本没有年龄堆积现象;在110和130之间时,表示可以接受;大于130时,表示人口堆积现象严重,不可接受。

分析表1可以发现,总的惠普尔指数仅为101.27,男性惠普尔指数是101.68,女性惠普尔指数是100.86,都处于比较低的水平,且女性比男性低,表明泰安市第六次人口普查数据中以0和5为尾数的年龄分布平滑,没有年龄堆积现象。

由于惠普尔指数是以年龄段里各年龄组中的人口数相等为假设前提的,实际上,由于死亡率的影响,在每个年龄段里以0为尾数的人数必然大于以1到9为尾数的人数,每个年龄段里各年龄组中的人口数相等的情况非常少见,那么仅计算以0或5结尾的年龄有无年龄堆积现象是不够的。

二、迈耶斯指数检验

迈耶斯指数克服了惠普尔指数的缺陷,它能检验尾数从0到9的所有年龄组有无年龄堆积现象。其年龄区间定义为10~99岁,既可分性别计算,也可按总人口计算。其步骤如下。首先,在年龄区间10~99岁内分别取以0,1,···,9结尾的各年龄组人口数相加,得①栏数字。同理,分别取20~99岁内年龄尾数相同的各年龄组人口数相加,得④栏数字。其次,上述两栏的人口数分别乘以相应的系数,得加权后的人口数。①栏的权数分别是1,2,···,10;④栏的权数分别是9,8,···,0,即③=①×②,⑥=④×⑤。再次,计算所有的混合和及各混合和在混合和总数中的百分比,分别得⑦栏和⑧栏中的数字。最后,计算迈耶斯指数。用各混合和百分比与10%之差的绝对值总和,再除以2,得

M1=■

式中,分子表示各混合和百分比,即第⑧栏中的数据与10%之差的绝对值总和。

迈耶斯指数的值在0~90之间:数值若为0,代表各个年龄组都没有年龄堆积现象;小于10时,表明人口年龄分布平滑;数值在10与20之间,表示可以接受;数值大于20,表明年龄堆积现象严重;若为90,则代表所有人口的年龄都堆积在某一尾数的年龄上。具体数据见表2和表3。

计算结果显示,M1=2.22,即泰安市总人口数据的迈耶斯指数为2.22。如果将表2的数据按性别分开,再按照表3的方法分别计算,可以得出,泰安市男性人口的迈耶斯指数为2.35,女性人口的迈耶斯指数为2.08,都处于较低的水平,表明泰安市第六次人口普查数据中所有人口的年龄分布平滑,没有年龄堆积现象。

三、联合国年龄-性别准确性指数检验

该指数简称为联合国综合指数,它既可用于检验在任何一个年龄组上因年龄错报而产生的年龄堆积现象,又可同时检验因为年龄堆积而造成的不同年龄组间的性别误差。其年龄区间定义为0~74岁,按5岁一组共分为15组。计算步骤为如下。首先,计算各年龄组性别比,再求其与相邻组的性别比之差。其次,分性别计算各年龄组的年龄比,再求各年龄比与100之差。再次,分别计算性别比之差的均值,男性各年龄比与100之差的均值和女性年龄比与100之差的均值。最后,用公式计算联合国年龄-性别准确性指数。联合国年龄-性别准确性指数=3SP+ARm+ARf。

该指数是判断年龄、性别数据合理性的综合指标,一般低于20为好,20到40之间为中,40以上为差。具体数据见表4。

按上述方法计算,2010年山东省泰安市联合国年龄-性别准确性指数为46.18,超过了40,属于不可接受的范围。

四、相关结论矛盾的人口学分析

通过前面的计算可以发现,运用惠普尔指数和迈耶斯指数进行检验,山东省泰安市第六次人口普查年龄数据的质量都较好,而运用联合国年龄-性别准确性指数计算的结果则较差,这到底是什么原因呢?通过对表4中人口数据的分析我们发现,不管是男性还是女性,它们在5~9岁组、20~24岁组和40~44岁组的人口数都明显地多于其相邻组的人数,这表明山东省泰安市人口年龄结构的波动性较大,而且不太规则。对于联合国年龄-性别准确性指数而言,只要有不规则的存在,该指数就会反映出来,不规则的程度越大,指数值也就越大。而惠普尔指数和迈耶斯指数所检验的不是实际年龄结构的不规则,而是每隔五年或者每隔十年存在的周期性波动。山东省泰安市人口年龄结构的不规则并不具有明显的周期性规律,所以,惠普尔指数和迈耶斯指数的值就比较小,从而联合国年龄-性别准确性指数的数值也就比较大。

五、联合国年龄-性别准确性指数的修正

既然是由于人口年龄结构的原因造成山东省泰安市联合国年龄-性别准确性指数结果出现偏离,那么我们能否进行修正呢?经过分析我们发现,相邻两个年龄组性别比差值较大的有5~9岁、20~29岁和65~69岁这三个年龄区间。65~69岁是老年人组,由于老年性别比呈递减状态,该年龄组性别比有较大程度的降低,这是比较正常的;5~9岁是2000年以后出生的儿童,受龙年生龙子、第四次生育高峰和传统生育观念的影响,出生人数和性别比都有较大波动;至于20~29岁组的性别比差值大,笔者认为,他们都是在20世纪80年代出生的,是由于计划生育在农村的推广普及和第三次生育高峰的双重作用共同造成的。

比较而言,相邻两个年龄组年龄比值之差的表现更加明显。由表4可以发现,老年组的波动已相对减缓;5~9岁组的差值也不是最严重的。无论男性或女性,其年龄比与100之差在16以上的只有15~29岁这三个年龄组。应该看到,这些差值是与前后两个年龄组人数进行对比后计算出来的,其中20~24岁组的人数两次作为分母,一次作为分子,凡是涉及这一年龄组的比值之差,都居于遥遥领先的地位,可见它带来的影响是非常明显的。为了排除这一因素的干扰,必须进行修正。我们假定20~24岁组的人口数与前后两组的均值相等,计算表4中10~34岁的有关数据变化如表5所示。

联合国年龄-性别准确性修正指数=3SP+ARm+ARf=3×2.60+9.87+10.25=27.92

按照经过修正的数据计算,联合国年龄-性别准确性指数是27.92,回归到可以接受的范围之内。

六、结论

综上所述,由于联合国年龄-性别准确性指数是以5岁分组的年龄结构均匀分布为前提的,其假定与惠普尔指数和迈耶斯指数的假定存在一定的差异,人口年龄结构的不规则波动造成联合国年龄-性别准确性指数较高。经过修正以后,其指标回归到可以接受的范围之内,与惠普尔指数和迈耶斯指数的结论相一致。总体而言,经过使用国际上通用的指数方法进行验算,山东省泰安市第六次人口普查年龄数据的质量符合要求,可以作为有关部门制定政策、編制计划、进行人口分析和预测的依据。

参考文献:

[1]查瑞传.人口普查资料分析技术[M].北京:中国人口出版社,1991.

[2]翟振武.现代人口分析技术[M].北京:中国人民大学出版社,1988.

[3]乔晓春.中国人口普查研究[M].北京:中国人口出版社,1995.

[4]查瑞传,曾毅,郭志刚.中国第四次全国人口普查资料分析[M].北京:高等教育出版社,1996.

[5]翟振武.人口数据分析方法及其应用[M].北京:中国外文出版社,1992.

[6]翟振武,刘爽,段成荣.常用人口统计公式手册[M].北京:中国人口出版社,1993.

[7]温勇,尹勤.人口统计学[M].南京:东南大学出版社,2006.

[8]黄荣清,肖周燕.人口年龄结构数据异常的检验[J].人口与经济,2009(02).

[9]黄荣清.人口统计数据系统误差的检验[J].人口与发展,2010(01).

[10]任杰,林国钧.贵州省第五次人口普查数据的评估与检验[J].贵州大学学报(自然科学版),2003(02).

(作者单位:泰山医学院管理学院)