宋立京
(淄博市交通运输管理处,山东 淄博 255000)
在比较国民收入差距时有一个客观的统计指标,即用全国收入最高的20%的人均收入和最低的20%的人均收入做一个对比。这一比值的结果,中国是10.7,美国是8.4,俄罗斯是4.5,印度是4.9,可见我国的收入差距之大到了何等不合理的地步。①这也为我们重新认识和评价某些平均指标提出了课题。
究其原因,有些部门对统计数据处理后,致使某些平均指标与现实情况有很大差距。为提升数据利用价值,回归平均数本质属性,让平均数反映数据集中趋势是统计工作中的重要一环。
平均指标分为数值平均数和位置平均数。数值平均数包括算术平均数、调和平均数、几何平均数;位置平均数包括中位数、众数。平均数多数情况下是指数值平均数中的算术平均数。用公式表示:平均指标=∑各标志值/单位总数。中位数和众数也是描述一组数据的平均指标。将总体单位按标志值大小排列并平分为两部分,使得半数单位标志值小于这个数,另外半数单位标志值大于这个数,这个中间值就是这一组数据的中位数。当该组数据个数是偶数时,中位数是中间两个数的平均数;当数据个数为奇数时,中间位置的数就是中位数。比如,一组排好序列的数据1,2,3,4,5,6中位数是3.5,即(3+4)/2。当数据序列是1,2,3,4,5时,中位数就是3。众数,顾名思义就是一组数据中出现频率最多的、最流行的数值。比如,一商品实际售价可能经常变化,而成交数量最多的那个价位就是该商品价格的众数。在许多情况下,用中位数和众数表示给定总体的一般水平,更容易为大家接受,具有更强的说服力。
统计学中有“ 平均数不是数”的说法,意思是平均数只代表了这组数据的集中趋势,可能与任何个体都不一致,有时甚至悬殊很大。产生这种现象的原因有二:
第一,复杂的经济社会问题的统计资料调查整理过程中往往存在误差。“ 大数据②”时代已经来临,抽样调查成为目前统计调查中的主要方法。但是,抽样调查根据事先确定的误差允许范围由部分推断总体,调查过程中会产生误差。所以,许多经济社会问题统计调查的最终结果与身处其中的社会成员主观感受往往有差距。
第二,数据处理方法不当是造成平均指标不反映数据集中趋势的重要原因。计算平均指标时,算术平均数是最重要的形式。但是,该指标有它的缺陷,这是由指标计算方法决定的。计算一组数据算术平均数时,如果数据出现较大波动,极端数据会极大地影响平均值的代表性。比如,当数据序列为1,2,3,5,100时,算术平均数是22.2。稍加分析,22.2并不能代表序列中5个数的集中趋势。
为保证耗费大量人力物力财力算出的数据不至于成为无用数据,政府统计部门应与时俱进,做好以下工作。
一是科学理解平均指标的概念和应用范围。对于算术平均数、中位数、众数这三者的定义和特点、适用范围首先要搞清楚。自2011年2月起,国家统计局每月公布的所谓70个大中城市住宅销售价格变动情况时,就不再发布全国70个大中城市房价涨幅平均数,主要就是考虑到在样本值离散程度较大的情况下计算的平均数有很大误差,而且还容易引起不必要的误读。
其实,有些部门公布的城市平均房价很多情况下也与实际相差较大。这是因为,随着城市化步伐的快速迈进,原来的郊区甚至偏僻的村镇不断变为城区,纳入了城市房价的统计范围。而中心城区由于各种软件、硬件设施条件好,体现在房价上,就远远高于郊区。计算城市房价时,不考虑这个因素,就犯了忽视数据极端值,简单套用算术平均数公式的错误。
二是根据国情,对有关指标的计算方法进行适当调整。比如,城镇居民人均可支配收入指标是关乎每个城镇居民利益的重要指标,也是政府统计部门经常公布的指标,用以反映城镇居民的生活水平。计算公式是:城镇居民人均可支配收入=人均总收入-交纳所得税-个人交纳的社会保障支出。其实,这样计算出的数值只能算是账面上的实际收入,不能算是可支配收入。比如,城市居民每月都要支付一定的房租或房贷。对这部分人来说,他们的可支配收入必须是扣除房租或房贷后的余额。否则,计算出的结果就会偏大。
三是结合其他指标对平均数指标进行必要的补充说明。在计算一组数据的平均指标时,引入标准差、方差、基尼系数等体现数据差异程度的指标非常必要。如果差异程度大,说明平均指标不具有很好的代表性,需要考虑在样本抽取或是计算方面是否需要改进。
2009年,国家统计局改变了沿袭几十年的城镇单位劳动工资统计方法,将工资水平相对较低的私营单位正式纳入统计范围;2010年,又直接采用当地房地产管理部门的网签数据代替房地产开发企业直报数据。这些改进都可以算是抽样调查过程时更多地考虑到了样本的代表性问题,统计数据质量有明显提高。但是,这些工作还有进一步细化的必要。比如,公布城市房价时,对以下相关资料进行附加说明可能会使得结果更加让人信服。
1.抽样调查的高、中、低价位的楼盘价格分别是多少;
2.不同价位楼盘各占总楼盘数的多少比例;
3.计算方法是选择算术平均数还是中位数,抑或众数;
4.计算出的房屋均价的标准差是多少。
截至目前,平均指标仍然在经济社会统计中有广泛的应用,发挥不可替代的作用。但是,平均数有时并不代表“ 大多数”。正因如此,我们使用这个指标时要注意对计算结果进行校对和纠偏。经济发展和社会进步需要全体成员参与,让人民共享改革发展成果是我们的方向,也是一个让平均数变成“ 大多数”的过程。我们需要厘清平均指标的含义和适用条件,查找“ 平均数不反映集中趋势”问题的原因,并予以针对性解决,使平均指标变得更具有说服力,为反映各种社会问题提供真实的数据参考。
注释
①北京晚报,2014-12-22,中国国民收入差距达10.7倍 远高于美国俄罗斯》
②大数据:Big data,或称巨量资料,指资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理,成为帮助经营决策的资讯。
[1]黄良文主编.《统计学原理》.中国统计出版社,2000.6.
[2]梅长林,周家良编著.《实用统计方法》.科学出版社,2002.
[3]李强,王吉利主编.《统计基础知识与统计实务》.中国统计出版社,2005.6.
[4]刘飞编著.《高级统计师实务教程》.陕西人民出版社,2012.1.