李铁梅
摘要:本文采用组合回归模型对我国1978—2005年间城镇集体单位平均工资进行分析。利用数理统计中检验实验观测数据异常值的方法,对离群数据的误差进行统计上的显著检验,从而评估评估我国2006-2009年城镇集体单位平均工资的准确性。
ス丶词:城镇单位平均工资;组合回归模型;异常值检验;实证分析
1.引言
ソ几年,随着中国经济的不断发展,每年国家统计局都会公布本年全国的城镇职工平均工资。但数据发布后便引来了社会各界人士的广泛争议,普通老百姓更是表示没有感觉到工资的增长。由此引发了大家对统计数据质量问题的关注。统计数据的质量包含多种特征,而准确性是其中最为重要的特征。所谓准确性是指统计数据的估算值与目标特征值即“真值”的差异程度。本文从我国城镇集体单位平均工资数据出发,对统计数据准确性检验和分析的方法进行探讨。
2.文献综述
1938年,H. Wold 提出可以将离散平稳时间序列分为确定性和随机性两部分平稳序列之和,这便是现代时间序列分析理论的灵魂-Wold 分解定理。1961 年Cramer 证明了这种分解思路同样可以用于非平稳序列,这便是著名的Cramer分解定理。杨海山(2001)[ 1]建立了组合模型对统计数据的质量进行评估。卢二坡(2006)[ 2]从异常值的角度对数据质量进行评估是指通过各种统计和计量分析考察时间序列是否存在异常值。通过分析异常值存在的原因判断数据是否存在质量问题。刘洪、黄燕(2007)[ 3]在数据质量评估方面,即数据值与“真值”的差异程度方面他们与杨海山的不同之处在于运用了异常数据检验法。
3.组合回归模型基本思想
3.1模型概述
プ楹夏P,根据序列Y璽的特点,选取合适的函数形式拟合f(t),直到剩余序列μ璽可以用ARMA模型拟合。
3.2 数据质量的评估
セ本思路是:在模型通过各种检验、具有良好统计预测功能的基础上,比较模型拟合出的预测值与实际值,找出离群数据。
3.3 异常数据检验法
ナ紫雀据模型拟合出统计指标的预测值璱,计算误差百分率P璱
P璱=100%×Y璱-璱Y璱(i=1,2,…,n)利用Dixon准则,对于服从正态分布的n个数据P璱,按从小到大的排序, P(1),P(2),…,P(n)为顺序统计量。检验统计量根据样本量n以及可疑数值的位置和个数来选取,具体见Dixon检验临界值表。在给定显著性水平a下,查Dixon临界值表对应n的临界值D(a,n)。若D>D′,D>D(a,n)则可判断P(n)为异常值;若D′>D,D′>D(a,n),则可判断P(1)为异常值;否则,判断数据没有异常值。
4.对我国城镇集体单位平均工资数据质量准确性检验的实证分析
4.1 对我国城镇集体单位平均工资趋势性部分的模型模拟
ケ疚难∪1978-2005年间的W数据作为样本区间,对2006-2009年我国W数据的准确性进行分析。我国城镇集体单位平均工资按1978年不变价格换算后的调整工资记为W,如表1所示。
结果表示,2006-2009年四年的误差百分率介于13.25% ~30.59% 之间,而2006-2009年的误差百分率都大于12.8%, 2006-2009年的城镇集体单位平均工资误差百分率超过了历史的最高水平,因此认为是离群值。
5.对2006年-2009年误差百分率异常性的检验
ゲ捎肈ixon检验临界值表中D统计量的公式对这四个数据分别进行检验。
r2006=P(27)-P(27-2)P(27)-P(3)=0.132-0.06600.132+0.0798=0.31 r2007=P(28)-P(28-2)P(28)-P(3)=0.200-0.10000.200+0.0798=0.35
r2008=P(29)-P(29-2)P(29)-P(3)=0.242-0.13200.242+0.0798=0.34r2009=P(30)-P(30-2)P(30)-P(3)=0.305-0.20000.305+0.0798=0.27
ゲ镈ixon临界值分布表得r(a,27)=0.348,r(a,28)=0.342,r(a,29)=0.337,r(a,30)=0.332。即2006年与2009年的误差百分率为非离群值,而2007年与2008年误差百分率的Dixon检验统计量大于临界值,为异常值。
6.对组合回归模型适用性的评价及改进
ザ宰楹匣毓槟P驮谕臣剖据准确性检验作出评价,并提出改进应用的思路:
ナ紫龋组合模型用指标的预测值充当“真值”,鉴于“真值”的不可知性,然而,根据历史数据得到的预测值与真实值之间仍然存在着一定的差异,需要尽可能地缩小这个差异。其次,异常值检验法,检验到异常值就认为是统计数据的准确性存在问题,值得商榷。(作者单位:西南财经大学统计学院)
げ慰嘉南祝
ぃ1] 杨海山.统计数据质量评估的组合模型[J].统计与决策,2001,(7).
ぃ2] 卢二坡.统计数据质量评估方法评述[J].统计与决策,2006,(12).
ぃ3] 刘洪,黄燕.我国统计数据质量的评估方法研究——趋势模拟评估法及其应用[J].统计研究, 2007,(8).
ぃ4] 中华人民共和国国家标准.数据的统计处理和解释正态样本异常值的判断和处理