[摘要]职工平均工资是一个重要的指标,它既关系到了劳动者的自身利益,又是政府制定政策时的依据。本文介绍了探索性数据分析的主要特点,充分运用该分析方法对华东六省的职工平均工资进行描述性数据分析,绘制了箱线图,进行对称变换和匹配变换,排除局部的异常值干扰,重点关注了总体数据特征。
[关键词]探索性数据分析;职工平均工资;匹配变换
[中图分类号]G819[文献标识码]A[文章编号]1005-6432(2013)46-0099-02
1引言
探索性数据分析方法是一种新型的统计分析手段,近年来在许多行业得到了广泛的应用,并取得了明显成效。其强调了数据本身的价值,可以更加客观地发现数据的规律,找到数据的稳健耐抗模式,从而发掘出数据的隐藏信息。本文从职工平均工资的实际数据出发,利用探索性数据分析中的工具,直观地探索华东六省职工平均工资的规律,挖掘数据特征和有价值的信息。
2华东六省职工平均工资的描述性分析
职工平均工资指企业、事业、机关单位的职工在一定时期内平均每人所得的货币工资额。它表明一定时期职工工资收入的高低程度,是反映职工工资水平的主要指标。由于中国城市众多,各地经济发展水平有较大的差异,生活水平和生活质量也各有不同,为了缩小地理差异对研究数据的影响,得到较为准确和有意义的结果,这里只选用了2010年华东地区六个省的职工平均工资运用探索性数据分析方法做初步的描述性分析和研究,每个省选取了9个大城市。
为了更加简单直观地对比各个省市的数据,我们绘制了箱线图,如图1所示。对华东六省进行对比中,可以看到只有江西省和福建省是有离群值的,说明了这两省中存在着个别城市职工平均工资与同省其他城市相比特别大,其他几省的数据就不存在离群值。对于四分展布,可以得到大小关系,安徽>江苏>浙江>山东>福建>江西,可知安徽和江苏中城市的职工平均工资差异较大,福建和江西相比起来,则分布得更加集中。
图1华东六省2010年职工平均工资水平箱线图
综合对比各个省的中位数,可以发现江苏省平均职工工资水平最大,江西省最小,从经济上反映了地区经济发展差异,江苏紧靠上海,处在华东的中心,交通系统发达,同时,长三角江苏占了大部分,其靠海的地理优势给它带来了更多的经济发展机会,导致了职工工资水平中位数相差如此大。
同时可以直观地看出安徽省数据对称性最好,除了福建省数据呈现左偏趋势外,其他省都呈现右偏的趋势,其中江西省的数据最为严重,主要是受到了两个离群值的影响,为了使其更对称,我们运用探索性数据分析方法中的对称变换方法,在经过R软件的计算后,得到职工平均工资的对称性变换图,如图2所示。
图2江西省2010年职工平均工资水平对称性变换图
进行对称性变换后,运用R软件拟合曲线,得到:
由图3可以看出,在进行对称匹配变换之后,江西省的两个离群值消失了,数据变得更加集中,趋势也更加易于分析和研究。这样的数据会给分析带来便利,更加清晰和直观地表现出数据的本质特征。
图3江西省2010年职工平均工资水平匹配
3结论
使用探索性数据分析技术具有耐抗性和稳健性的特点,通过箱线图可以简单直观地看出数据间的差异,华东六省中浙江、江苏省职工平均工资较高,安徽、山东、福建省处于中间,江西省最低。安徽省的数据较为分散,同时数据比较对称,而江西省的数据有着极大的右偏性,在经过了对称、匹配变换后,仍然与华东地区其他省的数据有较大的差异,可能是由离群值太大造成的。
参考文献:
[1]李世勇,胡建军,熊燕,等2004年我国卷烟焦油量的探索性数据分析[J].烟草科技,2005(7):8-11
[2]王淑红,李英龙,戈保梁,等探索性数据分析在选矿中的应用[J].金属矿山,2002(7):22-27
[3]杨悦运用探索性数据分析探查考试数据的研究[J].辽宁教育行政学院学报,2009(5):63-67