王芳
摘 要:本文运用R软件对重庆市各区(自治县、市)国民经济主要指标进行分析,最后根据分析结果,将这这些地区分为了四类。
关键词:判别分析;国民经济主要指标
聚类分析和判别分析都是根据对象之间的距离远近对对象进行归类,但二者之间的不同点在于,在聚类分析中,一般事先不知道应该将数据分为几类,完全根据数据来确定;而在判别分析中,至少有一个已经明确知道的类别的“训练样本”,利用这个数据,来建立基本的判别准则,并通过预测变量来为未知类别的观测样本进行判别分类。
1 判别分析
采用重庆市各区国民经济主要指标作为原始数据,并利用快速聚类后各区分类结果进行判别分析,得到判别函数,具体结果如下:
上表是分类统计量的表格,包括各个类别以及总和的未加权和加权的有效值。
2 结论
在使用SPSS时设置各组的先验概率均相等,由于分为了4个组,因此先验概率为0.25。另外还给出了参与分析的未加权的和加权的个案数。
上表给出的分类函数系数是贝叶斯得分系数,使用的是贝叶斯原理而不是fisher原理。在SPSS中,也是使用这个系数来计算得分的,如果想利用fisher判别方法就要用表中的系数来计算得分。将自变量的值与上表中系数相乘,哪类得出的值大就属于哪一类。例如,将重庆市江北区作为待判数据,将江北区的人均GDP,工业GOV,消费TRS,IBFR,YEDBFI分别和上表中对应项相乘,在于对于的常量相加,就可以得出一类的得分,将四类的得分都计算出来,比较大小,得出第四类得分最高,因此江北区属于第四类经济区。
[参考文献]
[1](美)约翰逊(Johnson,R.A.).实用多元统计分析.清华大学出版社,2008.
[2]薛毅.统计建模与R软件.清华大学出版社.