一种消除变量间相关性的模型聚类方法

2016-12-20 03:31朱红灿陈星星
统计与决策 2016年21期
关键词:共线性教育经费财政支出

朱红灿,陈星星

(湘潭大学 公共管理学院,湖南 湘潭 411105)

一种消除变量间相关性的模型聚类方法

朱红灿,陈星星

(湘潭大学 公共管理学院,湖南 湘潭 411105)

欧氏距离条件下的聚类分析没有考虑指标间的相关性,基于模型的聚类方法存在多重共线性影响参数稳定性等问题,针对上述问题,文章在欧式距离条件下对变量间具有相关性的数据样本进行聚类分析时,先构建变量间相关性结构的回归相关模型,再通过差分分析对变量间的多重共线进行消除,然后做聚类分析。并以1996—2011年9个省份城市教育投入情况进行聚类分析,结果表明,给出的聚类方法是有效的。

相关性;聚类;差分分析;多重共线

0 引言

聚类分析就是将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。对象之间的“相似性”往往用欧式距离来刻画,但欧氏距离条件下的聚类分析没有考虑指标之间的相关性。指标间的相关性即2个或2个以上的指标具有相同因素,发生了重迭现象[1]。因而Q型聚类分析中应尽量消除变量间的相关性,否则将会由于指标的重复计算而直接影响到聚类结果的准确性。

学者们从不同角度对Q型聚类分析进行了深入的研究,王红睿[2]等学者针对截面数据对K均值聚类法进行了均衡化的改进,通过引入惩罚因子,限制过多的训练矢量集中于一个或几个类,使样本空间划分近似均匀。殷瑞飞[3]等学者基于Q型因子分析的基本思想,建立了一种适用于大型数据库聚类的方法,主要对Q型因子分析算法效率进行了提高。上述文献均对聚类方法的算法效率和稳定性进行改进,并没有考虑变量之间的相关性。王德青[4]等学者针对经典聚类分析和普通主成分聚类分析极端情形下的失效问题,引入主成分聚类分析法对指标间的相关性进行改进,但要求指标的相关性强且可解释性差。黄闽英[5]等学者则引入马氏距离法进行相似矩阵的构建,解决了变量之间的相关性干扰问题。如:已知一二维正态总体G的分布,求点和至均值的距离。如果用欧式距离则有,;用马氏距离=3.8/0.19,按欧氏距离,两者相等,而按马氏距离两者差倍之多。而由两者的密度函数可知,点A应离均值近,点B离均值远。马氏距离正确地反映了这一情况,而欧式距离则不然。但是,马氏距离的计算需要知道数据总体分布的数字特征,而大部分数据的分布特征(如均值、协方差矩阵)也是未知的。另一方面,采用全部数据计算得到的均值和协方差矩阵来计算马氏距离效果也往往并不理想,因此在实际分析中仍然倾向于采用欧式距离。魏瑾瑞[6]在欧式距离条件下,先对变量间的相关性结构建模(作为辅助信息),用模型的回归系数来体现变量的重要性,再做聚类分析,用以解决复杂结构生成的数据聚类问题。而多元线性回归模型经典假设之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,…,Xk中的任何一个都不能是其他解释变量的线性组合,变量间的多重共线性将使得模型参数估计值很不稳定,模型拟合效果不好,导致模型的错误构建,文献[6]的回归模型中并没有考虑变量间的多重共线性导致的参数不稳和模型拟合效果不好的问题,针对上述问题,本文先采用线性回归方法对变量间的相关性结构进行建模,然后采用滞后差分变换对变量间的多重共线进行消除,最后做聚类分析,以期提高变量间具有相关性数据的聚类效果。

1 消除变量间相关性的模型聚类方法

1.1 变量间相关性结构模型构建

设观测变量为(X1,X2,Y),且三个指标间存在相关关系。

建立模型:

一方面,自变量间的多重共线性使得参数估计值很不稳定,并且对样本非常敏感。另一方面,自变量间的多重共线性使参数拟合效果不好,导致模型的定型错误。由已知可知x1,x2共线,因而x1,x2不适合作为聚类分析的基础。而Y作为x1,x2的线性函数包含了x1,x2所有的信息,可以作为聚类分析的基础。

1.2 基于差分思想的变量间相关性消除

为了解决多元线性回归模型中变量间多重共线性导致的模型参数估计值不稳定和模型拟合效果不好的问题,必须对变量间的多重共线进行消除。消除变量间的多重共线性方法很多,本文采用滞后差分变换方法来消除变量间的多重共线性。

设有模型:

其一阶滞后差分形式为:

把式(2)简记为:

其中:

其中:

但是,对于大样本有关系:

1.3 消除变量间相关性的模型聚类方法

消除变量间相关性的模型聚类方法具体步骤如下所示:

(1)对变量间的相关性结构建模。设观测变量为(X1,X2,Y),且三个指标间存在相关关系,建立模型yt=β0+β1x1t+β2x2t+ut。

(2)采用滞后差分变换方法消除自变量间的多重共线性。一阶滞后差分形式简记为,使得之间的相关系数r*12»0,一阶差分后模型几乎没有多重共线性。

(3)对模型进行求解,计算出yt的值,如果拟合的辅助回归模型是恰当的,那么因变量作为自变量的线性组合实际上包含了这些自变量所提供的信息(线性表出)。

(4)最后用yt作为聚类输入变量进行聚类,得出聚类结果。

2 实例分析

为了验证方法的有效性,本文选取我国各个省份的教育投入情况进行实例分析。影响一个国家或一个地区教育投入的主要因素应该考虑该区域的经济发展水平,其次,由于目前教育投入特别是基础教育的投入主要还是依靠政府的财政支出,因而区域财政支出的规模及结构也会对教育投入产生较大的影响。本文选取经济发展水平、财政支出规模和教育经费三个指标来研究各个省份的教育投入情况。衡量经济发展水平的常用指标为GDP,财政支出规模可用地方财政一般预算支出来衡量,教育经费就可以直接用各省的教育经费表示。选取了9个省份1996—2011年的数据进行研究,数据来源于统计年鉴。将采用传统的经典聚类方法、文献[6]的基于模型的聚类方法和本文方法进行对比分析。

首先,采用传统的经典聚类方法对数据进行聚类,把数据导入spss20.0,得到数据集的聚类结果并没有明显的聚集特征,垂直地聚为9类(如图1),每个样本都只是自己聚为一类,显然这样的结果是不能令人满意的。

图1 经典聚类方法的聚类结果

其次,采用文献[6]的基于模型的聚类方法,由于教育经费受经济发展水平和财政支出规模的影响,所以首先建立这三个指标间的回归方程模型再进行聚类,得到的聚类结果如表1所示。

表1 文献[6]方法的聚类结果

从表1的结果看,除了广东聚为一类,其余省份都聚到一起了,聚类效果不明显。

最后,采用本文方法进行聚类分析。采用stata12.0进行数据处理。

先用回归模型建立教育经费与经济发展水平和财政支出规模之间的关系,其中求解的各省经济发展水平和财政支出两个变量间的相关系数如表2所示,表中各相关系数均接近1,说明经济发展水平和财政支出规模两个变量之间存在着一定的相关关系,应消除这两个变量的相关性,消除变量间多重共线性对聚类结果的影响。

表2 各省经济发展水平和财政支出两个变量间的相关系数

然后,把9个省份的数据分别导入stata12.0进行差分处理。再将差分处理后的数据导入进行回归方程模型求解,得出各省份在1996—2011年教育经费的拟合值,最终将拟合数据导入spss20.0进行聚类(采用K-均值)。得出的聚类结果如表3所示。

表3 本文聚类方法的聚类结果

由表3可知,聚类结果将江苏、上海、广东聚类一类,这与我国将教育投入分为北京、广东、江苏、上海一类,剩下省份为一类基本一致。最终的聚类的准确率如表4所示。

表4 三种聚类方法结果

由表4可知,本文方法明显优于经典聚类方法和文献[6]的方法,主要原因是教育经费受经济发展水平和财政支出规模的影响,经济发展水平与财政支出规模存在着一定的相关性,而经典聚类方法没有消除变量间的相关性,从而直接影响到聚类结果的准确性;文献[6]的方法意识到了变量间的相关性问题,尽管采用回归模型建立了教育经费与经济发展水平和财政支出规模的关系模型,但没有消除经济发展水平和财政支出规模之间的共线性,导致大部分信息重叠,影响了聚类结果;本文方法在教育经费与经济发展水平和财政支出规模的关系模型构建的基础上,运用差分思想消除变量间共线性之后再进行聚类,提高了聚类的准确性,也说明本文方法是有效的。

3 总结

聚类分析并不适用于所有类型或结构的数据,当数据的变量间存在相关性时,基于欧式距离的聚类分析便不再有效,可以通过建立相应的变量间相关性模型,用模型的回归系数来体现变量的重要性,再做聚类分析,但在结构建模时,自变量间的多重共线性使得参数估计值很不稳定,对样本敏感,容易导致模型拟合效果不好,因而本文先对变量间的相关性结构建模,再对模型自变量间的多重共线性进行消除,然后进行聚类,可以解决基于模型聚类中的变量间的共线性问题,实例也表明本文方法是有效的。

[1]李亮,吴瑞明.消除评价指标相关性的权值计算方法[J].系统管理学报,2009,18(2).

[2]王红睿,赵黎明,裴剑.均衡化的改进K均值聚类法[J].吉林大学报, 2006,24(2).

[3]殷瑞飞,朱建平.数据挖掘中一种新的聚类方法—基于对应分析与因子旋转[J].统计研究,2008,25(1).

[4]王德青,朱建平,谢邦昌.主成分聚类分析有效性的思考[J].统计研究,2012,(11).

[5]黄闽英,牟锐.对模糊聚类分析法的改进及其在SRM中的应用[J].计算机工程与科学,2011,(6).

[6]魏瑾瑞.一类基于模型的聚类方法[J].统计与信息论坛,2014,29(2).

(责任编辑/易永生)

O21

A

1002-6487(2016)21-0026-03

湖南省教育科学“十二五”规划课题资助项目(XJK012BGD008)

朱红灿(1976—),女,湖南湘潭人,博士,副教授,研究方向:信息资源管理。

猜你喜欢
共线性教育经费财政支出
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
2020年全国教育经费执行情况统计公告发布
黑龙江省人民政府办公厅关于建立2020年财政支出预算管控清单的通知
不完全多重共线性定义存在的问题及其修正建议
我国寿险需求影响因素的岭回归分析
管好用好粮食仓储企业职工教育经费
基于ArcGIS9.0-GeoDa059i的我国财政性教育经费投入空间差异性分析——以2008-2012年我国财政性教育经费投入为例
中央和地方财政支出及比重
2016年各省、自治区、直辖市财政支出完成预算情况