投影寻踪Robust主成分在经济评价中的应用

2019-09-27 04:26王玥孙德山
中国集体经济 2019年7期
关键词:经济评价聚类分析

王玥 孙德山

摘要:选取2017年辽宁省14个城市的相关经济数据,首先对数据进行归一化、标准化处理,然后进行投影寻踪分析、主成分分析和Robust主成分分析,并根据降维后的数据进行聚类分析,观察各个城市的经济发展状况。根据投影方向,对各个影响因素进行分析,为经济发展提供参考。

关键词:投影寻踪;Robust主成分分析;聚类分析;经济评价

改革开放40年,中国逐步走向了富强的道路,社会发展水平和综合实力不断提高,生活水平也不断提高。但是,由于不同地区发展受到自然条件、人口、位置、资源的影响,不同地区出现了发展不平衡的问题。如何正确的、客观的评价地区发展情况,了解各个地区的发展价值成为了人们的研究对象。

投影寻踪(project pursuit)作为70年代中期发展起来的一种用来分析和处理高维观测数据的技术,可以有效的把高维数据投影到低维子空间上。投影寻踪可以排除与数据结构无关的或关系很小的变量的干扰,通过分析低维空间的投影特性来研究高维数据的特征,是一种处理复杂问题的统计方法。文献建立投影寻踪模型,对2004~2014年的全国各省经济转型做出研究。文献通过投影寻踪分类模型对地区节能消耗程度做出了评价。

主成分分析作为重要的降维方法之一,被广泛用于各个领域,它通过一个线性变换,将数据变换到一个新的坐标系统中。主成分分析保持数据方差最大化,并提取相应的贡献特征,这些特征可以尽可能的保留较多的原始数据的信息。

一、投影寻踪模型构建

投影寻踪的基本原理是将高维数据通过一定的线性组合,投影到1~3维子空间上,通过构建指标函数,并寻找指标函数的最大值来计算最佳投影方向。在低维空间进行分析,以达到研究高维数据的目的。具体步骤如下:

1. 为了消除量纲性的影响,对指标进行归一化,对越大越优的指标有

其中,Xmax(j)和Xmin(j)为第j列指标的最大值和最小值,X*(i,j)为指标数值,X′(i,j)为归一化后的序列,将X′(i,j)进行标准化处理,即

其中,Ez为z(i)序列的均值。本文通过投影后的数据,进行主成分分析,Robust主成分分析,并对结果进行分析。

二、Robust主成分分析介绍

Robust是把Robust统计的思想与多变量分析方法相结合,使多变量分析方法出现的统计量具有稳健性。而主成分分析通过分析少数主成分,来掌握和维持数据的结构,将少数主成分代表数据中的所有变量。但是,在实际过程中,数据中往往存在一定的噪声点,因此,Robust主成分分析被广泛使用。

根据投影的低维度和噪音的稀疏性,Robust主成分分析模型可以被定义为以下优化问题:

其中,X=X(i,j),i=1,2,…,n,j=1,2,…,p是数据矩阵,L和E分别是低秩矩阵和噪声矩阵,‖·‖0是指矩阵的零范数,表示矩阵中非零个数,λ为折中因子,可以平衡L和E的比重。

三、实证分析

选取2017年辽宁省14个城市的11个主要经济指标,分别为生产总值(单位:亿元)、年末总人口(单位:万人)、在岗职工平均工资(单位:元)、固定资产投资(单位:亿元)、地方公共财政预算支出(单位:亿元)、城镇常驻居民人均可支配收入(单位:元)、农林牧渔业总产值(单位:亿元)、社会消费品零售总额(单位:亿元)、进出口总额(单位:亿美元)、国内旅游收入(单位:亿元)、金融机构存款余额(单位:亿元)。数据来源于2017年辽宁省统计年鉴,实验使用软件为matlab2018a和r语言。

对数据进行分析,根据上述步骤计算出目标函数最优值为Q(a)=9.3548,投影向量为:

α=(-0.3261,-0.2909,-0.2920,0.3118,

0.3236,0.2386-0.2895,0.3158,0.2923,0.3026,

0.3231)

从投影向量来看,影响经济的主要指标依次为:地方公共财政预算支出(0.3236)、金融机构存款余额(0.3231)、社会消费品零售总额(0.3158)、固定资产投资(0.3118)、国内旅游收入(0.3026)、进出口总额(0.2923)、城镇常驻居民人均可支配收入(0.2386)、农林牧渔业总产值(-0.2895)、年末总人口(-0.2909)、在岗职工平均工资(-0.2920)、生产总值(-0.3261).

根据投影寻踪结果,提取前3个投影向量,计算各个主成分,并计算各个样本的综合评价得分,将得分进行排名。同时,选用基于Croux &RuizGazen算法的Robust主成分和基于网格搜索的Robust主成分分析进行排名,结果表1所示。

由表1可知,大连和沈阳为辽宁经济最好的2个城市,阜新和铁岭的经济相对比较落后。将经济状况做等级划分,使用聚类分析中的k-均值聚类,将上述主成分分析的结果分别进行聚类,结果如表2。

根据表1和表2可知,第一类地区,沈阳和大连为辽宁省内较为发达的地区,这两个地区资金较其他地区充足,人口较多,GDP较高;第二类地区在三种分类结果中包含鞍山、锦州、营口、盘锦,此类属于发展中地区,经济发展速度一般;第三类地区发展较为落后,主要包含丹东、阜新、铁岭、朝阳,这些地区应该加快发展速度,引进外资,与其他较发达地区增加交流。

四、结论

通过建立投影寻踪模型,对辽宁省2017年数据进行分析,可知辽宁省发展中心在沈阳和大连两个城市,其余城市的发展和这两个城市相比相差较大。沈阳和大连应该着重于周边发展,从而带动整个省的发展。第三类城市的发展相对落后,辽宁省应该着重致力于发展不平衡的问题治理。将辽宁省城市进行主成分排名,可以有效的观察各个城市经济情况,方便进一步了解经济走向。

参考文献:

[1]李祚泳.投影寻踪技术及其应用进展[J].自然杂志,1997(04).

[2]方必和,程志宏,刘慧萍.投影寻踪模型在国民经济综合评价中的应用[J].运筹与管理,2005(05).

[3]陈治,张媛.基于投影寻踪的省域经济转型评价[J].统计与决策,2017(23).

[4]高大伟,姚奕,仵雁鹏.基于投影寻踪分类模型的各地区节能降耗评价研究[J].数理统计与管理,2010(03).

[5]王玥,任靚.基于主成分聚类的地区综合评价[J].中国科技信息,2018(10).

[6]付强,赵小勇.投影寻踪模型原理及其应用[M].科学出版社,2006.

[7]Croux C, Filzmoser P, Oliveira M R. Algorithms for Projection–Pursuit robust principal component analysis[J].Chemometrics & Intelligent Laboratory Systems,2007(02).

猜你喜欢
经济评价聚类分析
对铁路项目经济评价影响因素的几点思考
建设项目经济评价中的问题及解决策略
基于现金流量表对投资项目的经济评价
电力技术经济评价指标与方法
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究
油气田开发项目经济评价指标NPV优化研究