几种降维算法的研究及应用

2016-06-29 20:50隋易洁李峰郝多虎芮小平陈民
科技视界 2016年16期
关键词:降维经济发展数据挖掘

隋易洁 李峰 郝多虎 芮小平 陈民

【摘 要】空间数据往往具有海量、高维特点,如何从冗余、有噪音的数据提取有效信息成为人们研究的重点。降维作为高维数据压缩中,及高效提取所含信息的一种有效途径,近年来正引起可视化等领域研究者的高度重视。不同降维技术由于其数学理论依据和适用范围不同,可视化结果有差异。本论文首先分析了不同降维算法,即主成分分析、非线性映射、自组织特征映射、支持向量机。作者以2013年京津冀区市尺度为研究单元,运用上述算法对京津冀区市经济统计数据进行聚类分析,同时基于京津冀经济发展的实际状况,对成果的差异性展开了深入讨论。

【关键词】降维;数据挖掘;经济发展

0 引言

近年来,空间信息科学蓬勃发展,在各个行业都得到了较为深入的应用。随着空间信息技术的进一步普及,涉及到的空间数据也日益增多,呈现海量多维的特点。空间多维数据不仅具有多维属性,每条记录同时还对应着空间目标,由于这种关系的存在,使得多维可视化和模式识别过程具有特殊性,这为空间数据的分析带来了新的挑战。由于空间信息具有明显的时空分布特征,而这些特征通过可视化的方式进行描述和表达,能够帮助人们更好的理解空间多维信息所反映的事物内在空间规律。

在常用的空间多维信息可视化系统中,一般采用选维方式和多维可视化技术来实现高维数据的显示和知识挖掘。多维信息的可视化通常采用降维算法把高维信息转换到人类视觉能够感知的三维空间以内来实现,从而发现数据之间的关联性和发展趋势,了解数据的时空分布规律,进而做出及时和正确的判断和决策。在实际应用中,各种降维算法由于数学理论和适用范围的不同,结果也具有很大的差异,所以需要针对特定的应用分析来研究合适的数据降维算法。

在传统的多维信息分析中使用的降维和可视化技术没有考虑空间位置因素的影响,如地理位置接近的目标之间往往具有更加相似的特征,这些特征在多维信息中也有所体现,即地理位置本身对多维数据的产生是有影响的。空间自相关作为一种揭示数据空间聚集信息的技术已经得到广泛应用,但其对于展现高维数据的综合聚集情况显得无能为力;同时该技术能对空间单元进行分类,但反映的是局部情况,而不能反映出全局的聚类情况,这也需要借助一定的方式来分析数据的低维表达形式。作者以京津冀省的县域经济统计数据为研究对象,进行降维算法和可视化技术实验,以期从理论和实证研究中,对空间多维可视化技术研究获得一定的理解和取得一定的进展。

1 研究结果及讨论

1.1 数据说明

本文以2013年京津冀经济统计数据为例,对京津冀地区经济发展状况进行分析。在地级尺度的经济统计数据中,大量数据的属性维度统计缺失。基于降维过程的维度应尽量最大化考虑,本文选择最能反映地区经济发展情况的17个属性,分别是:第一产业人均生产总值、第二产业人均生产总值、第三产业人均生产总值、规模以上工业以上企业情况(资产总计和负债总计)、货物进出口总额、人民币存贷额、财政收入和支出、城镇就业情况(人员数和人均工资)、社会消费品零售总额、全社会固定资产投资、人口密度。由于河北与北京、天津地级单位面积相差较大,总额指标不能准确反映地区真实的发展状况,所以本文将以上属性折合成人均指标。

1.2 算法的分类结果分析

本文依次采用PCA-NaturalBreaks、NLM-KMeans、PCA-SVM、SOFM将京津冀地区经济数据进行分类,依照各种算法的分类特点以及京津冀地区特点对京津冀区域经济的发展现状进行分析。

1.2.1 PCA-NaturalBreaks分类结果分析

基于PCA[17],并设置方差舍弃阈值为90%,作者对京津冀经济数据进行分析,并对结果进行分类。使用PCA方法整体上能体现出京津冀区域经济的发展状况,呈现出滨海新区在天津成为新的经济增长极,以及唐山、石家庄在河北市的龙头作用。第二等级城市沧州、保定的划分体现了北京、天津的辐射作用,河北北部由于地形的阻挡受两个直辖市的影响不大。第五等级城市北京北部郊区以及门头沟因位于山区,交通不便,发展滞后。天津中心城划分为第五等级,体现了天津环城区迅猛发展的势头。但是,PCA分类结果未能体现出北京的中心作用, 实际上北京中心区县经济较河北各市发达。

1.2.2 NLM-KMeans分类结果分析

基于NLM[5]降维算法,并将统计数据集降至一维。基于京津冀的经济发展现状,该结果能反映真实的经济发展情况,但等级之间的分类细节无法得到证实。该分类结果将北京中心城区、天津滨海新区和河北石家庄、唐山划分为第一等级,将保定、沧州、邯郸划分为第二等级,将河北大部分划分为第三等级,而北京平原郊区、天津环城四区被划为第四等级,将北京山地郊区、天津外围郊区以及中心城区被划为第五等级。这从整体上充分体现了环渤海经济区域北京、天津、河北发展不协调、各自为政的现状,肯定了滨海新区作为新的经济增长极的地位。说明京津冀一体化的进程仍然不显著,滨海地区开发力度强劲,逐步成为京津冀都市圈经济发展日益隆起的地带。

1.2.3 SOFM分类结果分析

SOFM[4]的分类结果,与NLM的结果类似,SOFM的分类结果从整体上体现了京津冀经济发展格局,但在将唐山、石家庄也被划分为第二类,未能体现河北的核心发展格局;其等级之间的分类细节也无法得到验证。

1.2.4 PCA-SVM分类结果分析

PCA-SVM的分类结果,修正了PCA的结果,将北京中心城区划分为第一等级,使PCA-SVM的分类结果更加合理,北京、天津郊区发展不协调的状况也能体现。但在石家庄、唐山被划至第二类,未能体现出河北经济核心发展格局。

综合以上算法结果(见表1),总结京津冀发展现状[19-20]如下:第一,京津冀发展总体仍然发展不协调,这点由等级划分界限与行政界限基本相符得到证实。说明京津冀发展离“一体化”的目标还有很大一段距离。第二,北京、天津内部发展不协调。因为所有的分类结果都显示北京中心城区与郊区等级差距很大以及天津中心城区等级很低,其中PCA和PCA-SVM将北京郊区南北划分为两级,说明北京中心城区与郊区发展差距明显,北部和南部发展不一天津基本成同心圆状发展,且环城区比中心城区发展要好[18],第三,SOFM将河北只划分两个等级,说明河北西北和东南发展有所差距,但是差距不明显。《京津冀都市圈区域规划》重点建设的天津滨海新区发展快速,俨然成为环渤海经济区域的新经济核心。

2 结论

利用可视化技术研究和分析高维数据集的内在结构和规律时,需要采用降维方法将其转换到三维以内的空间。而不同降维技术由于其数学理论和适用范围不同,最终的结果也必定有差异。结果如下:(1)PCA能粗略地反映京津冀的发展状况,对于广大京津郊区以及河北的经济状况无法体现;(2)NLM能较正确地揭示京津冀地区北京、天津两大经济增长极的发展现状,并能大致地反映河北的经济发展状况;(3)SOFM总的划分界限和NLM相似,但是有错分情况;(4)SVM在非监督分类应用中依赖于样本的选取,不能完全挖掘出数据内在结构。

【参考文献】

[1]吴昌友.神经网络的研究及应用[D].东北农业大学,2007.

[2]毕达天,邱长波,张晗.数据降维研究现状及其进展[J].情报理论与实践,2013, 36(2):125-128.

[3]翟永杰.基于支持向量机的故障智能诊断方法研究[D].华北电力大学(河北),2004.

[4]武国正.支持向量机在湖泊富营养化评价及水质预测中的应用研究[D].内蒙古农业大学,2008.

[5]阮晓芳.支持向量机方法在医学和环境化学中的应用研究[D].兰州大学,2007.

[6]尹飞,马大政.基于PCA算法的人脸识别[J].计算机技术与发展,2008,30(10):1642-1646.

[7]郭素芳.天津区域经济协调发展模式及路径选择[J].现代城市研究,2010(10):55-59.

[8]贾琦,运迎霞.京津冀都市圈城镇化质量测度及区域差异分析[J].干旱区资源与环境,2015,29(3):8-12.

[9]王明浩,翟毅,刘玉娜.京津冀经济区的研究[J].城市经济.2015,12(1):70-77.

[10]陈阳.京津冀地区城市体系演化研究——基于关联网络和价值区段的分析方法[C]//多元与包容——2012中国城市规划年会论文集.云南:云南科技出版社,2012:209-218.

[11]丁硕,常晓恒,巫庆辉.基于自组织特征映射神经网络的聚类分析[J].信息技术,2014(6):18-21.

[12]张超.基于支持向量机的汽轮机轴系振动故障智能诊断研究[D].华北电力大学(河北),2009.

[责任编辑:杨玉洁]

猜你喜欢
降维经济发展数据挖掘
混动成为降维打击的实力 东风风神皓极
降维打击
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
抛物化Navier-Stokes方程的降维仿真模型
基于特征联合和偏最小二乘降维的手势识别
基于GPGPU的离散数据挖掘研究