陈望学,鲁春林,王连文,钱文舒
(1.吉首大学数学与统计学院,湖南吉首416000;2.华中师范大学数学与统计学院,湖北武汉430079)
聚类分析的一个基本应用
陈望学1,鲁春林1,王连文2,钱文舒1
(1.吉首大学数学与统计学院,湖南吉首416000;2.华中师范大学数学与统计学院,湖北武汉430079)
作为聚类分析的一个基本应用,利用该统计方法研究了湖南省14个地州市的发展水平.最后结合分类结果,提出了相应的发展建议.
发展水平;SAS;聚类分析
1999年9月,中共十五届四中全会明确提出:国家要实施中西部大开发战略,国家发改委2000年开始分类推进中西部地区区域发展来支持中西部少数民族地区经济发展,并于当年出台《深入推进西部大开发战略若干意见》来指导中西部的开发工作.作为连接中西部桥梁的湖南省,研究其各地区发展水平不仅对湖南省各地区的发展有着重要意义,而且对全国同类地区实现快速发展同样具有重要指导意义.
图1 湖南省地区生产总值Fig.1 GDP of the regions from hunan province
自改革开放以来,湖南省经济得到了长足发展,GDP快速增长,但和发达省市相比经济指标仍偏低.从图1中可以看出湖南省地区生产总值从1978年146.99亿元增加到2013年的24501.67亿元,增加了进167倍.
随着湖南省经济的快速发展,各地州市的面貌发生了很大的变化.但是,由于各地州市的经济发展不平衡及原有经济基础的差异,各地区的发展水平有着明显的区别.为了进一步加快湖南各地州市的发展,从宏观上指导湖南各地州市的发展,对其14个地州市发展水平进行研究有着重大意义.
本文对湖南省14个地州市以2013年数据[1](湖南省统计局公布)为基础,考虑旅游总人数、高速公路里程、平均房价、机动车拥有量(私家车、农用车、货车、摩托车)、年末常住人口、GDP这6个指标进行SAS软件聚类分析,数据详见表1.
2.1 聚类分析
聚类分析是一种客观的分类方法,是根据研究对象或对象的指标进行分类的数据分析方法[2-6],将具有相似属性的事物聚为一类,使得同一类的事物具有高度的相似性[7-9].本文采用谱系聚类进、距离用类平均距离行分析.
类平均距离的计算为[10]:
表1 原始数据Tab.1 Initia1 data
表2 标准化后数据Tab.2 Standard data
其中i,j表示样本xi,xj;dij表示xi与xj的距离d(xi,xj);Gp,Gq分别表示两个类,分别含有np,nq个样本.
递推公式为:
2.2 结果
为了消除量纲的影响,首先对原始数据应用以下的公式(3)进行标准化处理:
标准化后的数据见表2,用SAS编程得到谱系图如图2.
从图2中可以看出,湖南省的14个地州市大致可以分为5类,具体见表3.
表3 湖南省14个地州市分类结果Tab.3 The c1assification resu1t of the 14 regions from hunan province
图2 谱系聚类图Fig.2 The c1uster tree
根据聚类结果,将湖南省14个地州市分为4类,各类包含的地州市数量不尽相同,这正好说明了聚类分析的科学性.
第一类只有长沙市,该市作为湖南省的省会城市,是湖南省的政治、经济、文化中心,其发展水平在湖南省遥遥领先.
第二类包含有株洲市、湘潭市、岳阳市和常德市,这几个地州市发展水平较强,经济水平较高,但与长沙市还有着较大的差距,旅游业发展较好,生产总值岳阳、常德比株洲、湘潭要高,株洲、湘潭要大力发展工业及第三产业,岳阳的第一产业发展较好,但也要大力发展第三产业.这些地区经济基础较好,要加快发展缩小与长沙之间的差距.
第三类包含有衡阳市、邵阳市、永州市和怀化市,这几个地州市交通比较发达,GDP比较高,其中邵阳、永州这连个地区旅游业有待加强.这几个地区人口较多,要做好基础设施建设,同时密切关注人民的需求,大力发展第三产业.
第四类有郴州市、益阳市和娄底市,这几个地州市交通相对于其他的地区欠发达,GDP总量不高,旅游业除郴州外其他几个地区有待进一步提升,加强交通建设,大力发展支柱产业.
第五类有张家界和湘西州,这两个地方处于湖南最西部,尽管近几年建设很多高速公路,但交通运输业依然有待发展,尤其是湘西州.
综上,本文用聚类分析法综合评价湖南14个地州市的发展水平情况的结果是合理的,事实上也与湖南省的实际情况基本一致.但由于指标选择的原因,有些地州市的分类不是十分准确.但从总体上说,大致反映了湖南省各地州市的发展水平和综合实力.
这样在制定湖南省发展规划时,根据各类的特点进行,可以达到高效快捷,同时以类为单位,可以整合每个类中的地州市的资源,取长补短,形成区域优势,增强竞争力.
[1] 湖南省统计局.湖南统计年鉴[M].北京:中国统计出版社,2015.
[2] 朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014,31(2):10-19.
[3] 陈世敏.大数据分析与高速数据更新[J].计算机研究与发展,2015,35(1):29-36.
[4] 吕劲松,王忠.金融审计中的数据分析[J].审计研究,2014(5):26-31.
[5] 张尧庭,方开泰.多元统计分析引论[M].北京:科学出版社,1982.
[6] 郑兵云.多指标面板数据的聚类分析及其应用[J].数理统计与管理,2008,27(2):265-271.
[7] 王政霞,黄大荣.基于统计方法的数据挖掘算法研究[J].湖北民族学院学报(自然科学版),2005,23(1):42-44.
[8] 王骏,王士同,邓赵红.聚类分析研究中的若干问题[J].控制与决策,2008,27(3):321-329.
[9] 王德青,朱建平,谢邦昌.主成分聚类分析有效性的思考[J].统计研究,2012,29(11):84-87.
[10] 梅长林,范金城.数据分析方法[M].北京:高等教育出版社,2006.
责任编辑:高 山
A Basic APPlication of the Cluster AnalYsis
CHEN Wangxue1,LU Chun1in1,WANG Lianwen2,QIAN Wenshu1
(1.Co11ege of Mathematics and Statistics,Jishou University,Jishou 416000,China;2.Department of Mathematics and Statistics,Centra1 China Norma1 University,Wuhan 430079,China)
As a simp1e app1ication of the c1uster ana1ysis,in this paper,the c1uster ana1ysis is used to study the deve1opment 1eve1 of the 14 regions from Hunan Province.According to the ana1ysis resu1ts,some corresponding suggestions are proposed.
deve1opment 1eve1;SAS;c1uster ana1ysis
TP182
A
1008-8423(2016)02-0170-03
10.13501/j.cnki.42-1569/n.2016.06.015
2016-05-28.
国家自然科学基金项目(11461027);湖南省研究生科研创新项目(CX2016B616);湖南省大学生研究性学习和创新性实验项目;吉首大学新开课程建设项目.
陈望学(1985-),男,博士,讲师,主要从事抽样设计和统计计算的研究.