基于Ward法的区域空间聚类分析

2010-09-28 02:46杨志恒
中国人口·资源与环境 2010年1期
关键词:平方和类别聚类

杨志恒

(山东经济学院山东区域经济研究院,山东济南 250014)

基于Ward法的区域空间聚类分析

杨志恒

(山东经济学院山东区域经济研究院,山东济南 250014)

作为数据挖掘和数据信息分析的一个重要技术,空间聚类方法是确定区域划分方案的一种定量分析方法。本文以Ward系统聚类法为基础,采用自下而上的层次方法,定义了由地理空间距离与空间邻接关系提取的空间邻近指数,将其作为判断离差平方和增幅最小类别是否聚合的指示值,对给定的数据进行逐层筛选判别,进行空间聚合分析。将该算法应用于昆明市经济发展分区,所得结果较好的体现了昆明市经济发展水平的地域特征,实现了空间上自动聚合,使得分区结果符合区域划分原则。

Ward法;空间邻近指数;空间聚类算法;优先度

聚类分析又称群分析,是研究(样本或指标)分类问题的一种多元统计方法。聚类分析中的类,通俗地说,指的就是相似元素的集合。对于区域样本来说,通过聚类分析得到的分类结果在空间上表现为不同的类型区,可以作为区域划分的依据。目前较为成熟的聚类方法主要有采用层次的方法(亦称系统聚类法)(hierarchicalmethod)、划分的方法(partitioningmethod)、基于密度的方法(densitybased method)、基于网格的方法(grid-based method)和基于模型的方法(model-based method)等。本文选用Ward系统聚类法,强调同类事物的内部差异(相当于方差或标准差)应该很小,而不同类之间的差异应该很大,突出强调类型区内部的同质性,适用于以区域为样本的集群聚类,辅助分区决策。地理空间上的区域分区研究,其实质就是将地理特征(包括空间信息特征和非空间信息特征)相似的区域聚合在一起,是聚类方法在地理空间上的推广应用,目前这方面的研究虽然体现了样本区域的空间信息特征,但在反映区域样本的综合地理空间信息上有所失真[1-8],仅考虑区域样本之间的空间距离[9]或空间邻接关系[10-11]的单一指标,这样聚类后的结果有可能出现同类区域地域上相互分离和“飞地型”的空间表现形式,无法满足区划要求的同一类型的区域样本在地域上相互流通,空间上“集结成片”之需要。本文在经典统计学定义的距离聚类算法基础上,深入探讨区域样本在地理空间特征上的相似性,实现相同类型的聚类对象在空间上能够自动合并为一个连通的区域,而不同类型的聚类对象之间在空间上相互独立,这种空间聚类算法可以有效解决三维空间聚类问题,帮助发掘更具地理信息价值的区域类型。

1 研究方法

1.1 聚类准则

(1)Tobler地学第一定律提出的空间自相关性,即邻近的位置将具有相互类似的值;

(2)区域划分要求地理属性一致,空间上相互毗邻。

1.2 Ward法

Ward法又称离差平方和法[12-14],即以平方欧氏距离作为两类之间的距离,先将集合中每个样本自成一类,在进行类别合并时,计算类重心间方差,将离差平方和增加的幅度最小的两类首先合并,再依次将所有类别逐级合并。具体算法如下:

1.3 空间信息表征

影响区域样本聚类合并的地理空间信息主要表现为类间的空间距离与空间邻接关系,空间距离zij可以用类在地理空间上的几何中心O(m,n)两两之间的欧几里德距离量算。

相对于空间集聚效应来说,空间距离是一个负指标,即空间距离愈大,类间的距离愈远,空间集聚效应愈小,为此,需要对zij进行转换,形成空间距离矩阵,用Z表示。

空间邻接关系aij表征样本区域类型i与类型j在空间上是否邻接。类别的两两邻接关系可以写成空间邻接矩阵,用A表示。

为了表征同一类型区域样本的空间信息,空间距离矩阵与空间邻接矩阵可以通过元素求积,形成空间邻近指数nij,写成矩阵N,获取空间上邻接、类间距离最近的最小累积成本[1314]。

这样就构造出不同区域类型两两对应的空间邻近指数矩阵,nij愈大,空间邻近度愈大,nij=0,说明空间上不邻近。当进行聚类时,两个类别合并后形成了一个新的区域类型后,空间邻近指数需要重新计算。

1.5 空间聚类算法

空间聚类算法采用自下而上的层次方法,从每个对象均为一个(单独的)组开始;逐步将这些(对象)组进行合并,直到组合并在层次顶端或满足终止条件为止,其具体思路为:在优先体现样本系统聚类指标集群度的基础上,将空间邻近指数作为聚合的判别依据,参与聚类过程。也就是说,首先计算类两两之间的离差平方和增幅,确定Ward法合并类的距离矩阵,然后筛选离差平方和增幅最小的类内所有样本,比较空间邻近指数,取对应最大邻近值的样本优先聚类,对聚合后的新类重新计算离差平方和空间邻近指数,依照方差最小、空间最邻近原则将所有样本逐级搜索聚类,确保类内样本在空间上相连。具体算法如下:

依照p个系统聚类指标将n个区域样本分成k类,计算St,Ward法合并类的距离公式为:

得到距离矩阵,筛选距离最小的对应的类别Git和Gjt,比较Git和Gjt的空间邻近指数N(t)ij,当:聚合后形成新类G(k+1),重新计算空间邻近指数Niji,j

∈(1,n-1),重复以上步骤,直至所有样本聚合完毕(见图1)。

图1 基于Ward法的空间聚类算法流程图

1.4 空间聚类算法的实现

依据上述算法,利用ArcGIS Desktop9.0与MATLAB6.5软件联合实现空间聚类。首先,利用ArcGIS软件中SpatialAnalysis模块,导入GR I D数据,利用已有程序计算空间距离和空间邻接关系;利用Cost-Weighted Distance工具计算得到空间邻近指数矩阵;然后,利用MATLAB软件中Statistics Toolbox模块,输入系统聚类指标,计算离差平方和,比较对应最小离差平方和类别的样本的空间邻近指数,筛选优先合并类别;继而,将结果返回ArcGIS,合并记为新的一类,重新计算空间邻近指数矩阵,再返回MATLAB进行聚类;最后,依次将所有类别逐级合并,得到最终结果。

2 实例研究

对昆明市域(除滇池外)经济发展水平进行聚类分析,试验数据包括昆明市14个区(县、市)的经济发展数据(2006年)与1:10000行政区划图。拟将昆明市经济发展水平分为四类经济区,结合当地特点制订经济发展战略并以此作为规划分区的依据。为了便于说明,本文以14个区(县、市)为样本进行空间聚类分析,与采用传统系统聚类方法得到的聚类结果进行对比,分析两种方法对昆明市的经济发展水平类型划分的影响。

2.1 系统聚类指标选取

选择人均GDP、GDP增速、产业结构比、人均财政收入、固定资产投资总额、对外出口额等六项指标分别用来表征经济规模、经济结构、增长质量、发展潜力、对外开放度等经济发展特征。指标值经过极差标准化处理后,得出系统聚类指标值。

2.2 空间信息提取

将14个区(县、市)每一个样本看作一类,见表1。

在ArcGIS里将区域转换成点,得到区域几何中心,计算两两中心之间的空间距离,进行归一化处理后得到地理空间距离矩阵:

2.3 空间聚类结果

优先采用Ward法进行聚类,将14个样本各自看成一类,此时类内离差平方和S=0;将一切可能的任意两列合并,计算所增加的离差平方和,列表如下:

表1 聚类样本

自动搜索样本的边界,根据图形拓扑关系,判断共有公共边界的相邻接样本,得到空间邻接指示表。写成矩阵形式为:

累积计算所得的空间邻近指数矩阵为:

表中非对角线最小元素是0.01,说明将G13、G14增加的S最少,从空间邻近指数矩阵获取N13,14为0.70,G13、G14在空间上邻近,合并为新类G15,继续计算G1-G12与

G15的空间邻近指数,G15与其它类的距离见表3:

表2 两两合并的离差平方和

表3 两两合并的离差平方和(D2(1))

图3 空间聚类结果

3 结论与结语

本文以昆明市14个区(县、市)的经济发展分区聚类为例,在Ward法聚类过程中,加入类别之间的地理空间邻近信息作为聚类的判别指示,将昆明经济发展特征落实到地域上,从图1来看,划分到同一类别的样本在空间上集结成片,而采用传统系统聚类方法得到的分类结果,有两组同一类别的样本在空间上是相互分离的。不同的聚类方法划分的结果差别较大,除盘龙区、五华区、西山区和官渡区组成的一类没有变动外,其它样本的类别归属都有较大改变,如采用空间聚合方法,东川区与北部的禄劝县、寻甸县和富民县合并;安宁市与晋宁县、呈贡县合并为环滇池区域;由于宜良县的空间邻接传递作用,使得嵩明县和石林县最终合并为一类。这样的分类聚合结果与昆明市对区(县、市)的规划分区结果接近,类内样本的同质性较强,满足了同一类样本在地理空间上的自动聚合目的,较好的体现出昆明市域内的经济发展差异,解决了区域样本聚类过程中产生相互分离和“飞地”问题,该算法在进行区域样本的空间聚类方面具有良好的应用效果。

本研究仅根据各区(县、市)的经济特征进行分类,并未就经济发展水平进行评价,所以划分出的类别不代表级别。另外,在聚类指标选择上只照顾到样本间的经济特征一致性,所划分的类别作为经济区来说,没有设计体现样本间的经济联系和经济互补性的指标。

在今后的研究中,本算法将逐步考虑尺度对样本的类别信息的影响,增加对研究对象的粒度和幅度的研究,将研究样本扩展到乡镇级别,研究范围扩展到区域,并探索应用空间自相关分析等技术在空间聚类过程中的应用,指导区域划分。

(编辑:于 杰)

[1]王平,史培军.自下而上进行区域自然灾害综合区划的方法研究──以湖南省为案例[J].自然灾害学报,1999,(3):54-60.

[2]骆剑承,梁怡.多尺度空间单元区域划分方法[J].地理学报,2002,57(2):167-173.

[3]陈明.区域化变量的空间聚类分析[J].长春科技大学学报,1995,(2):222-228.

[4]王博,迟忠先,岳训.一种面向GIS系统的新型双层聚类方法[J].计算机工程,2006,32(7):84-85,125.

[5]曹阳,陈天滋,柴勇.基于GIS的道路事故黑点聚类应用研究[J].微计算机信息,2006,(11S):253-255.

[6]周前祥,敬忠良.高光谱遥感图像联合加权随机分类器的设计与应用[J].测绘学报,2004,33(3):254-257.

[7]张燕文.基于空间聚类的区域经济差异分析方法[J].经济地理,2006,26(4):557-560.

[8]王海军,张德礼.基于空间聚类的城镇土地定级方法研究[J].武汉大学学报:信息科学版,2006,31(7):628-631.

[9]厍向阳等.基于GIS的空间聚类算法研究[J].计算机工程与应用,2005,41(29):24-26,31.

[10]文俊浩等.基于邻接关系的空间聚类算法研究[J].计算机工程与应用.2003,39(34):184-186.

[11]Christophe Dematte,NicolasMolinari,Jean-PierreDaurès.Arbitrarily ShapedMultiple Spatial ClusterDetection Forcase EventData[J].Computational Statistics&Data Analysis,2007,(51):3931–3945.

[12]罗伯特.约翰逊,帕特里夏.库贝著,屠俊如等译.基础统计学[M].北京:科学出版社,2003:7.

[13]张建同.以Excel和SPSS为工具的管理统计[M].北京:清华大学出版,2005:8.

[14]赵骅,朱莉华,刘丹.Ward系统聚类法在多变量分层抽样技术中的运用[J].统计与决策,2006,(23):67-68.

AbstractThe cluster analysis called the group analysis,is the multi-dimensional statistical method to research(sample or target)classifies.In the cluster analysis,the kind refers the similar element set.For regional samples,the classified result which obtains through the cluster analysis displays in the space for the different type areas,which can be used as the basis for the region division.As an i mportant technology of data mining and data information analysis,spatial clustermethod is a type of quantitative analysismethod to definite regional assignment program.This article takesWard systemic cluster method as foundation,uses hierarchical method(from bottom to top),defines neighborhood index refined from geographical space distance and spatial adjacency relationship,which judges whether the classeswithminimal SSD(sum of squaresof deviations)amplitude could cluster,and then filters prior data layer-by-layer,carries out spatial cluster analysis.Applying this algorithm in economical region assignment of Kunming,the results preferably reflect regional characterof Kunming economic development level,realize spatial auto-cluster,and correspondwith regional assignmentprinciple.Thismethod haswide range applicability and affectivity.

Key wordsWard method;the spatial neighborhood index;the spatial clustermethod;the precedence

Region Spatial Cluster Algorithm Based on WardM ethod

YANG Zhi-heng
(Regional Economy Institute of Shandong Economic University,Jinan Shandong 250014,China)

P208,TP301.6

A

1002-2104(2010)03专-0382-05

2010-01-10

杨志恒,博士,副教授,主要研究方向为区域分析与区域规划。

猜你喜欢
平方和类别聚类
基于K-means聚类的车-地无线通信场强研究
费马—欧拉两平方和定理
利用平方和方法证明不等式赛题
壮字喃字同形字的三种类别及简要分析
基于高斯混合聚类的阵列干涉SAR三维成像
西夏刻本中小装饰的类别及流变
四平方和恒等式与四平方和定理
关于四奇数平方和问题
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法