吕曹芳
(解放军炮兵学院,安徽合肥 230031)
基于GIS的空间数据挖掘研究进展
吕曹芳
(解放军炮兵学院,安徽合肥 230031)
基于GIS的空间数据挖掘技术,归纳了空间数据挖掘所能发现的知识类型和主要方法,分析了其主要研究方向和成果,着重讨论了基于GIS的空间数据挖掘的框架结构与基本流程,并给出了它的基本框架和流程图,提出了基于GIS的空间数据挖掘未来的发展趋势。
GIS;空间数据挖掘;空间关联规则;空间聚类
空间数据挖掘(Spatial Data Mining,SDM)指的是从空间数据库中抽取隐含的知识、空间关系或非显式地存储在空间数据库中的其它模式等[1]。空间数据是地理信息系统的重要数据,可以是地表在地理信息系统中的二维投影,也可以是多维的立体数据。由于雷达、卫星、传感器等技术的飞速发展,空间数据的数量、大小和复杂性都在快速的增加。空间数据挖掘就是处理空间数据的技术方法,是挖掘出隐藏在空间数据库中的非显性知识、空间关系等。
空间数据挖掘是在空间数据库的基础上,综合利用统计学方法、模式识别技术、人工智能方法、神经网络技术等,从大量的空间数据、管理数据、经营数据或遥感数据中获取人们可信的、新颖的、感兴趣的、隐藏的、事先未知的、潜在有用的和最终可理解的知识,从而揭示出隐含在数据背后的规律、内在联系以及发展趋势[1]。概括的说,空间数据挖掘是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式、普遍特征、规则和知识的过程。
GIS从本质说是一个空间数据管理系统,将空间数据挖掘技术应用于GIS,是将GIS中的数据转化成知识的有效方法。
空间数据挖掘技术在 GIS中的应用,国内外已有不少学者做过研究。颇有代表性的有:加拿大的西蒙弗雷泽大学、德国的幕尼黑大学、芬兰赫尔辛大学以及美国等许多研究机构和大学都有很多相关研究成果报道。这些成果主要是提高原有数据挖掘算法在空间数据库上的执行效率,Ester等[2](P47-66)人在邻接图理论的基础上提出了一个基于ID3算法的空间分类算法。Koperski[3](P45-55)提出了两步分类算法:首先,用较少代价的空间计算获得一个近似的空间谓词并同时进行相关分析,其次,对模型进行更深的精化计算,从而获得一个更精确、更小的决策树。1994年在加拿大渥太华举行的 GIS国际会议上,李德仁院士首次提出了从 GIS数据库中发现知识的概念,他系统分析了空间知识发现的特点和方法,认为从GIS数据库中可以发现包括几何特征、空间关系和面向对象的多种知识,能够把 GIS有限的数据变成无限的知识,可以精练和更新GIS数据,使GIS成为智能化的信息系统,并第一次从 GIS空间数据中发现了用于指导 GIS空间分析的知识[1]。Han和Kamber[4]在其数据挖掘专著中,系统讲述了空间数据挖掘的概念和技术。Lu,Han和 Ooi[5](P275-289)提出了面向属性归纳的基于概化的空间数据挖掘方法, Koperski和 Han[6](P47-66)提出了一种逐步求精的空间关联规则挖掘方法。肖平等[7]人利用神经网络技术建立了遥感影像分类方法,吕安民等[8-10]对调查统计数据的空间分布化进行了深入的研究并提出了若干计算模型。
另外,在空间数据挖掘系统的开发方面,国际上有代表性的通用SDM系统有:GeoMiner,Descartes和Arcview GIS的S-PLCS接口[11]。加拿大Simon Fraser大学计算机科学系的数据挖掘研究小组,建立了空间数据挖掘的原型系统 GeoMiner,实现了空间数据特征描述、空间区分、空间关联、空间聚类和空间分类等空间数据挖掘方法。ESRI公司开发的Arcview GIS的S-PLCS接口,提供了工具分析空间数据中指定的类。Descartes支持可视化的分析空间数据,它和数据挖掘工具Kepler动态连接,把传统数据挖掘与地图可视化结合了起来。在国内,武汉大学、中科院地理所资源与环境信息系统国家重点实验室、中科院遥感所、中科院软件所、中国测绘科学研究院等都已经开展了空间数据挖掘的研究[12](P2-5)。
空间数据挖掘是数据挖掘的分支,主要挖掘的对象是空间数据库,常用的方法有:空间分析方法、统计分析方法、归纳学习方法、聚类与分类方法、探测性的数据分析方法、粗糙集方法、云理论、空间特征和趋势探测方法、空间关联规则挖掘方法等[13]。
(1)空间分析方法:是利用 GIS的各种空间分析模型和空间操作对空间数据库中的数据进行深加工,从而产生新的信息和知识。
(2)统计分析方法:是分析空间数据的常用方法,着重于空间物体和现象的非空间特性的分析。统计方法有较强的理论基础,拥有大量成熟的算法。
(3)归纳学习方法:是对大量的经验数据进行概括和综合,归纳出高层次的规则和模式,其大部分算法来源于机器学习领域。
(4)聚类与分类方法:是按一定的距离或相似性系数将数据分成一系列相互区分的类。常用的经典聚类方法有 K-mean,K-meriod,等。
(5)探测性的数据分析方法:是李德仁、邸凯昌[1,3]等提出的探测性的数据分析,是采用动态统计图形和动态链接窗口技术将数据及统计特征显示出来,可发现数据中非直观的数据特征及异常数据。
(6)粗糙集方法:是由波兰华沙大学Z.Paw lak教授在1982年提出的一种智能数据决策分析工具,被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取。
(7)云理论[1,14]:是李德仁、邸凯昌等为解决模糊集在隶属度概念上的不确定性而提出的一种新理论,包括云模型、虚云、云运算、云变换和不确定性推理等主要内容。
(8)空间特征和趋势探测方法:是 Ester等人在第4届 KDD国际研讨会上提出的基于邻域图(Neighborhood Graphs)和邻域路径(Neighborhood Path)概念的挖掘算法。
(9)空间关联规则挖掘方法:关联规则挖掘首先由Agrawal等提出,主要是从超级市场销售事务数据库中发现顾客购买多种商品时的搭配规律[5](P275-289)。
空间数据挖掘所能发现的空间知识主要包括空间的关联、分类、聚类等规则。GIS数据库是空间数据库的主要类型,可以从中发现的知识主要有以下几种:空间分布规律、空间关联规则、空间特征规则、空间区分规则、空间分类规则、空间聚类规则等[1]。
(1)空间分布规律(Spatial Distribution Rules),是指地理目标(现象)在地理空间的分布规律。如高山植被的垂直分布规律,不同区域地物的差异等。
(2)空间关联规则(Spatial Association Rules),是将空间数据库的访问技术与事物数据库中常用的关联规则挖掘算法相结合,可以有效地挖掘出隐藏在数据背后的知识、规则等。
(3)空间特征规则 (Spatial Characteristic Rules),空间特征规则是指对某类或几类空间目标的几何和属性的共性特性。共性的几何特征是指某类实体的位置、形态特征、坡度等普遍的特征。空间属性特征指对象的数量、大小、面积、周长等非几何特性。
(4)空间区分规则(Spatial Discriminate Rules),指两类或几类空间目标之间几何的或属性的不同特性,即可以区分异类目标的特征。
(5)空间分类规则 (Spatial Classification Rules),是指根据目标的空间或非空间特征,利用分类分析将目标划分为不同类别的规则。
(6)空间聚类规则(Spatial Clustering Rules),是指根据空间目标特征的相近程度将它们划分为不同的类中。
空间数据挖掘不同于一般的数据挖掘,主要区别是空间数据挖掘比一般数据挖掘的发现状态空间理论增加了空间尺度[2](P47-66)。文献[15]提出了基于空间事务的空间关联规则挖掘框架,本文在它的基础上结合 GIS特点,设计了一个面向 GIS的空间数据挖掘的基本框架,如图1所示。
面向GIS的空间数据挖掘的过程大致可分为:确定挖掘内容、数据获取、数据预处理、挖掘方法选择、过程处理、挖掘知识应用。
图1 空间数据挖掘的基本框架图
确定挖掘内容,是了解挖掘领域的知识和背景,选择所要研究的内容,对预期结果有初步的了解;数据获取,是从 GIS数据库中搜索出与挖掘任务相关的空间数据或者属性数据;数据预处理,一般是滤除噪声、处理缺值或丢失数据等;挖掘方法选择,是根据数据特点和应用要求等选择适合的方法;过程处理是整个挖掘的关键步骤,它是从变换过后的数据中发现隐藏的知识、特征或者模型;最后将挖掘的知识应用当前的研究领域,也可以扩展应用于其它的领域[4]。
K.Koperski等[6](P47-66)人基于事务型数据库的挖掘研究提出了挖掘空间数据的过程,对挖掘的过程进行系统结构化,大致分成3层结构:用户界面、挖掘机、数据库。用户先通过空间查询功能获取与问题领域相关的数据,再利用空间数据挖掘技术中的方法分析数据,最后使用可视化工具将获取的知识再反馈给用户。借鉴了K.Koperski等人提出的体系结构,图2给出了一种面向 GIS的空间数据挖掘的基本流程。
图2 空间数据挖掘基本流程图
首先用户提出问题,系统接受用户的要求,将其转化为GIS数据库模块的输入参数。挖掘向导接受用户的命令,触发空间数据挖掘核心模块。用户则根据需要选择挖掘技术,对预处理后的数据进行挖掘。挖掘后的知识再通过提取反馈给用户。
基于GIS的数据挖掘主要是空间数据和属性数据一体化的挖掘模式,与按传统的通过查询方式获得的知识相比,它是一种更深层次的数据处理分析。目前在这一领域的研究取得了一些成功,但未来的发展中,还有很多理论和方法有待进一步研究。
(1)改进挖掘的算法和效率:基于 GIS数据挖掘这一块,因为有它自身领域的知识,如果用空间数据挖掘的通用技术,这必然导致地理数据库中问题的维数较大,既增大了挖掘算法的搜索空间,也增加了盲目搜索的可能性。因此要结合GIS数据和领域本身的特点改进算法,提高算法的效率以及设计出更好的相关挖掘算法。
(2)综合式挖掘模式:在面向 GIS挖掘其隐含知识规则方面,采用某种单一的方法往往挖掘出的知识甚微,比如经过空间分类、聚类后的数据再进行空间关联规则的挖掘,比采用单一的方法获得的知识更多更有效。因此需要通过几种挖掘技术并行的综合挖掘模式挖掘,才能从大量的 GIS数据中挖掘出更多更有用的知识。所以未来的研究还应该在几种方法的融合方面继续发展。
(3)挖掘结果的可视化显示:基于 GIS数据的一些特点,人们习惯于接受它可视化的数据。因此对于挖掘者来说,仅仅挖掘知识规则是不够的,还要能够将知识规则转化成易于被用户理解的可视化的图形(图像)。
(4)GIS软件、空间数据库与数据挖掘技术的集成:当前的GIS软件和空间数据库还不能有效地支持数据挖掘,而是通过先提取相关数据,再利用挖掘技术对数据进行挖掘,这种方式可以说增大了挖掘的工作量,降低了挖掘的效率。所以未来的研究还会向实现三者的集成应用方面发展。
(5)与RS的集成挖掘:遥感获得的地物电磁波特性数据综合地反映了地球上许多自然、人文信息。空间数据库如果真正实现了面向对象的数据模型,那么直接从面向空间实体的数据或多源空间数据中挖掘知识将可能实现。
空间数据挖掘技术对GIS数据进行更高层次的分析,能从空间数据库中抽取隐藏的、为人们感兴趣的空间模式和特征、空间和非空间数据之间的概要关系以及其它概要数据特征。本文主要研究了面向GIS的空间数据挖掘技术,描述了空间数据挖掘所能发现的知识类型和主要方法,研究了面向 GIS的空间数据挖掘的框架结构与基本流程,并给出了它的框架图以及流程图。在研究近年来本领域的文献资料提出了基于GIS的空间数据挖掘未来的发展方向。
[1]李德仁,王树良,史文中,等.论空间数据挖掘和知识发现[J].武汉大学学报(信息科学版),2001,26(6):491-499.
[2]M.Easter,H.P.Kriegel and J.Sanuer.Spatial Data Mining:A Database App roach[A].In:Proc 5th int Symposium on Large Spatial Database(SSD97,Lecture Notes in Computer Science[C].Berlin,Heideberg:Springer,1997.
[3]K.Koperski,J.W.Han and N.Stefanovic.An Efficient Two-Step Method for Classification of Spatial Data[A]. In:Proceedings of the International Symposium on Spatial Data Handling(SDH’98)[C].Vancouver,1998.
[4]J.W.Han and M.Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001.
[5]W.Lu,J.W.Han and B.C.Ooi.Discovery of General Know ledge in Large Spatial Databases[A].In:Proc.Far East Workshop on Geographic Information Systems[C]. Singapore,1993.
[6]K.Koperski and J.W.Han.Discovery of Spatial Association Rules in Geographic Information Databases[A].In: Advance sin Spatial Databases,Proceedings of 4th Symposium(SSD’95)[C].Berlin,Heideberg:Springer,1995.
[7]肖平,李德仁.基于人工神经元网络技术的土地利用覆盖变化探测[J].武汉大学学报(信息科学版),2002,27(6): 586-591.
[8]吕安民,李成民,史文中,等.中国省级人口增长率及其空间关联分析[J].地理学报,2002,57(2):143-150.
[9]吕安民,李成名,林宗坚.基于空间统计分析的关联规则应用研究[J].计算机科学,2001,29(4):53-54.
[10]吕安民,李成名,林宗坚.基于相关数学模型的关联规则应用研究[J].计算机科学,2002,29(5):104-106.
[11]蒋昊.基于空间数据库的数据挖掘技术[J].武汉科技大学学报(自然科学版),2002,25(2):183-186.
[12]周海燕.空间数据挖掘的研究[D].郑州:解放军信息工程大学(博士学位论文),2003.
[13]李德仁,王树良,李德毅,等.论空间数据挖掘和知识发现的理论与方法[J].武汉大学学报(信息科学版),2002,27 (3):221-233.
[14]张雪伍,苏奋振,石忆邵,等.空间关联规则挖掘研究进展[J].地理科学进展,2007,26(6):119-128.
A Study Summary of Spatial Data Mining Based on GIS
LV Cao-fang
(Artillery Academy of PLA,Hefei230031,China)
This thesis studies the technique of spatial data mining to GIS,enriches the theory and methods of spatial data processing.This thesis discusses spatial data mining that can discover the type and the primary means of know ledge,systematically studies the methods of GIS spatial data mining,and provides the flow chat of spatial data mining for GIS and the basic process suitable for GIS.The frontier research and the trends in future were brought out.
GIS;spatial data mining;spatial association rules;spatial clustering
TP274
A
1009-9735(2010)02-0043-04
2010-01-06
吕曹芳(1979-),女,安徽六安人,硕士,助教,研究方向:数据挖掘。