罗兴贤+李巧玲+周智勇+高江锦
摘要:地质公园的地质遗迹具有高度的景观价值,而公园的地质遗迹数据库中保存有这些地质遗迹的位置数据;空间数据挖掘就是根据空间点的位置关系来获取空间点的有价值信息;DBSCAN算法是一种基于密度的空间聚类方法;通过将地质遗迹数据库中的地质遗迹的原始位置信息转换为便于数据挖掘所使用的形式,采用DBSCAN算法对地质遗迹进行聚类,为地质公园制作景区划分方案提供科学依据。
关键词:地质公园;地质遗迹;景区;空间数据挖掘;DBSCAN
中图分类号:TP39 文献标识码:A 文章编号:1007-9416(2017)07-0118-03
1 引言
地质公园是以具有一定规模和分布范围的、有代表意义的地质遗迹为主体,并融合其他自然景观或人文景观构成的特定地区,它具有特殊的科学意义、稀有的自然属性、优雅的美学观赏价值。
对于以地质遗迹为本的地质公园,要以科学发展观为指导思想,严格遵循“保护优先,科学规划,合理利用”的原则,确保公园所在地区的经济可持续发展的目标。对于地质公园独特的自然遗产与文化遗产首先要进行妥善的保护,在此基础上,再提供相应的科学研究、科普教育以及旅游经济开发。
地质公园主要以地质遗迹为观赏景点,而地质遗迹主要是由于自然或历史原因而产生的,具有独特的自然属性,地理位置固定,具有人工难以构建的特点,决定了地质公园景区的划分必须围绕地质遗迹这个核心来进行合理规划,在保护地质遗迹的前提下,提供其观赏价值,来进行旅游经济开发。
地质遗迹的相关信息一般存在于地质遗迹数据库中,其中就包含了地质遗迹的空间位置信息,要从这些地质遗迹的空间位置信息中来划分景区[1],利用空间数据挖掘技术是一个有效的手段。
2 空间数据挖掘
2.1 空间数据挖掘的概念
空间数据挖掘(Spatial Data Mining)是指在空间数据库的基础上,综合利用统计学方法、模式识别技术、人工智能方法、神经网络技术、粗集、模糊数学、机器学习、专家系统和相关信息技术等,从大量的空间生产数据、管理数据、经营数据或遥感数据中析取人们可信的、新颖的、感兴趣的、隐藏的、事先未知的、潜在有用的和最终可理解的知识,从而揭示出蕴含在数据背后的客观世界的本质规律、内在联系和发展趋势,实现知识的自动获取,提供技术决策与经营决策的依据[2]。可见,它是利用数据挖掘方法,按照一定的度量值和临界值从空间数据库中抽取知识以及与之相关的预处理、抽样和数据变换的一个多步骤相互链接、反复进行的人机交互过程。
2.2 空间数据挖掘的过程
空间数据挖掘包括四个主要的过程:数据预处理、数据挖掘、结果解释、知识表示[3]。整个过程是一个不断循环和反复的过程,因上可对所发掘出的知识不断求精和深化,其挖掘过程可用图1来表示。
2.3 空间数据挖掘的方法
常见的空间数据挖掘方法有:基于概率统计的分析方法、基于泛化和归纳的方法、基于聚类的方法、基于分类的方法、基于空间关联的方法、决策树方法、神经网络方法、遗传算法、支撑向量机(SVM)、图像分析和模式识别、Rough集方法和云理论方法等[4]。
3 空间数据挖掘方案
3.1 挖掘方法的选择
由于地质公园的地质遗迹数据库在记录地质遗迹的时候,通常把地质遗迹抽象为一个个的点来看,并记录下这些点的经度和纬度等与位置相关的信息,因此,拟采用空间点聚类方法中的经典算法——DBSCAN算法来对地质遗迹分布进行景区划分[5][6]。
3.2 DBSCAN算法简介
在基于点聚类的空间聚类算法中,DBSCAN算法是一种经典算法,它是基于密度的空间聚类方法。它的基本原理是采用一定邻域内包含空间实体的最小数目来定义空间密度,并通过不断增长高密度区域进行空间聚类,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。其算法过程如下:
输入: 包含n个对象的数据库,半径Eps,最少数目MinPts;
输出: 所有生成的簇,达到密度要求。
(1)Repeat;
(2)从数据库中抽出一个未处理的点;
(3)IF抽出的点是核心点 THEN 找出所有从该点密度可达的对象,形成一个簇;
(4)ELSE 抽出的点是边缘点(非核心对象),跳出本次循环,寻找下一个点;
(5)UNTIL 所有的点都被处理。
由于DBSCAN对用户定义的参数很敏感,细微的不同都可能导致差别很大的结果,而参数的选择无规律可循,只能靠经验确定,因此,往往要通过多次实验才能确定一个较满意的结果。
3.3 数据的准备
从地质遗迹数据库中抽取的地质遗迹的原始的经度与纬度数据如表1所示。
由于地质遗迹的位置数据采用的是度分秒的形式来记录的,因此先通过转换公式,将度分秒的坐标形式转换为实数的坐标形式,如表2所示。
在表2的数据中可以看出,由于地质遗迹的位置常常集中于一个经纬度变化很小的范围内,位置数据区分度太小,因此,可以将位置数据的实数放大,以便让地质遗迹位置数据之间有明显的区分度。将表2中的位置数据放大10000倍后得到如表3所示的结果,从中可以看出各地质遗迹的位置数据有着明显的区别。这样,就可以使用准备好的数据进行实验。
4 实验
将格式化好的数据按要求导出到指定的文本文件中,使用R语言[7]自带的函数DBSCAN进行空间聚类,经过多次实验,发现当MinPts=2,eps=180或eps=190时聚类结果较为理想,均只有一个噪声点,其结果分别如图2和图3所示;当eps为180时,可以将53个点聚为5个类,而当eps取190时,DBSCAN将图2中的④⑤两个类聚为了一个类,从而缩减为4个类。
5 結语
由于地质公园均建设有地质遗迹数据库,该数据库中就包含了各地质遗迹的位置数据,因此,利用基于密度的空间聚类方法,根据地质遗迹数据库中的位置信息来对公园内各地质遗迹进行聚类,聚类的结果可以作为地质公园管理者制定景区划分方案的科学依据,如图2和图3。到底采用哪种景区划分方案,可结合地质公园景区管理的实际需求来进行选择和修订。
参考文献
[1]辜寄蓉,陈先伟,杨海龙.城市功能区划分空间聚类算法研究[J].测绘科学,2011, (05):65-67+64.
[2]李德仁,王树良,史文中,王新洲.论空间数据挖掘和知识发现[J].武汉大学学报(信息科学版),2001,(06):491-499.
[3]张志兵.空间数据挖掘及其相关问题研究[M].武汉:华中科技大学出版社,2011.
[4]柳盛,吉根林.空间聚类技术研究综述[J].南京师范大学学报(工程技术版),2010,(02):57-62.
[5]张文元,谈国新,朱相舟.停留点空间聚类在景区热点分析中的应用[J].计算机工程与应用,2017,(02):1-9.
[6]李新延,李德仁.DBSCAN空间聚类算法及其在城市规划中的应用[J].测绘科学,2005,(03):51-53+5.
[7]黄文,王正林.数据挖掘:R语言实战[M].北京:电子工业出版社,2014.endprint