基于双重逆极限空间的地貌信息数据挖掘方法

2013-09-25 11:01张玉存付献斌
地球物理学报 2013年1期
关键词:数据挖掘高程信息系统

张玉存,孔 涛,付献斌

燕山大学电气工程学院,河北秦皇岛 066004

1 引 言

随着信息的高速发展,合理的、高效率的数据挖掘对于信息的分析和研究至关重要.庞杂的地貌信息作为一种亟待人们探索和研究的空间数据信息对地球物理学的研究有着重要的意义[1-3].近些年来,数据挖掘广泛应用于石油、矿物等的预测和勘探领域,对地貌信息的数据进行勘探和挖掘已经成为信息科学研究的难点和热点[4-8].

在分析和研究地貌特征中,地貌信息的挖掘和获取途径有多种,其中GPS和探地雷达方法的应用较为常见.张勤等[9]利用GPS和InSAR从3个时间段分析了西安地裂缝沉降的不均匀性,探究了西安地面沉降与其时空演化的关系.郑文俊等[10]、张清志等[11]、殷海涛等[12]利用 GPS分别研究了青藏高原断裂带的变形情况和地表滑坡的特征,为地貌的形成和抗震减灾提供了数据支持.何瑞珍等[13]和王春辉等[14]则利用探地雷达的方法对地表进行了测量,准确实现了土质的检测和地表含水量的模拟.此外,利用GIS软件对地貌信息进行模拟和仿真也较为常见,文献[15-18]利用MAPGIS对地貌、地质信息进行了科学的统计和分析,实现了对矿产资源、环境等信息的监测和预测,为地貌的研究提供了可靠而详实的信息.近年来,信息熵方法在地貌信息研究中的应用也日益广泛.王红等[19]、李雄伟等[20]提出了用信息熵作为地貌数据信息量大小的度量方法,利用信息熵分析了地貌高程信息,解释了熵与地貌高程信息分布与匹配的联系,实现了对地形数据库中要素层的全面评价.朱春红等[21]、解河海等[22]、姜栋等[23]利用高精度的数字高程模型数据从坡度,坡向等专题研究和分析了地貌特征和地形信息因子,为实现地貌特征的综合评价提供了有效的依据.

本文基于双重逆极限空间提出了一种新的关于地貌的不完备信息的数据挖掘方法,将未知的地貌信息数据映射到双重逆极限空间中去,通过研究两类空间之间的拓扑传递性完成对未知地貌信息数据集合的挖掘与分析.该方法把繁杂的特征地貌信息整体视为拓扑空间中的集合,建立了适合于不完备地貌信息的拓扑空间模型,以此为信息源,可以提取所需的各种特征参数进行复合分析,得到不同专题的综合评价,在一定程度上提高了地貌信息整体特征的描述和未知区域预测的精度.

2 基于地貌信息的不完备信息空间的建立

根据不完备信息的系统四元组,S=〈U,A,V,f〉称为一个信息系统[24].其中U= {Ui|i=1,2,…,n}表示对象的集合,A= {Ak|k=1,2,…,m}表示属性的集合,Va表示a的值域,f表示U×A→V的一个信息函数,它为每个对象在每个属性上赋予了一个不同的信息值.如果∃a∈A,使得对于某个对象而言,Va取值为空,则该信息系统称之为不完备信息系统.地貌就是地壳表层内外共同作用到某一发展阶段所形成的三维地表形态,是内外营力、介质性质和时间的函数[25].其表达式为

其中,M表示地貌形态;F表示内外营力对地表的作用;x,y,z为空间坐标;m表示构成地貌的介质性质,包括岩性与构造两个方面,t表示作用时间.运用子基描述特征原始信息子空间,进而把地貌信息系统的原始信息空间描述为一个拓扑空间.设地貌信息空间为X,将信息对象全体描述为

其中,xu(u=1,2,…,N)为X 的对象集信息空间,是地貌单元集合.

由于各类地貌单元不同的属性对应不同的值域,所以一定存在两组子基 {Ai}、{Vi},使 X=每一类子空间xu中包含A 个 属性,并且每一类属性Ai中包含V个值域,则:

由上述可知,X是一个集合,x=(xu|u=1,2,…,N)是X的一个对象子集族,由拓扑空间定义可知,(X,f)是一个拓扑空间,构成了不完备信息系统空间.

3 地貌信息的双重逆极限空间挖掘算法

对于不完备的地貌信息系统(X,f),由于f不一定是同胚映射,因而不具备可逆性,导致系统(X,f)拓扑空间X上只是一个半动力系统,不能满足拓扑传递性,从而无法保证进行准确的数据挖掘.而逆极限系统中的诱导映射是同胚映射,所以逆极限系统是一个拓扑动力系统,从而可以利用逆极限系统的一些动力性质来揭示系统(X,f)相应的动力性质.将繁多的地貌信息描述成拓扑空间点集,利用拓扑传递性实现这些数据信息相互表达,仅仅依靠单一的映射,根本无法将这些相对独立的数据信息完全且有效的涵盖,所以引入紧致空间上两个交换的自映射并且通过这两个自映射任意次数的迭代,实现对不完备地貌信息系统中的所有数据信息的表达.下面引入双重逆极限空间作为目标信息提取空间.

3.1 双重逆极限空间的建立

设f∶X→X,g∶X→X是两个连续映射且满足fg=gf.考虑到不完备信息填充是以对象集合为基本单位进行替补,记集合为X 的双重逆极限集合,在上引进度量

根据上述定义,(X,f~g)为不完备信息空间,是与其对应的双重逆极限空间,其中,是逆极限空间的映射,将双重逆极限的子空间描述成有限元素组合的表示形式,即可分为

因此,引用式子(7)、(8)有如下推导:

另外,由前文不完备信息空间定义可知,(X,f~g)是可分空间.可分性是同胚映射的拓扑不变性,所以由同胚映射Fi,j得到的空间也为可分空间,因此式子(6)的表示是正确的.

3.2 挖掘算法的提出

设f、g为紧致度量空间X的连续映射,且fg=gf,称f~g为拓扑传递,如果对于X中的任意开子集U和V,都存在m,n∈Z,使得fmgn(U)∩V≠φ.根据式子(9),此定义的式子可变为

其中Fi.j为X→的 同胚映射k,k为正整数表示集合的基数,V和分别是X和的对象集.

为简化计算,取同胚映射Fm,n∶为原双重空间系统的连续映射fmgn,m,n∈Z,令V=根据文中提出的双重逆极限空间的定义可得:

所以

其中,V是不完备地貌信息系统中存在未知数据的数据集合,xu是X的对象集.

根据第一节所述,将不完备地貌信息集合构建成关于对象集U、属性集A、值域集V三个坐标轴的立体空间模型,使每个数据信息在此立体空间中都会被精确的描述出来.

地貌形态中的对象集地貌单元为

地貌单元属性集为

地貌单元属性的值域集为

根据双重逆极限空间的定义:

上式为地貌单元对象集xu+1到对象集xu的有向信息传递指数,与式(17)相符.其中H(xu)是xu的函数,H(xu(u+1))是xu与xu+1的联合函数,分别表示xu的内在复杂性特征和xu、xu+1的联合复杂性特征,即它们的变化规律和演变特征.将所有的地貌单元视为简单的信息源,并分别对具有相等的高程值的地貌单元做频率统计,从而得到所有的地貌单元的信息量,其中,

这里将地貌中的全部地貌单元作为全体对象u,v是高程值的取值种类,即地貌单元的属性值域集的取值种类.对具有不同高程值的地貌单元分别进行统计,求出概率,即再根据式(19)即可计算出该地貌关于地貌单元的高程值的信息量大小,所以它可以作为一个度量来描述地形的特性,令:

其中,U为不完备地貌信息数据集合中有数据缺损的对象集合.基于概率相似思想,当k取值最大时,U与V两个对象集合结构最为相似,且V是由拓扑传递性映射得到,因此可以认为U与V拓扑等价,将式(19)、(20)代入(18)式中,最后得出:

另外,地貌的地形状态特征由地貌高程差、粗糙度、相关长度、坡度方差等描述.作为地形参数,这些地貌特征因子都可以反映出地貌信息大小的程度.随着地形粗糙度,坡度方差的增加,地形信息会更加丰富,相关长度越小则地形数据的地理性越强,地形信息也会越丰富.并且,公式(19)的计算结果与地貌单元的信息量呈负相关,即也与高程差等地貌特征呈负相关,因此,通过公式(22)计算得出的地貌单元的坡度、坡向之间的比较,可以相对得知与已知高程的地貌单元的高程差,从而最终确定未知的地貌单元的大致高程,最后,利用公式(22)的计算结果与上述地形参数的信息含量的丰富度进行匹配和对比,通过GIS软件进行模拟后便可以得出大致的地貌形态.

4 应用实例

首先,利用GIS软件基于规则网络模型,用含有未知数据的地貌信息系统模拟一个地貌表面,将这个地貌表面按照对象集、属性集、属性值域集将其区域空间划分为规则的网格单元,每个网格单元都代表地貌信息中的一个对象集,每个地貌单元中都有其特有的内外营力等属性,每个地貌单元都对应一个高程值作为其信息的值域集合.在随机模拟的过程中,有意将那些未知的缺损数据信息平均分散开来,使模拟出的地貌形态不至于由于局部的地形信息的匮乏致使地表过分离散.同时,地貌单元信息的缺损会使地貌单元在数字高程模型中无法表达,只能由相邻的地貌单元表示出其周围的高程和起伏,因此不完备的地貌信息系统中的地貌单元在数字高程模型中的数量相对稀疏,因此地貌整体表现为起伏度不大,地表较为光滑,坡度、高程差、坡向等得不到良好的表达.见图1.

图1 含有未知信息的地貌模拟Fig.1 The simulation of landforms with unknown information

由于在不完备地貌信息系统数据挖掘当中,地貌随时间的演化是一个相当漫长的过程,因此,在这里地貌信息系统中的时间t、内外作用力F等属性集合不做过多考虑,将地貌演化时间定格在一瞬,因此相对来说地貌现有的高程、坡度、坡向等属性参考价值较大.考虑到这些,运用GIS软件,针对上述不完备地貌信息基于其Grd模型对所有地貌单元和点集的高程、坡度、坡向进行提取,提炼出地貌信息中地貌单元的有效高程值、坡向和坡度,并且将未知的高程信息的地貌单元信息按照3∶1的比例均匀的分散到已知的地貌单元信息当中并且制成信息表格.表1是部分地貌高程信息列表.

表1 部分地貌高程信息Table 1 Altitude information

表2、表3分别是同一块地表的坡度和坡向的数据信息:

表2 部分地貌坡度信息Table 2 Slope information

表3 部分地貌坡向信息Table 3 Direction information

由以上两个列表可知在一块极微小的地表及其周围的地貌单元,其地貌的坡度、坡向的变化几乎微乎其微,根据前文所述步骤分别将有未知数据的地貌单元集合通过逆极限映射映射到与其拓扑相似的双重逆极限空间中.如:横向第24个地貌单元对应的高程值对象集合x24(*,59.977,59.966,*,59.943)对应的双重逆极限空间的拓扑相似集合V24为

其中,p24、p25分别表示地貌单元集合x24、x25中每一个元素在整个信息系统中出现的概率.经计算可得:V24=(59.978,*,59.966,59.954,*),由于对象集x24中属性Y4和Y7对应的值域分别为59.977和59.943,因此将V24中属性Y4、Y7的值域*替换为59.977和59.943,可以得到V24的数据集合为V24=(59.978,59.977,59.966,59.954,59.943),运用相同的方法对表1数据进行处理,见表4所示.

根据以上计算方法分别对所有的具有未知数据的地貌单元进行数据处理,最终得到那些未知地貌单元的高程值、坡度、坡向.运用GIS软件的Grd模块对原具有数据缺损的地貌单元逐一进行高程值的编辑,最终得到图2.

由图2可知将拥有空缺数据的地貌信息系统输入GIS数据库模拟得到的是一个模糊的轮廓不清晰的地貌形态,利用本文提出的方法,将计算得到的地貌单元数据集合重新输入GIS数据库中,模拟后得到的地貌形态清晰,轮廓明显,地貌起伏度得到了良好的表达,能更切合实际的接近或“还原”原有的地貌形态.

表4 算法处理后的高程信息Table 4 Complete landforms information

图2 算法处理后的地貌模拟Fig.2 The simulation of landforms with complete information

5 结 论

本文从拓扑学的角度将不完备的地貌信息系统数据集合描述为一个拓扑空间,根据逆极限定义,利用映射诱导法建立与原地貌信息空间拓扑同构的双重逆极限空间作为目标信息空间,然后利用拓扑传递性分析原地貌信息空间与目标信息空间的拓扑相似度,实现不完备的地貌信息空间数据挖掘,最后利用文中提出的理论方法对地貌信息系统进行数据挖掘,为了方便计算和验证,用GIS软件进行前后模拟对比,实验结果表明上述理论方法是可行且准确的.相较于传统的地貌数据挖掘方法,本文提出的理论方法是基于拓扑学角度实现的地貌信息数据挖掘,为了使地貌信息系统中繁杂没有联系的数据更加直观、便于分析,本文将地貌单元、地貌特征因子等参量划分为对象集、属性集、属性值域集,从而避开了与地貌信息挖掘无关的数据计算,使算法得到了简化.

(References)

[1]贺日政,高锐,侯贺晟等.羌塘中央隆起带深部结构特征研究及其意义.地球物理学进展,2009,24(3):900-908.He R Z,Gao R,Hou H S,et al.Deep structure of the central uplift belt in the Qiangtang terrane,Tibet Plateau from broadband seismic observations and its implications.Progress in Geophys.(in Chinese),2009,24(3):900-908.

[2]张燕,董云鹏,李同国等.大巴山弧形断裂(镇巴—高川段)的磁性特征及构造意义.地球物理学进展,2009,24(4):1267-1274.Zhang Y,Dong Y P,Li T G,et al.Magnetic anomaly analysis of the Dabashan arc fault and its tectonic implications.Progress in Geophys.(in Chinese),2009,24(4):1267-1274.

[3]嘉世旭,张成科,赵金仁等.华北东北部裂陷盆地与燕山隆起地壳结构.地球物理学报,2009,52(1):99-110.Jia S X,Zhang C K,Zhao J R,et al.Crustal structure of the rift-depression basin and Yanshan uplift in the northeast part of North China.Chinese J.Geophys.(in Chinese),2009,52(1):99-110.

[4]李雄炎,李洪奇.数据挖掘技术在石油天然气勘探领域的应用探索.地球物理学进展,2009,24(5):1807-1813.Li X Y,Li H Q.Application of the data mining techniques in exploring the oil and natural gas.Progress in Geophys.(in Chinese),2009,24(5):1807-1813.

[5]孟照旭,李洪奇,李雄炎等.利用数据挖掘技术识别深层火山岩气层.地球物理学进展,2009,24(6):2208-2214.Meng Z X,Li H Q,Li X Y,et al.Applying data mining techniques to identify deep volcanic gas reservoir.Progress in Geophys.(in Chinese),2009,24(6):2208-2214.

[6]张文,陈文侠.长春岭油田储层预测研究.地球物理学进展,2009,24(2):494-500.Zhang W,Chen Wen X.Reservoir prediction research in the Changchun ling oil field.Progress in Geophys.(in Chinese),2009,24(2):494-500.

[7]匡朝阳,贺日政,高锐等.火成岩气藏储层预测及勘探技术——以松辽盆地长岭断陷为例.地球物理学进展,2009,24(2):602-608.Kuang Z Y,He R Z,Gao R,et al.A technique of forecasting and exploring volcanic reservoirs—an example of Changling Fault-depression in Songliao Basin.Progress in Geophys.(in Chinese),2009,24(2):602-608.

[8]韩德品,赵镨,李丹.矿井物探技术应用现状与发展展望.地球物理学进展,2009,24(5):1839-1849.Han D P,Zhao P,Li D.Application status and development prospects of mine geophysical exploration technology.Progress in Geophys.(in Chinese),2009,24(5):1839-1849.

[9]张勤,赵超英,丁晓利等.利用GPS与InSAR研究西安现今地面沉降与地裂缝时空演化特征.地球物理学报,2009,52(5):1214-1222.Zhang Q,Zhao C Y,Ding X L,et al.Research on recent characteristics of spatio-temporal evolution and mechanism of Xi′an land subsidence and ground fissure by using GPS and InSAR techniques.Chinese J.Geophys.(in Chinese),2009,52(5):1214-1222.

[10]郑文俊,张培震,袁道阳等.GPS观测及断裂晚第四纪滑动速率所反映的青藏高原北部变形.地球物理学报,2009,52(10):2491-2508.Zheng W J,Zhang P Z,Yuan D Y,et al.Deformation on the northern of the Tibetan plateau from GPS measurement and geologic rates of Late Quaternary along the major fault.Chinese J.Geophys.(in Chinese),2009,52(10):2491-2508.

[11]张清志,刘宇平,郑万模等.丹巴县甲居滑坡GPS地表监测阶段成果.地球物理学进展,2009,24(2):728-733.Zhang Q Z,Liu Y P,Zheng W M,et al.The phase results of the surface landslide monitoring with GPS in Jiaju,Danba county.Progress in Geophys.(in Chinese),2009,24(2):728-733.

[12]殷海涛,甘卫军,肖根如等.利用高频GPS技术进行强震地面运动监测的研究进展.地球物理学进展,2009,24(6):2012-2019.Yin H T,Gan W J,Xiao G R,et al.Progress on monitoring strong earthquake ground motions using high-rate GPS.Progress in Geophys.(in Chinese),2009,24(6):2012-2019.

[13]何瑞珍,胡振琪,王金等.利用探地雷达检测土壤质量的研究进展.地球物理学进展,2009,24(4):1483-1492.He R Z,Hu Z Q,Wang J,et al.The progress of using ground penetrating radar to detect the soil quality.Progress in Geophys.(in Chinese),2009,24(4):1483-1492.

[14]王春辉,刘四新,黄玲.探地雷达方法测量近地表含水量模拟研究.地球物理学进展,2009,24(2):737-741.Wang C H,Liu S X,Huang L.Measurement of near surface water content using ground-penetrating radar-a simulation study.Progress in Geophys.(in Chinese),2009,24(2):737-741.

[15]王妍,刘洪斌,武伟等.基于GIS的三峡库区地貌形态信息统计分析.测绘科学,2006,31(2):93-95.Wang Y,Liu H B,Wu W,et al.Quantitative morphologic analysis of the three gorges region based on GIS.Science of Surveying and Mapping (in Chinese),2006,31(2):93-95.

[16]柳建新,孙娅,童孝忠.MAPGIS在矿山地质环境监测中的应用.地球物理学进展,2009,24(6):2280-2286.Liu J X,Sun Y,Tong X Z.Application of MAPGIS technology to monitoring geological environments of mines.Progress in Geophys.(in Chinese),2009,24(6):2280-2286.

[17]朱大明,秦德先,方源敏.基于GIS的数字矿区与矿产资源预测方法研究.地矿测绘,2003,19(4):5-7.Zhu D M,Qin D X,Fang Y M.The study of the method for mineral resources assessment and digital mine based on GIS.Surveying and Mapping of Geology and Mineral Resources(in Chinese),2003,19(4):5-7.

[18]肖学年,崔灵周,王春等.模拟流域地貌发育过程的空间数据获取与分析.地理科学,2004,24(4):439-443.Xiao X N,Cui L Z,Wang C,et al.Analysis of spatial data for simulating the development process of topographic feature of watershed.Scientia Geographic Sinica (in Chinese),2009,24(6):2208-2214.

[19]王红,苏山舞,李玉祥.基于信息熵的基础地理信息地形数据库中信息量度量方法初探.地理信息世界,2009,7(6):34-39.Wang H,Su S W,Li Y X.Preliminary research on measuring the amount of information of topographic database based on Entropy.Geomatics World (in Chinese),2009,7(6):34-39.

[20]李雄伟,刘建业,康国华.熵的地形信息分析在高程匹配中的应用.应用科学学报,2006,24(6):608-612.Li X W,Liu J Y,Kang G H.Analysis of terrain information using elevation matching based on Entropy.Journal of Applied Sciences(in Chinese),2006,24(6):608-612.

[21]朱红春,刘海英,汤国安等.DEM地形信息因子的量化关系模拟——以陕北黄土高原的实验为例.山东科技大学学报(自然科学版),2006,25(2):16-19.Zhu H C,Liu H Y,Tang G A,et al.quantitative simulation of topographic factors from DEMs——a case study in the loess plateau of north shaanxi province.Journal of Shandong University of Science and Technology (Natural Science)(in Chinese),2006,25(2):16-19.

[22]解河海,郝振纯,马杰等.基于DEM的流域地形地貌信息提取.水电能源科学,2008,26(3):63-65,76.Xie H H,Hao Z C,Ma J,et al.Study on extraction of catchment topograph and landform information based on DEM.Water Resources and Power (in Chinese),2008,26(3):63-65,76.

[23]姜栋,赵文吉,朱红春等.DEM地形信息提取对比研究——以坡度为例.测绘科学,2008,33(5):177-179.Jiang D,Zhao W J,Zhu H C,et al.Comparison of landform information extracted form DEMs—A case study of slope.Science of Surveying and Mapping (in Chinese),2008,33(5):177-179.

[24]张在美.一种基于粗糙集的不完备信息处理方法研究[硕士论文].长沙:湖南大学计算机与通信系,2007.Zhang Z M.Research on an approach of incomplete information processing based on the rough set theory[Master′s thesis](in Chinese).Changsha:Hunan University Computer Architecture,2007.

[25]张志力,周眉生.地貌信息系统的建立与应用.科技情报开发与经济,2003,13(2):84-85.Zhang Z L,Zhou M S.Establishment and application of landforms information system.Sci-Tech Information Development&Economy (in Chinese),2003,13(2):84-85.

猜你喜欢
数据挖掘高程信息系统
企业信息系统安全防护
探讨人工智能与数据挖掘发展趋势
8848.86m珠峰新高程
基于区块链的通航维护信息系统研究
信息系统审计中计算机审计的应用
基于并行计算的大数据挖掘在电网中的应用
基于SG-I6000的信息系统运检自动化诊断实践
GPS高程拟合算法比较与分析
一种基于Hadoop的大数据挖掘云服务及应用
SDCORS高程代替等级水准测量的研究