冯 永,陈鹏举
(1.河南工业大学 土木建筑学院,河南 郑州450001;2.浙江省工程物探勘察院,浙江 杭州310005)
岩溶塌陷的影响环境非常复杂,影响因素种类繁多且相互制约[1],影响因素如岩性、地下水波动、人类工程活动等通常用定性的数据形式给出,近年来,许多学者对岩溶塌陷危险性评价方法进行了研究,采用了灰色统计、神经网络等新方法,尽管定量预测的数学理论已相当成熟,但是处理这种大量定性数据问题却有很大的局限性.
聚类分析是数据处理中一种重要的方法,对于定量的数据,模糊k-means算法是一种很有效的算法,然而,对定性数据的问题处理,模糊kmeans算法就不再适合了.Huang通过定义一个组合的非相似度,将k-means算法推广k-modes算法(简称为K-M法)和k-pr ototypes算法,用于处理定性数据(qualitative data)和混合值(mixed nu meric and categorical val ues)数据,取得了良好的效果[2-4].但遇到特殊的属性类时,会出现属性值丢失现象.作者引入一种改进的模糊K-M法,将会有效地克服属性值丢失现象.作者以武汉市岩溶地面塌陷危险性预测为例,在分析岩溶塌陷影响因素的基础上,利用此方法对武汉市岩溶塌陷危险性进行了预测,探讨利用该方法预测岩溶塌陷的可行性.
模糊K-Modes算法是模糊K-Means聚类的推广算法,具体模型为
根据拉格朗日定理对上述模型求最优,可得到以下命题:
命题1 对于固定中心集vj,j=1,…c,最优权重为wij为
一般中心只选取多个属性值中的一个,就忽略了出现次数较少的属性值,对聚类的精度造成一定的影响.所以采用每类中各属性的各属性值的频率来表示这一类的中心[5],具体做法如下.
不妨设所有属性均为分类属性,其中第j个属性Aj有nj个属性值,即Aj是{Aj1,…,Ajn1}的集合,j=1,…,m,则第p个聚类中心vp的第j个分量可表示为:
将以上属性间距离定义应用到模糊k-modes算法定义的距离当中就得到了改进的聚类方法.一般来说用类中样本的属性频率反映聚类中心比简单的取出出现最多的属性值做聚类中心要精确的多.不妨设L为最大循环次数.
具体算法如下:
(2)根据命题1计算各样本属于每一类的隶属度W(0),根据该隶属度确定分类,由上公式(3)重新选取初始中心V(0)={v(0)1,…,v(0)k}∈Rk×p,置t=1,l=1.
(3)根据命题1确定隶属度矩阵W(t),如果目标 函 数其中ε为足够小的数,则算法终止,否则,进入第4步.
(4)根据隶属度矩阵W(t)确定分类,由上公式(3)式 计 算 聚 类 中心 V(t),如 果 目 标 函 数,则算法终止;否则,令t=t+1,l=l+1,进入第5步.
(5)如果l>L,则终止循环,否则,重复第3步.
笔者提出可以根据以下方法求得初始聚类中心,设需选取k个聚类中心,则
(1)从原始数据中选取距离最远的两个样本,并将其定为两个初始的聚类中心v(0)1,v(0)2.令t=2.
(2)如果k>t,则在原始数据中剔出之前选出的样本后,找出一样本xi使得
武汉市属于岩溶地面塌陷严重、多发区,自1930年以来,武汉地区已发生过10多次不同规模的塌陷,而且近年来发生频率有提高的趋势,影响到了城市空间利用,因此对该地区岩溶塌陷危险性进行准确预测具有十分重要的现实意义.武汉市地质环境简述如下.
(1)地层岩性:研究地层主要由第四系松散地层、石炭系—三叠系碳酸盐岩、第三系黏土岩和粉砂岩组成.
(2)地质构造:区内影响岩溶发育的主要褶皱和断裂有关山向斜,青菱断裂等.
(3)水文地质条件:含水层类型主要有孔隙承压水和裂隙岩溶水,两者在局部地区水力联系密切,地下水动态特征受长江影响显著,存在地下水开采井.
(4)岩溶地质特征:区内岩溶类型分为埋藏型和覆盖型,岩溶在构造活跃处比较发育.
在岩溶塌陷区域危险性指标方面,由于研究区域的不同,各自取得的指标也不尽相同[1,6-7],对于武汉市的地质条件来讲,岩性,覆盖型岩溶分布及岩溶发育是岩溶发育的基础条件,而区域的构造情况(如关山向斜,青菱断裂)对于岩溶发育及产生也具有重要的影响,覆盖层是岩溶地面塌陷发生的物质基础,而水文地质条件是塌陷的重要因素,结合以上有关岩溶地面塌陷影响因素的分析,考虑武汉市的基本情况以及目前的资料,借鉴相关文献[1,6-8],通过征询专家意见,最终选定如下的危险性评价指标体系(见表1).
表1 岩溶塌陷危险性评估指标Tab.1 The evaluation system for karst collapse in Wuhan
将研究区域按分成1 633个单元(150 m×150 m),见下图1.以上每一指标变量均为定性数据且类别个数也不一样,甚至有的指标变量如距离长江远有6个级别,由于各区域单元格中会有各级别相叠加的情况,所以根据叠加情况,再次把各单元格中各属性对岩溶地面塌陷危险性影响程度进行划分,且每一属性均由定性数据表示,经重新划分后,指标变量如距离长江远就有10个级别,分别用0~9的整数表示.共可得1 633个样本数据且均为定性属性.
根据前面介绍的改进的模糊k-modes算法的计算过程,将数据样本分为4类,令参数p=1.2,利用matlab编制以上计算步骤,结果如下:
① 初始聚类中心V(0)为 :
②最终的聚类中心.由于最终聚类中心由各类的各属性值的频率表示,且每一属性值的个数不一样,所以下面仅列举了最终聚类中心的前两个指标(岩性、岩溶分布类型)的值:
依据聚类结果,将1 633个单元的归属类别导入Map GIS软件,根据各单元类别,输出预测图,武汉市覆盖型岩溶地面塌陷危险性预测图,如图1所示.
图1 武汉市岩溶塌陷危险性预测成果图Fig.1 Karst collapse forecast in Wuhan city based on f uzzy k-modes algorith m
通过以上分析,将研究区岩溶地面塌陷危险性分为极高危险区、高危险区、中等危险区及低危险区四级,与实际计算结果对比表明既往塌陷点均发生在极高危险区,而且研究成果和以往关于研究区的危险性分区成果大致相同,说明利用该改进模糊K-M法可以得到比较可靠的岩溶地面塌陷危险性预测结果.
通过以上分析,作者提出的改进模糊K-M法岩溶地面塌陷预测中得到了很好的应用,可知这种改进的模糊聚类算法的突出优点是:
(1)不需要人为量化指标数值,计算过程相对客观,提高了预测结果的可信性;
(2)基于各属性值的频率来定义各数据间的距离,可以有效地避免属性值丢失的现象,从而可以综合考虑各因素的影响,使出现次数较少的属性值也对聚类结果有所贡献;
(3)聚类中心的选取依据自动搜索的方法,该方法完全是基于聚类的基本思想,可以有效的保证选取的初始聚类中心,可代表不同的类别;
(4)在选取初始聚类中心时,其距离依据自定义距离计算,该距离不仅计算方便,而且可以更好地反映多值属性之间的差异,从而保证选取的聚类中心的有效性.可以看出该算法不仅可以提高聚类精度,也提高了收敛速度.
笔者在分析武汉市岩溶塌陷影响因素的基础上,利用改进模糊K-M法对武汉市岩溶塌陷危险性进行了预测,研究结果表明该方法在岩溶地面塌陷危险性预测方面具有诸多优点,值得推广应用.
[1] 胡成,陈植华,丁国平,等.GIS技术在岩溶塌陷预测中的应用[J].桂林工学院学报,2000,20(2):117-119.
[2] HUANG Z.Extensions to the k-means algorithm for clustering large data set with categorical values[J].Data Mining Knowledge Discovery,1998,2(3):283-304.
[3] BENATI S.Categorical data f uzzy clustering:An analysis of local search heuristics[J].Co mputers&Operations Research,2006,7(4):157-163.
[4] MICHAEL K N,JOYCE C W.Clustering categorical data sets using tabu search techniques[J].Pattern Recognition,2002,35:2783-2790.
[5] 王宇,杨莉.基于凝聚函数的混合属性数据聚类算法[J].大连理工大学学报,2006,46(3):446-448.
[6] 雷明堂,蒋小珍,李瑜,等.城市岩溶塌陷地质灾害风险评估-以贵州六盘水市为例[J].中国地质灾害与防治学报,2000,11(4):23-27.
[7] 陈学军,陈植华,陈先华,等.桂林市西城区岩溶塌陷模糊层次综合预测[J].桂林工学院学报,2000,20(2):112-116.
[8] 张丽霞,熊大军,王集宁,等.莱芜市岩溶塌陷原因分析与评价[J].山东地质,2002,18(3):32-35.