李 宁,王李管,贾明涛,陈建宏,谭正华
(1.中南大学 资源与安全工程学院,长沙 410083;2.中南大学 数字矿山研究中心,长沙 410083;3.湘潭大学 信息工程学院,湖南 湘潭 411105)
由于受到不同时期、不同程度地壳运动影响,造成岩体内的结构面异常发育。岩体的力学特性和水力行为都受到结构面的控制,在岩体边坡破坏模式分析、岩体结构稳定性分析以及岩体渗透参数计算中岩体结构面的几何特征属性是必须考虑的参数[1]。因此,对岩体结构面相互交切所形成的网络进行计算机模拟是极其重要的基础工作[2-4],而根据岩体结构面产状特征属性进行结构面分组是进行结构面网络计算机模拟的关键步骤。
根据岩体结构面的大小和规模将结构面分为5个等级,其中规模较大的Ⅰ、Ⅱ、Ⅲ级结构面,对工程稳定起着决定性作用,在实际工程中可通过地质勘查直接查明其性状和边界条件。对于Ⅳ、Ⅴ级结构面,由于其尺寸小、数量大,且具有随机分布的特征,只能用数理统计的方法进行结构面网络模拟。本文的研究对象主要是Ⅳ、Ⅴ级结构面,由于构造应力场多期次性和地质材料本身的非均质性和各向异性,形成非常复杂的岩体结构面几何特征,导致在实际工作中很难直接对结构面进行分组。传统的结构面分组方法是采用极点图或等密度图[5],该类方法的特点是需根据工程人员的经验进行分组,主观性强,分组结果因各人的专业素养不同而存在较大差异。因此,应根据结构面几何特征属性借助数学方法对结构面进行客观的划分。
Shanley[6]提出了一种根据结构面产状进行分组的聚类算法,缺点是在寻找密度点时需合理的确定小球的半径。Hammah等[7]采用基于模糊理论的K-means算法进行结构面组数的划分。周玉新等[8]提出了把模糊等价聚类和模糊软划分聚类相结合的方法,将模糊等价聚类方法得到的较优分类结果作为模糊软划分聚类方法的初始划分,将模糊软划分聚类方法得到的聚类中心作为各类的中心产状,以得到合理的分类结果。以上方法都属于动态聚类算法,从本质上看是一种局部搜索寻优方法,容易陷入局部极小点,导致结构面分类结果不准确。针对动态聚类算法的上述缺陷,本文提出一种融合遗传算法(GA)和支持向量机(SVM)的综合聚类算法,即遗传-支持向量机聚类算法(G-SVM),首先给定初始分类组数,将初始聚类中心作为变量通过遗传算法进行求解,获得每组结构面的优势产状,再以优势产状为训练样本,利用支持向量机方法对所有结构面进行分类,最后将遗传-支持向量机聚类算法(G-SVM)应用于锦屏水电站左岸边坡结构面的优势分组。
野外进行结构面调查时结构面产状一般采用倾向α 和倾角β 表示,即Θ=(α,β),α为结构面的倾向,从正北开始顺时针转至结构面的单位法向量在水平面中的投影,0°≤α <360°;β为结构面的倾角,是结构面单位法向量与z 轴的夹角,0°≤β≤90°。为便于分析计算,假设结构面为一空间平面[9],其产状可用其对应的单位法向量F 表示,构造如下空间直角坐标系:x 轴正向指向正北,y 轴正向指向正东,z 轴正向指向下,如图1所示,本文采用下半球Schmidt投影。
图1 结构面产状示意图Fig.1 Sketch of the orientation of structural plane
对于任意结构面的单位法向量即可表示为 Fi=(xi,yi,zi),其中:
式中: αi、 βi为第i(i=1,2,…,n)个结构面的倾向和倾角。
通过分析野外测量所获得的岩体结构面产状数据可知,自然状态下的岩体结构面都具有成组的特性,所以首先需确定结构面之间的相似性度量。在对结构面产状的相似性进行度量过程中,结构面倾角较陡且倾向相差180°时,应该归为同一组,若采用欧式距离进行度量,易导致聚类结果不正确。本文通过采用结构面的单位法向量间所夹锐角正弦值平方的方法来解决上述问题。设任意两结构面的单位法向量为F1=(x1,y1,z1),F2=(x2,y2,z2),它们之间所夹锐角为
从而可知单位法向量F1、F2间的距离为
假设有n 个结构面Ej(j=1,2,…,n),对应的单位法向量为Fj(j=1,2,…,n),且可划分为m 组,每组聚类中心为Wi(I=1,2,…,m),定义vij为第j个结构面属于第i 个分组的隶属度,由式(4)可得到Fj与Wi间距离为d(Fj,Wi),则所有结构面与聚类中心的距离之和为
由式(5)可知,E 取得极小值时为聚类目标。当每个结构面各自成为一组时,此时式(5)取得全局最小值0,此时的分组结果是没有任何意义的,因此,传统的动态聚类算法都必须较准确的给出初始聚类中心,若初始聚类中心在整个样本空间不平衡时,算法很可能陷入局部极小点[1]。本文运用改进的遗传算法来解决此问题。
遗传算法是一种基于生物进化原理发展而来的搜索最优解的仿生算法,它模拟基因重组和进化的自然过程,把待优化的问题参数根据精度的需要编制成二进制码或其他进制码(基因),若干基因形成一个染色体(个体),在可行域范围内随机产生一定数量的染色体,按照类似自然进化理论进行选择、交叉、变异等运算,经过反复迭代直到获得最优的结果。实践和理论都证明了在一定条件下遗传算法总是以概率1收敛于问题的最优解[10]。
3.1.1 编码及初始种群产生
编码是应用遗传算法进行寻优基础,由于二进制编码不能反映所求问题的结构特征,且受遗传运算随机性的影响导致其局部搜索能力较差,所以本文采用格雷编码(Gray code)方式来对个体进行编码。根据聚类中心的各维坐标值的取值范围,将其编码成二进制基因串,再利用二进制码与格雷码的转换法则,将二进制码全部转换成对应的格雷码。
初始群体的特性影响计算的效率和结果,需确保其在解空间中尽可能的分散,才能实现全局最优解。标准遗传算法是按照随机方法产生一组初始种群,使得初始种群在解空间中分布不均匀,影响遗传算法的性能。本文使用正交设计与遗传算法相结合的方法,首先根据所给出的目标函数构造正交数组,再根据以下步骤产生初始种群:
①将解空间划分为R 个子空间(R≥3)。
②量化每个子空间,运用正交数组选择S 个染色体(个体)。
③在R×S 个染色体中,按照适应度值由大到小选择T 个作为初始种群。
3.1.2 适应度函数设计
在遗传算法中,以适应度函数值的大小来度量个体接近最优解的优良程度,适应度值较高的个体遗传到下一代的概率就较大。为了减少由于目标函数在函数值分布上相差较大对寻优结果的影响,本文运用界限构造法将目标函数转换为适应度函数G:
式中:cmax为目标函数E 的最大估计值。
3.1.3 遗传算子
遗传算子包括选择算子、交叉算子和变异算子。选择操作建立在对个体适应度进行评价的基础之上,主要是为了避免有用遗传信息的丢失,提高全局收敛性和计算效率。交叉是按照一定的概率pc从种群中选择2个个体,交换2个个体的某个或某些位,形成2个新的个体,并继承了父代的基本特征[11]。变异是根据变异概率 pm将个体染色体编码串中的某些基因座上的基因值用该基因座的其他等位基因来替换,从而形成一个新的个体。变异本身是一种随机算法,与选择和交叉算子结合后,避免了由于选择和交叉运算而造成某些信息的丢失,保证遗传算法的有效性。
3.1.4 算法实现步骤
①初始化分类组数m,子空间数R,子空间中被选择的染色体数S,交叉概率 pc,变异概率 pm和终止代数 Qmax;
②令Q=1,初始化m 个聚类中心Wi(i=1,2,…,m),并对其按照3.1.1节的方法进行编码,形成初始种群;
③对每个聚类中心分别计算对应的隶属度vij(i=1,2,…,m;j=1,2,…,n),目标函数值E,根据式(7)即可求得适应度值G;
④依次执行选择、重组和变异,产生子代种群;
⑤令Q=Q+1,直至设置的最大终止代数(为了确保算法的收敛性,终止条件采用最大进化代数与设定收敛条件相结合的方式),即可得到最佳的遗传算法运算结果。
支持向量机(SVM)[12-13]是20世纪90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,同样能获得良好统计规律的目的。
3.2.1 线性可分情况
假设存在训练样本{Fi, Gi}(i=1,2,…, l),Fi∈RD,Gi∈{-1,+1};l为样本数,D为样本维数。线性判别函数一般形式为
式中:ω、b为待确定的变量。对于线性可分问题,存在超平面ω · F+b=0使得两类样本完全分开。将判别函数进行归一化,使两类中所有样本都满足f (F) ≥1,即
运用Lagrange法求解,函数为
式中:θi≥0为Lagrange乘子。将式(11)分别对ω、b、θi求偏微分,可得
根据式(9)、(12)以及Karush-Kuhn-Tucker条件[14-15],可得到凸二次规划寻优的对偶问题:
通过求解,可得到最优分类面判别函数:
3.2.2 线性不可分情况
对于线性不可分问题,用非线性变换Φ将D 维矢量空间中矢量F 映射到高维特征空间,然后在高维特征空间进行线性分类。由式(14)可知,最优分类平面判别函数与点积运算(Fi·Fj)有关,从而得到线性不可分条件下最优分类判别函数为
根据泛函理论,只要存在一种核函数 K(Fi·Fj)满足Mercer条件,它就对应某一变换空间中的内积,使得 K(Fi·Fj)=Φ (Fi) ·Φ(Fj),实现非线性变换后的线性分类。根据向量间的不同算法可将核函数分为4类:线性核函数、多项式核函数、径向基函数和sigmoid函数,其中径向基函数是最常用的核函数。
聚类的有效性检验是为了确定结构面数据的最优分类组数。Xie-Beni指标[16]UXB采用紧致性来评价类内的内聚程度,同时采用分离性来评价不同类之间的隔离程度。本文采用基于核函数的G-SVM聚类算法对结构面进行聚类,同样需将UXB变换到Hilbert空间,形成核空间的Xie-Beni指标UKXB[17],则相应的计算公式为
为了检验分类算法的有效性,本文通过计算机模拟生成5组结构面产状数据,共1 250个结构面,倾角和倾向都服从正态分布。分别采用模糊C 均值聚类算法和G-SVM聚类算法进行分类,通过比较分组结果和模拟参数之间的差异来检测本文提出算法的可靠性。结构面模拟的详细参数见表1。
表1 结构面模拟参数Table 1 Simulation parameters of structural plane
模拟生成结构面的等密度图如图2所示。模糊聚类算法和G-SVM聚类算法对结构面分组后的极点图如3、4所示。
图2 结构面等密度图(模拟)Fig.2 Isopycnal map of structural plane(simulation)
图3 模糊聚类结果极点图Fig.3 Pole plot of FCM results
图4 G-SVM聚类结果极点图Fig.4 Pole plot of G-SVM cluster results
由图3、4可知,模糊聚类算法和G-SVM聚类算法对结构面聚类得到的组数一致,为5组,与结构面模拟参数相同,但每组中结构面数与模拟参数存在误差。模糊聚类算法和G-SVM聚类算法所得分组结果与模拟参数对比见表2。
表2 模拟参数与聚类结果对比Table 2 Contrast of clustering results and simulation parameters
由表2可见,与模拟数据生成的1 250个结构面对比,模糊聚类方法使得84个结构面产生误差,而G-SVM聚类方法产生的误差结构面只有2个,误差率为0.2%。分析原始数据发现,产生误差的结构面倾角与第5组结构面的平均倾角几乎一致,导致被分到了第5组,同时聚类中心与模拟参数基本吻合,验证了本文G-SVM聚类方法的可靠性。
某水利工程坝基左岸边坡反向坡,主要由大理岩和砂板岩组成,呈山梁与浅沟相间的微地貌特征。由于受到强风化的作用,节理裂隙较为发育,边坡稳定性的研究和评价工作显得越来越重要。本次采用测线法,共布置3条侧线,获得231个结构面样本产状数据,其等密度图如图5所示,不同结构面分组数对应的聚类有效性检验结果见表3。
由图5较为直观地发现存在3组优势结构面面,同时从表3可知,当分组数为3组时,核空间Xie-Beni指标最小,所以结构面最优分组数为3。通过改进遗传算法获得每组结构面的优势产状见表4,遗传算法中相关参数:m=3,T=1 500,pc=0.8,pm=0.02,Qmax=500。再根据支持向量机分类方法,得到的结构面聚类结果极点图如图6所示。
图5 结构面等密度图(231个)Fig.5 Isopycnal map of structural plane(231 samples)
表3 聚类有效性检验结果Table 3 Validity measure for clusters
表4 3组结构面优势产状Table 4 Advantage occurrence of structural planes
图6 结构面聚类结果极点图Fig.6 Pole plot of structural plane cluster results
由图6可知,G-SVM聚类算法将231个结构面清晰的分为3组,各组结构面数分别为86、75、70个。本文聚类算法所得结果与工程实际情况相符,为边坡裂隙网络模拟以及边坡稳定性分析提供了基础。
(1)遗传算法是一种基于生物进化原理发展而来的搜索最优解的智能仿生算法,建立结构面分组的数学模型后,通过利用改进的遗传算法,获得样本全局最优聚类中心(每组结构面的优势产状),避免了传统聚类方法需根据个人经验的主观性。
(2)支持向量机(SVM)可以解决小样本、非线性和高维模式识别问题。将改进遗传算法计算获得的结构面聚类中心作为训练样本,对整个结构面样本空间进行精确分类,解决了结构面聚类边界不易划分的问题。
(3)通过比较模糊聚类算法和本文G-SVM聚类算法可知,G-SVM算法不需要首先随机给出结构面的聚类中心,避免聚类结果陷入局部最优,提高了聚类结果的准确性。通过随机样本和工程实际样本验证以及核Xie-Beni指标对聚类结果的有效性检测,证明了该算法可靠实用,对后续裂隙岩体网络的计算机模拟,具有重要的意义。
[1]蔡美峰,王鹏,赵奎.基于遗传算法的岩体结构面的模糊C均值聚类方法[J].岩石力学与工程学报,2005,24(3):371-376.CAI Mei-feng,WANG Peng,ZHAO Kui.Fuzzy C-means cluster analysis based on genetic algorithm for automatic identification of joint sets[J].Chinese Journal of Rock Mechanics and Engineering,2005,24(3):371-376.
[2]XU Chao-shui,PETER D.A new computer code for discrete fracture network modeling[J].Computers and Geosciences,2010,36:292-301.
[3]SIRAT M,TALBOT C J.Application of artificial neural networks to fracture analysis at the Aspo HRL,Sweden:Fracture sets classification[J].International Journal of Rock Mechanics and Mining Sciences,2001,38:621-639.
[4]BEHZAD T,HOSSEIN M,BEHZAD M.Investigating the validity of conventional joint set clustering methods[J].Engineering Geology,2011,118:75-81.
[5]卢波,丁秀丽,邬爱清.岩体随机不连续面产状数据划分方法研究[J].岩石力学与工程学报,2007,26(9):1809-1816.LU Bo,DING Xiu-li,WU Ai-qing.Study on method of orientation data partitioning of randomly distributed discontinuities of rocks[J].Chinese Journal of Rock Mechanics and Engineering,2007,26(9):1809-1816.
[6]SHANLEY R J,MAHTAB M A.Delineation and analysis of clusters in orientation data[J].Journal of the International Association for Mathematical Geology,1976,8(1):9-23.
[7]HAMMAH R E,CURRAN J H.Fuzzy cluster algorithm for the automatic identification of joint sets[J].International Journal of Rock Mechanics and Mining Sciences,1998,35(7):889-905.
[8]周玉新,周志芳,孙其国.岩体结构面产状的综合模糊聚类分析[J].岩石力学与工程学报,2005,24(13):2283-2287.ZHOU Yu-xin,ZHOU Zhi-fang,SUN Qi-guo.Synthetical fuzzy clustering analysis for occurrence of rock mass[J].Chinese Journal of Rock Mechanics and Engineering,2005,24(13):2283-2287.
[9]JIMENEZ R R,SITAR N.Inference of discontinuity traces length distributions using statistical graphical models[J].International Journal of Rock Mechanics and Mining Sciences,2006,43:877-893.
[10]周明,孙树栋.遗传算法原理及应用[M].北京:国防工业出版社,1999:8-15.
[11]CARLOS A,COELLE C.An updated survey of GA-based multi-objective optimization techniques[J].ACM Computing Surveys,2000,32(2):109-143.
[12]YAO Yu-kai,LIU Yang,YU Yong-qing.K-SVM:An effective SVM algorithm based on K-means clustering[J].Journal of Computers,2013,8(10):2632-2639.
[13]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42.ZHANG Xue-gong.Introduction to statistical learning theory and support vector machines[J].Acta Automatic Sinica,2000,26(1):32-42.
[14]FORGHANI Y,YAZDI H S.Robust support vector machine-trained fuzzy system[J].Neural Networks,2014,50:154-165.
[15]彭令,牛瑞卿,叶润青.基于进化支持向量机的滑坡地下水位动态预测[J].中南大学学报(自然科学版),2012,43(12):4788-4895.PENG Ling,NIU Rui-qing,YE Run-qing.Prediction of ground water level in landslides based on genetic-support vector machine[J].Journal of Central South University(Science and Technology),2012,43(12):4788-4895.
[16]KIM D W,LEE K H,LEE D.On cluster validity index for estimation of the optimal number of fuzzy clusters[J].Pattern Recognition,2004,37(10):2009-2025.
[17]普运伟,金炜东,朱明.核空间中的Xie-Beni指标及其性能[J].控制与决策,2007,22(7):829-835.PU Yun-wei,JIN Wei-dong,ZHU Ming.Kernelized Xie-Beni index and its performance[J].Control and Decision,2007,22(7):829-835.