姜安龙,戚玉亮
(1.南昌航空大学 土木建筑学院,江西 南昌,330063;2.同济大学 地下建筑与工程系,上海,200092;3.上海交通大学 土木工程系,上海,200030)
数据挖掘(Data mining)是一门交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,它是知识发现KDD(Knowledge discovery in database)中进行知识学习的阶段,是KDD的核心[1]。地下工程围岩稳定性影响因素众多,许多研究者对围岩稳定性的影响因素进行了研究[2−6]。大部分研究是从经验出发直接得出主要的影响因素,有些是通过定性分析得出。虽然得出的围岩稳定性分类的影响因素在多数情况下能与实际情况较吻合,但是,缺乏对这些因素的定量化表示和解释。使用数据挖掘技术从大量的工程实例数据中进行知识发现,找出蕴含在其中的内在关系,进而应用于相似条件下的工程稳定性判别非常有意义。冯夏庭等[7]将数据挖掘方法应用到地下硐室围岩稳定性判别知识的自学习中,提出了可以考虑负属性的一种新的数据挖掘方法,它从硐室围岩稳定性的实例数据中挖掘出知识,并将得到的知识输入专家系统,进行不确定性推理,对围岩的稳定性进行合理的判别。数据挖掘中的粗糙集理论(Rough sets)是Pawlak在1982年提出的[8−9]。它的突出优点是不需要预先给定某些特征或属性的数量描述,如统计学中的概率分布、模糊集理论中的隶属函数等,而是直接从给定问题的描述集合出发,通过不可分辨关系和不可分辨类确定问题的近似域,找出问题中的内在规律。粗糙集理论已在许多领域中得到很好的应用,但在岩土工程领域的应用尚缺乏研究[10]。人工神经网络(Artificial neural network)具有模拟人类形象思维的能力,在建立非线性、经验型知识仿真模型方面具有强大的功能和无比的优越性。Back-propagation neural network(简称 BP神经网络)是前向网络的核心部分,体现了人工神经网络的精华。然而,传统 BP算法收敛速度慢,容错性差,结果不唯一。虽然提出了很多改进算法,如附加动量法、自适应学习速率法、弹性BP法、共轭梯度法、Levenberg-Marquardt等,但是,均未完全解决上述问题。Yasdi[11]较早地采用粗糙集和神经网络的组合学习方法来研究不确定性、不精确的信息,虽然二者的结合能较好地提高整体分类效率和精简规则的依赖因子,但是仍存在很多问题,以至于并不能应用到实践中。在此,本文作者在前人研究的基础上[11−15],利用粗糙集理论和神经网络各自的优势,提出了粗糙−BP神经网络方法,并成功应用于地下工程围岩稳定性判别中。
粗糙集理论的知识表达系统(也称信息决策系统)定义为:S=(U, A, V, F)。其中:U为一个非空有限对象(元组)集合,称为论域;A为对象的属性集合,分为2个不相交的子集,即条件属性 C和决策属性 D,Va为属性a的值域;F是一个函数,即U×A→V为一个映射函数,它为每个对象的属性赋予一个属性值,对于每个属性子集R⊆A,不可分辨关系为[16]:
显然,Ind(R)是一个等价关系,在不产生混淆的情况下可以用R代替Ind(R)。关系等价族R中所有不可约去的关系称为核,由它构成的集合称为R的核集,记成core(R)。
根据山东兖州矿区煤巷信息数据库[17],整理了137条回采巷道的围岩稳定性数据集,组成知识表达系统的论域U。决策系统的条件属性={特殊地点,煤层埋深,煤层倾角,煤层厚度,采煤方法,护巷煤柱,煤体强度,巷道层位,基本顶类别,直接顶类别};决策属性={巷道稳定性}。
为了表达简明扼要,进行如下假设。
特殊地点为c1,其属性值为:
煤体强度为c7(单位MPa),其属性值为:
按上面的评定标准对论域U进行离散化处理后,生成的决策表如表1所示。
知识表达系统中的属性并不同等重要,有些甚至是冗余的,因此,必须对属性进行约简,寻求不含多余属性并保证分类正确的最小属性集。需要注意的是:C的最小属性集一般不唯一,而要找到所有的最小属性集是一个NP问题,在大多数应用中,没有必要找到所有的最小属性集。通过属性约简删除多余属性后,获取的规则重复项较多,规则的概括能力差,因此,必须对论域进行规则简化,挖掘出数据中隐含的决策知识,作为依据,进而精选样本集,克服 BP神经网络训练结果不唯一的缺点。具体过程如下。
(1)首先进行依赖度分析。将决策表调入粗糙集数据分析程序[16],调用函数“Pos(C, D, X)”,计算C与D 之间的依赖程度γ(C , D )输出比率为 1 ,说明决策属性完全依赖于条件属性C(C→D),也就是说,条件属性C能准确地区分决策属性等价集。
(3)规则化简。由于条件属性2,4和5属于冗余属性,所以将其删除。基于约简的最小属性集建立新的决策表:1—特殊地点;2—煤层倾角;3—护巷煤柱;4—煤体强度;5—巷道层位;6—基本顶类别;7—直接顶类别,决策属性={巷道稳定性}不变。此时,决策表中会产生重复的对象,取R=C使用函数“Ind(R)”找出重复项,然后从决策表中将其删除,最后剩余94条规则。采用识别矩阵法,调用函数“Val_red(R,D)”对决策表的规则进行化简,消除冗余项,如图2所示,最终获得63条判别规则如表2所示。表2中:“Inf”代表与属性值无关。对获取的规则进行分析,可以揭示数据中潜在的规律,如表2中的第1条规则“0 0 Inf 1 1 0 Inf 1”,说明当巷道非在特殊地点,煤层倾角很小(小于 5°),与留设的保护煤柱宽度无关;煤体强度大于20 MPa,巷道沿煤层顶板掘进,基本顶来压不明显,与直接顶类别无关,巷道处于稳定状态。这是符合工程实际的。提取的规则基本反映了兖州矿区围岩稳定性的判别规则,与工程实际情况较吻合。
表1 决策表Table1 Decision table
图1 属性的约简求核Fig.1 Attribute reduction for core
表2 决策规则Table2 Decision rules
图2 规则化简Fig.2 Rule reduction
训练样本使用规则化简后剩余94条样本,各属性重要度的计算可以通过调用函数“SGF(A,R,D,X)”得到,从而可以对围岩稳定性影响因素的程度进行比较,当对其进行归一化处理时,可以反映出各属性权重。由于数据隐含63条知识,所以,BP神经网络隐含层神经元的节点数,设计采用2层隐含层神经元个数为8×8的结构,这样可以完全包含这63条知识,传递函数采用S型的对数函数logsig(N)。输入层节点数为7,输出层节点数为 1,输出层的传递函数采用purelin(N)函数,网络拓扑结构如图3所示。使用MATLAB神经网络工具箱(NNtool)对设计好的神经网络进行训练。训练得到的均方误差曲线如图4所示。可见:训练结果十分理想;经过23步训练,其均方误差达到8.322 27×10−31,网络很平滑地收敛于全局极小值。
从前述的兖矿煤巷信息数据库中另选 10组样本对网络进行测试,测试结果如表3所示。从表3可以看出:真实情况与辨识结果的绝对误差相当小,神经网络的辨识结果与工程勘察的结果较吻合,从而证明该网络的预测精度较高,能很好地满足工程应用的需要。
图3 BP神经网络的结构Fig.3 Structure of BP neural network
表3 测试样本Table3 Test samples
图4 训练过程的均方误差曲线Fig.4 Curve of mean squared error in process of training
(1)提出的粗糙-BP神经网络围岩稳定性判别方法,充分发挥了粗糙集理论与 BP神经网络的优点,弥补了各自的缺点。
(2)采用粗糙集分析程序挖掘的决策规则与兖州矿区围岩稳定性判别规则较吻合;由于规则简明清晰,建立的围岩稳定性分类 BP神经网络模型不但能够使网络全局逼近于最小值,避免陷入局部极小点,而且为隐含层神经元节点数的确定提供了依据。
(3)由于粗糙集理论具有很强的容错能力,使得神经网络的容错能力也得到加强。因此,将粗糙集理论与神经网络相结合应用于围岩稳定性判别,不但是有效可行的,而且具有广阔的应用前景。
[1]Fayyad U, Stolorz P.Data mining and KDD: promise and challenges[J].Future Generation Computer Systems, 1997,13(2/3): 99−115.
[2]YANG Ying-jie, ZHANG Qing.The application of neural networks to rock engineering systems(RES)[J].International Journal of Rock Mechanics and Mining Science, 1998, 35(6):727−745.
[3]Leu S S, Chen C N, Chang S L.Data mining for tunnel support stability: neural network approach[J].Automation in Construction, 2001, 10(4): 429−441.
[4]ZHU Wei-shen, LI Shu-cai, LI Shu-chen, et al.Systematic numerical simulation of rock tunnel stability considering different rock conditions and construction effects[J].Tunnelling and Underground Space Technology, 2003, 18(5): 531−536.
[5]Durand F, Vargas E A, Vaz L E.Applications of numerical limit analysis (NLA)to stability problems of rock and soil masses[J].International Journal of Rock Mechanics and Mining Sciences,2006, 43 (3): 408−425.
[6]宫凤强, 李夕兵, 高科.地下工程围岩稳定性分类的突变级数法研究[J].中南大学学报: 自然科学版, 2008, 39(5):1081−1086.GONG Feng-qiang, LI Xi-bing, GAO Ke.Catastrophe progression method for stability classification of underground engineering surrounding rock[J].Journal of Central South University: Science and Technology, 2008, 39(5): 1081−1086.
[7]冯夏庭, 马平波.基于数据挖掘的地下硐室围岩稳定性判别[J].岩石力学与工程学报, 2001, 20(3): 206−209.FENG Xia-ting, MA Ping-bo.Identifying stability of underground openings based on data mining[J].Chinese Journal of Rock Mechanics and Engineering, 2001, 20(3), 206−209.
[8]Pawlak A.Rough sets[J].International Journal of Information and Computer Science, 1982, 11(1): 341−356.
[9]谭旭, 陈英武, 王桢珍.广义相似关系下的不完备信息系统粗糙集模型[J].中南大学学报: 自然科学版, 2009, 40(5):1360−1366.TAN Xu, CHEN Ying-wu, WANG Zhen-zhen.Rough set model based on general similarity relation in incomplete information systems[J].Journal of Central South University: Science and Technology, 2009, 40(5): 1360−1366.
[10]代春艳.粗糙集理论及其应用发展综述[J].重庆工商大学学报, 2004, 21(6), 575−579.DAI Chun-ye.A survey on rough set theory and its application[J].Journal of Chongqing Technol Business University: Natural Science Edition, 2004, 21(6): 575−579.
[11]Yasdi R.Combining rough sets learning-and neural learning-method to deal with uncertain and imprecise information[J].Neurocomputing, 1995, 7(1): 61−70.
[12]XIAO Zhi, YE Shi-jie, ZHONG Bo, et al.BP neural network with rough set for short term load forecasting[J].Expert Systems with Application, 2009, 36(1): 273−279.
[13]Swiniarski R W, Hargis L.Rough sets as a front end of neural-networks texture classifiers[J].Neurocomputing, 2001,31(1/4): 85−102.
[14]LI Ren-pu, WANG Zheng-ou.Mining classification rules using rough sets and neural networks[J].European Journal of Operational Research, 2004, 157(2): 439−448.
[15]Mak B, Munakata T.Rule extraction from expert heuristics: A comparative study of rough sets with neural networks and ID3[J].European Journal of Operational Research, 2002, 136(1):212−229.
[16]薛定宇, 陈阳泉.高等应用数学问题的 MATLAB求解[M].北京: 清华大学出版社, 2004: 377−380.XUE Ding-yu, CHEN Yang-quan.The Solution of High Application in Mathematic Problem[M].Beijing: Press of Tsinghua University, 2004: 377−380.
[17]王磊.基于人工神经网络的煤巷围岩稳定性分类系统[D].青岛: 山东科技大学资源与环境工程学院, 2005: 10−50.WANG Lei.The stability classification system for the surrounding rocks in mining roadway based on ANN method[D].Qingdao: Shandong University of Science and Technology.College of Resources and Environmental Engineering, 2005:10−50.