数据挖掘技术及其在岩土工程中研究进展

2010-08-15 00:51:18张德才
山西建筑 2010年29期
关键词:决策树数据挖掘边坡

张德才

数据挖掘的目的是把人工智能、机器学习与数据库等技术结合起来,由计算机自动从已有数据(数据库或数据仓库)中发现以前未知的,具有潜在应用价值的信息或模式,解决数据量很大而知识贫乏的矛盾。到目前为止,已经形成了较完整的数据挖掘理论和方法体系,并且出现了许多实用的数据挖掘工具,广泛应用于商业、保险、医疗、制造业、工程和科学等领域,产生了巨大的效益。

数据挖掘技术目前还处在早期的研究阶段,但发展迅速,表现出极强的发展潜力和应用前景。本文通过介绍数据挖掘技术的基本概念,数据挖掘方法,总结数据挖掘技术研究现状及其在岩土工程应用中研究进展,对数据挖掘技术应用现状作出评价,并对数据挖掘技术在岩土工程中的应用给出一定评价。

1 数据挖掘基本知识

1)数据挖掘的定义。数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先未知的,但又是潜在的、有用的信息和知识的过程。2)数据挖掘的过程。数据挖掘是按照既定的目标,对大量的数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法。其处理过程和步骤主要有数据准备阶段、数据挖掘阶段以及结果解释和评价阶段。3)数据挖掘的主要技术方法。分类:是指将数据映射到预先定义好的群组或类。在分析测试数据之前,类别就已经被确定了,所以分类通常称作有指导的学习。聚类:是指从数据集中找出相似的数据并组成不同的组。除了类别没有预先定义而由数据决定之外,聚类与分类很相似。聚类被称为无指导的学习或分割。关联规则:是指揭示数据之间相互关系的一项数据挖掘任务,而这种关系在数据中没有直接表示。时间序列分析:分析数据的属性值随时间不断变化的规律。主要包括序列的相似性分析、趋势预测和异常处理几个方面。序列模式发现:用于确定数据之间与时间相关的序列模式。

2 数据挖掘技术研究进展

1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上正式形成了知识发现的概念,人们终于认识到,很多知识原来就隐藏在大量的数据之中。从数据库中通过数据库管理系统和应用程序可以获得信息,而从数据库中通过一个知识发现的工具应当可以获得知识,这些知识可以自动构成计算机专家系统的知识库,引起了人们对从数据库中发现知识的极大兴趣。从1995年起,美国人工智能协会每年举行一次知识发现(Knowledge Discovery in Database,KDD)国际学术会议,把对数据挖掘和知识发现的研究推向了高潮。1997年,第一届亚太地区数据挖掘会议召开(Pacific-Asia Conference on Knowledge Discovery and Data Mining,PAKDD),以后也是每年一次。欧洲的第一届数据挖掘讨论会(European Symposium on Principles of Data Mining and Knowledge Discovery,PKDD)也于1997年召开。

与国外相比,国内对数据挖掘的研究稍晚。1993年国家自然科学基金开始对数据挖掘进行研究,1999年在北京举行了第三届亚太地区KDD国际会议。国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。国内许多科研单位和高等院校竞相开展数据挖掘的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。国内在数据挖掘研究上取得了丰硕的成果。

对数据挖掘的基础理论研究大多侧重算法的研究,应用系统方面则相应出台了许多商业数据挖掘工具。数据挖掘技术的应用主要体现在三大方面:商业应用、科学研究和Web挖掘。最早应用于商业,如对顾客数据库进行分析,预测潜在用户以便向他们推销产品;分析市场营销数据,识别顾客的购买行为模式,以及辅助证券投资、信用卡欺诈估测、预测流失顾客和识别违法金融交易等。

数据挖掘对象是某一专业领域中积累的数据,挖掘过程是一个人机交互、多次反复的过程,数据挖掘的结果再应用于该领域的决策或规划。在科学研究领域,如生物技术、气象、水文、医学等学科,都有数据挖掘技术应用的例子。王鹏(2006年)运用回归和主成分—回归分析技术对水文数据变化规律和趋势进行了研究,发现了水文数据中蕴藏的变化规律,为洪水预报、防洪调度方面提供了决策依据。吴爱华(2007年)建立了多元回归和人工神经网络的组合预测模型,并用于水文流量和洪水预报。王峰(2006年)对经典关联规则Apriori算法进行了改进,并将其应用于交通管理数据挖掘中。高祥涛(2004年)运用相似性查找以及聚类分析的原理,对水文相似年进行了数据挖掘研究,得到了有意义的结论。蔺建华(2007年)通过对数据挖掘理论、决策树算法和降雨汇流过程进行深入的研究,引入聚类分析方法作改进决策树方法,研究了基于聚类分析和决策树分类的流域洪峰流量预测算法,并成功应用于小流域洪峰量级的预测。

3 数据挖掘技术在岩土工程中的研究进展

在土木岩土工程领域,数据挖掘技术的应用尚处于起步阶段,研究难度也较大。目前仅有为数不多的有关严格意义上的数据挖掘的应用成果。

聚类数据挖掘技术研究方面,周成虎(1999年)基于最大信息熵减原理,探讨了地学数据属性要素的子集划分产生多维属性关联规则,以及通过空间和时间的子集分割来进行聚类的方法。布和敖斯尔(1999年)提出了基于知识发现和决策规则基础的盐碱地GIS和遥感分类的方法。

应用数据挖掘技术进行岩土工程试验结果的因素分析方面,肖庆华(2004年)运用决策树算法信息增益技术对边坡岩体流变试验成果进行了影响因素的相关性分析、运用Logistic回归算法对坝基岩体进行了质量评价分级和运用SAS工具对地下洞室监测位移序列进行了预测分析,得到了一些有用的结论,在岩土工程数据挖掘方面进行了有益的探索。

在数据挖掘技术的关联规则研究方面,冯夏庭,马平波(2000年)在经典的Apriori算法中考虑负属性(否定属性)对关联规则的算法进行了改进,并将改进后的算法应用于对深部采场岩爆和地下洞室围岩稳定性的判别。周科平(2002年)根据获得的现场资料,应用经典的Apriori算法,对影响采场稳定性的因素进行关联规则挖掘,从而有效地预测了矿山采场稳定性的动态变化规律。张治强(2003年)应用Apriori算法,考虑边坡的地形、岩体和外在影响因素三大类,建立边坡稳定性预测的智能模型,对边坡的稳定性和破坏方式进行了预测。马水山(2004年)根据现场监测资料,对地下水、降雨、江水位与滑坡测点位移之间的关系进行了关联规则挖掘,得到了对滑坡监测有指导意义的结论。

在数据挖掘技术的分类挖掘方法方面,赵建华(2004年)对多因素影响下的滑坡,应用决策树算法理论建立滑坡的危险性区划评价模型,实现了滑坡灾害的区域评价。肖庆华(2004年)运用决策树算法信息增益技术对边坡岩体流变试验成果进行了影响因素的分析。亓呈明(2006年)应用决策树C4.5改进算法生成一组坡体稳定性规则,并用于对滑坡的成因分析。于国新(2007年)采用信息增益技术分析了结构面各个属性对隧道围岩分级的贡献大小及作用的程度,提出了围岩分级预测方法。

在粗糙集挖掘方法应用方面,周科平(2003年)通过运用粗糙集数据挖掘技术对影响边坡稳定性的主要因素进行分析,从大量杂乱的参数中发现了有用的决策规则,为边坡稳定性分析提供了一种方法和思路。影响边坡稳定性的主要因素(如岩性、滑床、风化、降雨量、坡高、人类活动、界面等)的重要度以及它们之间的相互影响,运用基于粗糙集理论的数据挖掘技术进行分析,可以得出边坡稳定性程度的量化结果。说明粗糙集理论不仅可以用于分类,也可以用于特征归纳(以识别和删除无助于给定训练数据分类的属性)和相关分析(以根据分类任务评估每个属性的贡献和意义),这样可以最终挖掘出准确、有效的,并为人们所易于理解的结果。这些特点充分证实,粗糙集数据挖掘技术为边坡稳定性参数分析提供了一条准确、方便的途径,比传统的分析方法要有效得多。

应用智能算法进行广义的数据挖掘应用成果较多,典型的研究算法为支持向量机算法。位移是岩体结构在开挖或变形过程中反馈出的一个重要信息,通过对岩体结构位移的实时监测,可以及时了解岩体结构的稳定状态的变化情况,并按照需要对其进行稳定性控制。刘开云(2004年)基于结构风险最小化原理的数据挖掘算法——支持向量机算法,编写了不同的核函数支持向量机算法,对边坡位移监测数据进行机器学习、回归和预测,提高了边坡位移预测精度。

4 结语

虽然数据挖掘技术已经广泛应用于银行、电信、保险、交通、零售(如超级市场)等商业领域,但在科学研究领域的应用还相对较少,尤其是在滑坡监测资料分析方面的应用尚不多见。数据挖掘的主要任务有总结规则挖掘、关联规则挖掘、分类规则挖掘、聚类规则挖掘、趋势分析和偏差分析等。常用的数据挖掘方法有统计、基于事例的推理、神经网络、决策树、规则推理、贝叶斯信念网络、遗传算法/演化程序设计、模糊集及粗糙集等方法。

[1]刘传正,杨 冰.三峡库区地质灾害调查评价与监测预警新思维[J].工程地质学报,2001(10):41.

[2]董 元,张时忠.三峡库区地质灾害监测预警信息管理系统的设计与实现[J].安全与环境工程,2008(6):67-68.

[3]肖庆华.岩石力学与工程中数据挖掘技术的应用[D].南京:河海大学博士学位论文,2002.

[4]刘 涛.基于数据挖掘的地铁车站基坑工程安全评估与变形预测研究[D].上海:同济大学博士学位论文,2007.

[5]刘传正.突发性地质灾害的监测预警问题[J].水文地质工程地质,2005(3):81-82.

[6]M.G.Angelia,A.Pasuto,S.Silvano.A critical review of landslide monitoring experiences[J].Engineering Geology,2007(3):11-12.

[7]Harp EL,Reid ME,McKenna JP,et al.Mapping of hazard from rainfall-triggered landslides in developing countries:Examples from Honduras and Micronesia[J].Engineering Geology,2009,104(3):295-311.

[8]Fell R,Cororninas J,Bonnard C,et al.Guidelines for landslide susceptibility,hazard and risk-zoning for land use planning[J].Engineering Geology,2009,102(3):85-98.

[9]杨清丽.基于空间数据挖掘的战场地理环境分析系统研究[D].重庆:重庆大学学位论文,2008.

[10]滕明鑫.基于神经网络的动态数据挖掘研究[D].重庆:重庆大学学位论文,2008.

[11]段江娇.基于模型的时间序列数据挖掘[D].上海:复旦大学博士学位论文,2008.

[12]冯 征.数据挖掘方法在财务预警中的应用研究[D].天津:天津大学博士学位论文,2007.

[13]郑宏珍,初佃辉,战德臣,等.基于数据挖掘的符号序列聚类相似度量模型[J].计算机工程,2009,35(1):178-194.

[14]Lowe D G.Distinctive Image Features from Scale-invariant Keypoints[J].International Journalof Computer Vision,2004,60(2):91-110.

[15]张立权.基于模糊推理系统的工业过程数据挖掘[D].大连:大连理工大学博士学位论文,2007.

猜你喜欢
决策树数据挖掘边坡
这边山 那边坡
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
水利水电工程高边坡的治理与加固探讨
基于决策树的出租车乘客出行目的识别
基于SLOPE/W的边坡稳定分析
基于不同软件对高边坡稳定计算
一种基于Hadoop的大数据挖掘云服务及应用