岩爆预测GSK-AdaBoost-Random Forest模型

2021-11-08 08:51纪俊红昌润琪马铭阳李莎莎
关键词:岩爆倾向性实例

纪俊红,昌润琪,2,马铭阳,李莎莎

(1.辽宁工程技术大学安全科学与工程学院,辽宁 葫芦岛 125105;2.华润万家有限公司,广东 深圳 518000;3.辽宁工程技术大学工商管理学院,辽宁 葫芦岛 125105)

岩爆是高地应力条件下,地下工程中岩体的应变能突然发生释放的一种地质灾害现象[1],破坏性极强,严重威胁施工人员和设备的安全,属于地下工程中的世界性难题[2]。应用的岩爆预测方法主要是实测法和理论法两类[3-5]。实测法是应用相应的仪器直接测试或监测发生岩爆的可能性。理论法主要是应用Russenes、Turchaninov等判别准则预测岩爆或基于岩爆实例建立经验性模型[6]。但是,岩爆的发生机制受工程类型、开挖方法、岩体结构及岩石物理力学参数等多种因素的影响[7],时空分布及其演化非常复杂,实测法和传统的判别准则难以准确描述众多影响因素与岩爆倾向性之间的关系[8-9]。应用分析算法建立预测模型可以综合考虑多种评价指标,预测结果可靠性高[10]。神经网络具有自适应性强、自学习能力较强等特点,白明洲、杨涛等[6,11]建立了基于BP人工神经网络的岩爆预测模型。葛启发等[12]基于AdaBoost集成BP神经网络构建了预测岩爆等级的强分类器。孙臣生[13]将非线性理论与网络分析法有机结合,构建了岩爆预测改进模型。处理复杂非线性问题时较具优越性的支持向量机算法也被广泛应用到岩爆预测领域。温廷新等[14-15]应用遗传算法和粒子群分析等不同算法优化了支持向量机,进而构建了岩爆预测模型。汤志立等[7]对比了随机森林、决策树等多种基本算法构建的岩爆预测模型的准确率。

神经网络存在学习时间长、可能陷入局部最小值的不足。支持向量机在解决非线性问题时,找到一个合适的核函数较为困难,在大样本容量场景中效率较低。另外,现有大部分研究主要关注建立岩爆预测改进模型,同时实现模型输入评价指标优选的研究较少,而岩爆评价指标作为模型的输入变量,直接影响模型预测性能。基于此,笔者将效率较高且易于实现的随机森林作为基本算法,综合改进随机森林模型和甄选输入的评价指标两种方案构建基于随机森林的岩爆预测改进模型。根据参数寻优和基于AdaBoost集成两种思路构建随机森林改进模型,基于岩爆形成机理和现有经验构建了6种评价指标组合,分别作为模型的输入变量。比较分析不同评价指标组合、不同模型的预测准确率,最终得到了预测性能较佳的基于GSK-AdaBoost-Random Forest的岩爆预测改进模型,将其与常用判别准则的分类准确率进行对比,并应用其进行工程实例验证。

1 构建随机森林改进模型

1.1 模型设计原理

随机森林是一种由多棵决策树集成的机器学习算法[16],保持了较高的预测准确率,还具有不易出现过抗拟合、对异常值和噪声的容忍度较高等特点[17]。因此,笔者将其作为基本算法,探究其在岩爆预测领域的应用。然而,单一模型泛化能力有限,且对样本集依赖性较强。AdaBoost是一种自适应的Boosting集成算法[18],能够将多个弱分类器加权组合形成一个强分类器,改善单一模型的不足,实现提升预测精度的目的。因此,笔者基于AdaBoost集成多个随机森林建立岩爆倾向性预测模型。

随机森林和AdaBoost均包含多个超参数,超参数取值极大影响模型预测效果。网格搜索法(Grid Search)可以循环遍历所有候选参数,从而得到最佳参数组合。因此,笔者应用了网格搜索法。为避免模型出现过拟合,将其与K折交叉验证结合,组成K折网格搜索交叉验证法(Grid Search and K-Cross-Validation,GSK)作为参数寻优方法,笔者应用5折交叉验证,用于优化随机森林和AdaBoost的主要超参数。得到了GSK-AdaBoost-Random Forest模型(见图1)。

图1 模型设计原理Fig.1 The design principle of the model

1.2 模型的构建

GSK-AdaBoost-Random Forest模型具体建模过程如图2所示。

图2 模型构建流程Fig.2 Model building process

第1步:构建样本集。采集样本数据,结合实际,进行数据预处理,整理成含M组数据的样本集。

第2步:初始化随机森林模型。随机设置超参数的值,应用样本集训练基于随机森林的预测模型。

第3步:建立基预测器。应用5折网格搜索交叉验证法对随机森林的主要超参数进行参数寻优,获得较优的超参数取值,据此构建参数优化的随机森林模型(GSK-Random Forest)作为基预测器。

第4步:构建AdaBoost-Random Forest集成模型。以GSK-Random Forest为基预测器,随机设置AdaBoost的超参数取值,基于AdaBoost训练多个GSK-Random Forest,加权组合得到AdaBoost-Random Forest集成模型。

(1)初始化迭代次数n=1时,训练样本的权重分布Dn(i)。

i=1,2,…,m.

(1)

(2)迭代训练基预测器Gn(x)。

(3)计算Gn(x)的分类误差率en。

(2)

(4)计算基预测器在强预测器中所占权重αn。

(3)

(5)更新样本权值分布,提高分类错误的样本的权重Dn+1。

Dn+1=(ωn+1,1,ωn+1,2,…,ωn+1,m).

(4)

i=1,2,…,m。

其中,规范化因子Zn的求法。

(5)

(6)将基预测器加权组合,形成强预测器。

(6)

(7)

第5步:建立参数优化的集成模型。应用5折网格搜索交叉验证法对AdaBoost的主要超参数进行参数寻优,输出寻优结果,由此构建参数优化的集成随机森林模型。

2 岩爆预测

2.1 评价指标选取

岩爆多发生在具有大量弹性应变能储备的硬质脆性岩体中,是一种极复杂的动力破坏现象[19-20]。成因分为内因和外因两种,内因主要指高围岩应力和高储能体的存在,外因是工程开采导致周边围岩应力发生变异[21-22]。国内外学者进行岩爆预测研究时主要考虑洞壁围岩最大切应力σθ,MPa;单轴抗压强度σc,MPa;单轴抗拉强度σt,MPa;应力系数σθ/σc;脆性系数σc/σt及弹性能量指数Wet,6种评价指标,不同岩爆预测模型的评价指标及输出如表1所示。

表1 岩爆预测模型的评价指标及输出Table 1 Evaluation indicators and output of rockburst prediction model

不同评价指标对岩爆烈度的影响各不相同,为选出最优评价指标组合,在训练模型前,根据岩爆成因和现有经验,将6种评价指标构建成表2所示6种不同组合:A、B、C、D、E和F。构建预测模型时,分别将6种评价指标组合作为输入变量训练模型,得到基于不同评价指标组合时不同模型的分类性能,进而确定出岩爆预测的最优评价指标组合。

表2 岩爆评价指标组合Table 2 Combinations of rockburstevaluation indicators

2.2 样本采集与预处理

笔者从文献[14]采集了132组岩爆实例数据,作为实验的原始数据。其中有24组数据有明显缺失,为增强数据的可靠性,减少噪声对模型的影响,选取其中108组完整无缺失的数据作为样本数据。根据发生的剧烈程度和破坏特征,国际上普遍认可的做法是将岩爆分为无岩爆(0)、弱岩爆(1)、中等岩爆(2)和强岩爆(3)4个等级。文中无岩爆18例、弱岩爆32例、中等岩爆44例、强岩爆14例,无岩爆和强岩爆样本数量显著少于弱岩爆及中等岩爆样本数量,样本类别数据不均衡现象较明显。机器学习算法的目标通常是总体准确率最大,因此,在不均衡数据集场景中,算法会过多地关注多数类,进而可能导致模型出现过拟合的问题。为降低不均衡数据集对模型性能的影响,笔者应用随机过采样技术随机复制少数类样本,以增加其频数,直至少数类和多数类样本频数达到均衡。最终得到包含166组实例数据的样本集。为提升预测模型的泛化能力,对样本集进行随机打乱处理。

采集的岩爆案例中的6个评价指标均为数值型数据,不同评价指标的单位、取值范围不尽相同。为提高预测准确性,减少特征量纲、规模差异对模型的影响,应用统一极差处理法对数据进行无量纲化处理,得到了用于训练模型的无量纲化样本集。

(9)

式中:x为无量纲化后的数据;x*为原始数据;xmax为最大评价指标值;xmin为最小评价指标值。

2.3 模型分类性能评估

应用Python中的Scikit-learn机器学习基础算法包实现实验。将准确率作为衡量模型性能的评价指标,评估分类模型的预测性能。基于样本集,按照3∶1的比例划分训练集和测试集,应用6种评价指标组合训练模型,实现岩爆倾向性预测。为验证GSK-AdaBoost-Random Forest模型在预测岩爆倾向性方面具有优越性,笔者同时使用不同的评价指标组合分别与Random Forest、GSK-Random Forest和AdaBoost-Random Forest这3个模型结合构建预测模型,各岩爆预测模型的准确率如表3所示。

表3 不同模型采用不同评价指标时的准确率Table 3 Accuracy of different models with different evaluation indicators

4种不同模型采用6种不同评价指标时的模型准确率为0.524~0.857。其中,GSK-AdaBoost-Random Forest表现最理想,准确率均值为0.817;其次是AdaBoost-Random Forest,准确率均值为0.726;表现最不理想的是Random Forest,准确率均值为0.627。由此说明,基于AdaBoost集成多个Random Forest基预测器,并应用5折网格搜索交叉验证法进行参数寻优,实现了提高模型预测精度的目的,提高了模型的预测准确率。

4种模型中,GSK-AdaBoost-Random Forest对评价指标的选择敏感性最差,应用不同评价指标时的准确率为0.785~0.857;最敏感的是GSK-Random Forest,应用不同评价指标时的准确率为0.571~0.786;其次是Random Forest。采用特征组合B时,不同模型的平均准确率达最大,为0.786;其次为采用特征组合C时为0.744;采用特征组合F时,不同模型的平均准确率达最小,为0.673。采用指标组合B且基于GSK-AdaBoost-Random Forest模型时,预测准确率达最大,为0.857。

笔者构建的模型中,以B组σθ、σc、σt、Wet为评价指标,构建的基于GSK-AdaBoost-Random Forest的岩爆预测模型的分类准确率最高。

2.4 常用判别准则性能分析

为检验建立的预测模型的改进效果,应用5个常用岩爆判别准则对样本集中的166组岩爆实例进行分类。根据这些岩爆实例的真实分类情况,对不同判别准则的预测准确率进行计算(见表4),应用不同判别准则进行岩爆分类的准确率为0.235~0.518,将弹性能量指数作为判据进行分类效果最好。常用判别准则的分类准确率远低于文中构建的基于GSK-AdaBoost-Random Forest的岩爆预测模型的准确率,应用常用的判别准则对岩爆实例进行分类远不及GSK-AdaBoost-Random Forest模型可靠。因为岩爆发生机制在主观、客观两方面都是相对随机的、模糊的,影响因素众多,与岩爆倾向性之间是非线性关系,应用几个评价指标建立的简单关系式很难准确判别岩爆倾向性。因此,笔者构建的基于GSK-AdaBoost-Random Forest的岩爆倾向性预测模型综合考虑了多种因素的复杂关系,可以更为准确的预测岩爆倾向性。

表4 不同学者主张的判别准则分类准确率Table 4 Classification accuracy of discriminant criteria advocated by different scholars

3 工程应用检验

为检验岩爆倾向性预测GSK-AdaBoost-Random Forest模型的可行性,从文献[12]采集了8个国内外工程实例数据(见表5)。

表5 岩爆工程实例数据Table 5 Data of rockburst engineering instance

采用基于GSK-AdaBoost-Random Forest的岩爆倾向性预测模型及3个对照模型对表5的8个工程实例岩爆倾向性进行预测,输入的评价指标组合采用最优的B组,岩爆工程实例预测结果如表6所示。8个工程的实际烈度分别是2、1、0、2、0、0、2、1。从表6可以看出,基于Random Forest的模型预测正确的工程数最少,为4个;基于GSK-Random Forest的模型准确预测了6个工程的岩爆倾向性;基于AdaBoost-Random Forest的模型准确预测了7个工程的岩爆倾向性;基于GSK-AdaBoost-Random Forest的模型预测结果最准确,正确预测了全部实例的岩爆倾向性。分析结果与工程实际情况具有较好的一致性,以σθ、σc、σt、Wet为评价指标,构建基于GSK-AdaBoost-Random Forest的岩爆预测模型可行。

表6 岩爆工程实例预测结果Table 6 Forecast results of rockburst engineering examples

4 结 论

(1)建立的GSK-AdaBoost-Random Forest模型易于实现,准确率较高,最高达0.857,较常规随机森林模型的最高准确率0.69提升明显。

(2)最优的评价指标组合为σθ、σc、σt、Wet,以该组合为输入变量的GSK-AdaBoost-Random Forest模型准确率最高,为0.857,明显高于常用判别准则的分类性能,最高达0.53。解决了传统模型泛化能力有限,输入变量存在不足等问题,所建模型更加可靠、对样本集的依赖性更低。

(3)对8个工程实例岩爆倾向性的预测研究验证了GSK-AdaBoost-Random Forest模型的优越性,说明建立的以σθ、σc、σt、Wet为评价指标的岩爆预测GSK-AdaBoost-Random Forest模型的正确性、可行性,且不易发生过拟合。

猜你喜欢
岩爆倾向性实例
高速公路隧道施工岩爆的防治技术
使用声发射测试结果预判岩爆等级
基于模糊数学法的阿舍勒铜矿深部岩体岩爆倾向性预测
开绕一号公路隧道岩爆强度评判
引汉济渭工程秦岭隧洞岩爆数值模拟与岩爆预测研究
关于医患冲突报道的倾向性分析——以“湘潭产妇死亡案”为例
“没准儿”“不一定”“不见得”和“说不定”的语义倾向性和主观性差异
一种面向博客群的主题倾向性分析模型
完形填空Ⅱ
完形填空Ⅰ