王 祥, 陈发达, 刘 凯, 吴贤国, 陈 彬
(1. 贵阳城市轨道交通有限公司, 贵州 贵阳 550091; 2. 华中科技大学 土木与水利工程学院, 湖北 武汉 430074)
随着我国城市化建设的飞速发展,城市人口密度越来越大,城市居民的出行需求急剧增加,同时,随着地面建筑和各种基础设施的大规模修建,城市用地愈来愈紧张,使得城市交通拥堵现象越来越严重,为了缓解交通拥堵压力,地下轨道交通的开发成为了一条有效的解决途径。地铁隧道在开挖时会不可避免地引起地层应力重分布和变形,从而引起地表的不均匀沉降,对周围环境产生不利影响,尤其是对于既有建筑物,地表极小的变形沉降都可能对建筑物结构的安全稳定性产生破坏,从而影响到建筑物的正常使用,甚至带来严重的生命财产损失。因此,对由地铁盾构施工引起的地表建筑物沉降进行有效预测,具有重要的现实意义和工程价值[1]。
目前国内外学者研究的隧道盾构施工引起地表和建筑物沉降方法主要有理论解析、实测分析法、有限单元法、智能算法等。其中用于预测地表和建筑物的沉降智能算法一般有BP(Back Propagation)神经网络、支持向量机、遗传算法、灰色预测模型等。魏健等[2]提出基于BP神经网络的建筑物沉降预测方法,以实际工程实例验证了BP神经网络对建筑物沉降预测的可行性,但其存在易陷入局部极值和收敛速度慢等缺点。程功等[3,4]采用支持向量机方法进行建筑物变形沉降预测,并得到了较好的预测结果,但是支持向量机在输入变量过多时,训练时间较长,且对缺失值较敏感。仵振东等[5]基于遗传算法分析建筑物沉降且获得较好的精度,但是遗传算法在涉及到大量数据处理时,计算时间相对较长,结果可靠性差,不能得到稳定的解。何君等[6]研究了灰色预测模型在建筑物沉降变形中的应用,由于灰色预测是统计预测,先要假设模型服从某种函数,精度取决于假设的正确性。
基于此,本文提出了基于随机森林-支持向量机算法(Random Forest and Support Vector Machines,RF-SVM)预测隧道盾构施工下建筑物的沉降,利用随机森林算法得出了不同影响因素的重要性程度,剔除重要性小的冗余变量特征,以此提取更优的特征信息,将降维的数据用于支持向量机预测模型的建立,模型以盾构施工实际工程为例,利用交叉验证法对训练集进行训练并选出最优参数,建立了隧道盾构施工下建筑物变形的RF-SVM训练模型,将训练模型对测试集进行预测并与实际值进行对比分析。
随机森林(RF)是一种基于分类树(Classification Tree)的统计学习理论,它利用Bootstrap重抽样方法将多个样本集从原始样本集中有放回地抽取出来,并对每个样本集分别进行决策树建模,每棵决策树在建模时随机选择特征对内部节点进行属性分裂,最终构成一片随机森林。随机森林模型具有以下优点:(1)具有良好的泛化能力,可以有效防止过拟合现象的出现;(2)能够对各个特征变量的重要程度进行计算;(3)对噪声的容忍度较好;(4)可以较好地解决不平衡分类问题[7]。
(1)随机森林的定义
随机森林模型是通过与随机向量有关的CART(Classification And Regression Tree)决策树生长构成的,CART决策树生长时采用二分递归分割技术进行分裂,采用“基尼指数”来进行划分属性的选择(what characteristics),样本集的纯度可用基尼值表示为:
(1)
式中:K为样本集合的类别数;pk表示选中的样本属于k类别的概率;1-pk为该样本被分错的概率。
(2)随机森林回归模型
随机森林回归(Random Forest Regression,RFR)模型在数据样本X和预测变量Y的基础上,生成依赖于随机变量θ的回归树,随机森林预测器就是由这些树h(X,θk)关于k取均值得到。从服从随机变量Y,X分布的样本集抽取多个独立样本构成训练集对其进行训练,每一个树预测器h(X)的均方泛化误差为EX,Y(Y-h(X))2。当随机森林中决策树的棵数ntree→∞时有[8,9]:
EX,Y(Y-avkh(X,θk))2→EX,Y(Y-Eθh(X,θ))2
(2)
式中:avk表示取平均。
由此可得随机森林回归函数为:
Y=Eθh(X,θ)
(3)
(3)变量的重要性评价
随机森林模型基于样本数据的袋外误差可以对变量特征的重要性进行评价,具体的评价方法主要有2种,一种是对每个特征按照Gini不纯度进行排序,另一种是计算每种特征对模型准确率的影响来进行重要度评分。这两个指标的值越大,则认为相应自变量对于因变量越重要,影响程度也就越高。得到每个特征变量的重要性程度后,利用序向后列法依次剔除重要性最小的特征,得到多个特征变量集并计算其误差率,误差率最小且变量数最少的特征变量集即为特征选择的结果。
支持向量机(SVM),以VC(Vapnik Chervonenkis)维理论和结构风险最小理论作为基础,是由Vapnik等人在统计学理论的基础上提出的一种针对于小样本的机器学习算法,在小样本和非线性问题中具有明显优势。对于非线性问题,SVM 方法的主要思想是将非线性函数关系映射到一个高维空间中,转换为高维空间的线性问题,再在这个高维空间中寻求最优回归超平面,使得所有样本离该最优超平面的距离最小[10]。设训练样本数为l,训练样本T={(x1,y1),(x2,y2),…,(xl,yl)},超平面的表达式为:
f(x)=wTφ(xi)+b
(4)
式中:w和x均为n维列向量;b为偏置顶,φ(xi)为非线性映射函数。通过引入目标函数来确定支持向量回归模型优化方程为:
(5)
式中:c为常数;ξi为松弛因子。
引入拉格朗日乘子αi,此时 SVM 通过二次规划的对偶形式来实现:
(6)
通过定义适当的核函数k(xi,xj)(i,j=1,2,…,l)来代替高维空间上的内积运算,其技巧就在于是在样本空间上执行内积的运算。目前常用的核函数有多项式函数、神经网络核函数以及高斯径向基核函数等,这里选取泛化能力较好的高斯径向基核函数(Radial Basis Function,RBF),其表达式如下:
(7)
式中:σ为核宽度参数。
得到最后回归函数为:
(8)
利用随机森林的重要性评价对变量特征进行筛选,再基于筛选后的特征变量集建立支持向量机模型进行回归预测,可以有效剔除冗余信息,优化支持向量机模型的输入,降低预测模型的训练维度,提高模型预测结果的可靠性和有效性[11]。基于随机森林的支持向量机建筑物沉降预测模型的流程图如图1所示。
图1 建筑物沉降的RF-SVM回归模型流程
Step1:建立原始训练集
(1)构建指标体系。基于大量工程实践和文献,分析相关影响因素,构建一套初级指标体系。
(2)建立原始训练集。将指标体系中不同类型指标作为随机森林的变量,收集统计相关数据,将对应的数据建立原始训练集。
Step2:随机森林降维
(1)变量重要性评价
通过袋外(Out-of-Bag,OOB)数据可以计算随机森林的袋外数据误差,将其记作errOOB1,然后对袋外数据OOB的所有样本的某个特征加入噪声干扰,再次计算袋外误差errOOB2,假设随机森林中决策树的棵数为Ntree,那么某个特征的重要性为:
Importance=∑(errOOB2-errOOB1)/Ntree
(9)
(2)变量剔除
对重要性评分、Gini指数的可视化绘图,得出不同变量的重要性强弱程度,然后据此从现有的特征集中依次剔除1个特征变量,直到剩下一个变量,从而得到多组不同的特征变量集;计算各特征变量集对应的OOB误差率并进行比较,选择误差率最小的特征变量集作为支持向量机模型的输入变量。
Step3:支持向量机模型建立
(1)核函数选择
支持向量机对非线性数据进行分析处理时,一般通过核函数映射将非线性问题转化为高维线性问题来解决,因此核函数的选取非常重要,它直接影响最终支持向量机模型的性能。多项式核函数、高斯核函数、Sigmoid核函数等为性能较好、使用频率较高的核函数,此处所使用的高斯核函数表达式如式(3)所示,兼具了径向基核函数的优势,还具有良好的抗干扰能力。
(2)参数优选
参数的选择影响模型优化,进而影响预测结果,理想的参数能增强SVM的学习和泛化能力。本文选取高斯函数作为核函数,因此需要找到一个最优的参数组合(C,σ),即惩罚因子C和RBF核函数核宽度参数σ。采取交叉验证(CV)来找出预测精度最高的参数,确定为最终的参数。
Step4:预测结果评价
(1)误差分析
选择未进行特征选择的支持向量机以及人工神经网络进行建模并做对比分析,选用均方误差RMSE、拟合优度R2等参数来评判模型的预测精度。表达式如式(10)(11)所示。
(10)
(11)
式中:n为训练的样本个数;yobs为实际值;ypred为预测值。
(2)敏感性分析
为了分析各安全指标之间的相互作用关系,运用Sobol指数法对输入指标进行全局敏感性进评价,输入参数的变化而引起模型结果的方差改变大小反映了研究参数的重要性和对模型结果变化的贡献程度。一阶灵敏度只反映了某一参数的不确定性对模型输出方差的直接贡献。参数总灵敏度反映了模型输出方差中,为某一参数的不确定性直接贡献加上该参数与其他参数交互作用所产生的间接贡献的总和。根据Sobol法的一阶敏感度和总敏感度计算公式如下:
(12)
(13)
式中:Si为参数的一阶敏感度值;Vi为某个参数的方差;V为系统的总方差;STi为参数的总敏感度值;VX~i(EXi(Y|X~i))为第i个参数Xi改变而其他参数不改变时输出的Y的偏方差;V(Y)表示输出的Y的总方差。
3.1.1 构建指标体系
本文通过大量工程实践经验和相关文献分析,提炼出盾构施工引起既有建筑物变形沉降的主要影响因素,主要包括隧道相关因素、水文地质条件、盾构施工参数、建筑物相关因素四种类型[12]。
(1)隧道相关因素:与隧道相关的参数是盾构隧道影响周围土体和构筑物非常重要的一类因素。根据相关的工程实践经验总结和相关的文献分析,隧道埋深、覆跨比和隧道直径等是对周围土体和构筑物影响最显著的几种相关参数。由于东方马城站至长丰站标段地铁隧道的直径基本无变化,难以体现出其对周围土体沉降的影响,因此本文选取了隧道埋深X1(m)和覆跨比X2(H/D)这两个因素对隧道相关情况进行表征,覆跨比是指隧道埋深H与隧道直径D之间的比值。
(2)水文地质条件:作为隧道施工和地表建筑物之间的中间作用媒介,不同条件的土体会带来不同的土层变形,进而对建筑物的影响程度也不同,因此,水文地质相关的因素对于盾构施工引起既有建筑物的变形破坏有着十分重要的作用。张志华[13]等对郑州地铁监测数据的分析结果表明,影响地表沉降的主要土体力学参数敏感度依次为内摩擦角、弹性模量、粘聚力、泊松比。此外,周诚[14]的相关研究也说明,在盾构施工引起的地表沉降中,内摩擦角、弹性模量、粘聚力等土体参数的影响十分明显。因此,本文选择内摩擦角X3(°)、弹性模量X4(MPa)、粘聚力X5(MPa)这三种因素作为水文地质条件参数。
(3)盾构施工参数:盾构施工过程中,盾构机的相关工作参数也会影响到周围土层的变形,进而影响到地表建筑物的变形沉降。基于大量工程实践和总结分析相关文献得到,盾构机的推进速度X6(mm/min)、刀盘扭矩X7(bar)、推进力X8(kN)、刀盘转速X9(r/min)、上部土仓压力X10(bar)、注浆量X11(m3)等参数在盾构施工中对周围环境有着非常重要的影响[15]。
(4)建筑物相关因素:建筑物承受外部荷载而发生变形沉降,不仅与外部环境影响有关,与建筑物自身条件也有很大关系。外部环境影响中不容忽视的因素就是建筑物与隧道的相对位置,相对位置越临近,建筑物变形沉降的风险就越大。建筑物与隧道在空间上的相对位置主要分为相对水平位置X12(e/D)、相对垂直位置X13(h/D)和相对纵向位置X14(l/D)三种。相对水平位置是指建筑物基础的轴线到隧道中轴线之间的水平距离e与隧道直径D的比值;相对垂直位置是指建筑物基础的轴线到隧道拱顶之间的垂直距离h与隧道直径D的比值,应当注意的是,桩基底部位于隧道拱顶平面下方时应当取正值,桩基底部位于隧道拱顶平面上方时应当取负值;相对纵向位置则是指建筑物基础的轴线到盾构掌子面之间的纵向距离l与隧道直径D的比值。至于隧道的自身条件,一般包括建筑物自身结构X15以及建筑物完好程度X16,其中建筑物结构包括了基础形式、结构形式、使用年限等。
本文从隧道相关因素、水文地质条件、盾构施工参数、建筑物相关因素等四个方面总结建筑物变形影响因素,并构建了盾构施工引起邻近建筑物变形沉降的影响因素指标体系,如图2所示。指标体系共分为三层,分别是目标层、因素层和指标层。指标层涉及地表建筑物变形沉降影响的16个因素,既有客观性因素(X1,X2,…,X14),又有主观性因素(X15,X16)。具体来说,客观因素中X1~X13的值可通过实际工程中具体的测量值来衡量,因素X12~X14的值则通过计算相对位置比值来衡量,而主观因素的值则由领域专家通过百分制打分来进行衡量。
图2 盾构施工引起邻近建筑物变形沉降影响因素指标体系
3.1.2 建立原始训练集样本数据
以盾构工程地表建筑物沉降作为输出变量。选取监测的400组数据作为原始训练集,部分数据如表1所示。
表1 监测的样本数据
直接选用上述16个影响因素建立预测模型容易产生过拟合现象,因此,需要先对影响因素进行筛选,剔除冗余变量,优选出新的影响因素集用于支持向量机建模。本文在参考大量文献基础上,最终创新性地使用随机森林算法对变量进行筛选,找出最优的变量组合以提高模型的预测精度。先将全部数据样本划分成容量为320的训练数据集和容量为80的测试数据集两部分。然后,利用R软件中Random Forest程序包来实现随机森林算法中的必要计算,从而对训练集中的影响因素进行特征选择。根据式(9)计算得到训练集中各指标的重要性,并将不同变量的重要性降序排列,其排列分布如表2所示。并据此将最不重要的变量特征逐次从现有的特征集中剔除,从而得到多组训练子集,计算每组训练子集的OBB误差率,选择误差最小的特征集作为备选特征变量集。
表2是随机森林训练模型中各变量的重要性度量,均方误差(MSE)的增加幅度越大以及节点纯度(InNodePurity)的变化幅度越大,说明该变量越重要。由表2可知,隧道埋深,建筑物完好程度、相对水平位置、覆跨比、推进速度、弹性模量等变量重要性度量值比较大,说明这些变量对沉降有较大的影响。
表2 变量的重要性排序
计算过程中,随着变量组合中特征数量减少,模型的均方根误差(RMSE)整体变化趋势为先下降后上升,说明模型的预测精度先上升后下降。这是因为模型的复杂程度以及模型分析变量特征和训练模型所需要的时间会随着变量个数的增加而增加,同时变量个数多也容易引起“维度灾难”,使得模型精确度降低;而通过特征选择,一些相关性小的变量特征能够被有效剔除,从而使模型的预测精度得到提高,但是变量特征的剔除存在一个限度值,这个限度值就是最优特征数量,此时如果继续剔除变量,会使得部分重要变量也被删掉,从而使模型的预测性能也随之降低。当影响因素组合的变量个数为6时,模型的均方根误差达到最小,此时模型的拟合优度R2也最高。
从整体上来说,利用随机森林对影响因素进行特征选择,剔除了冗余和不重要的指标,得到最优指标集,从而提高了模型的预测性能。由图2可知,筛选出的6个影响因素与影响因素重要度排序的前6个因素基本一致,只是具体的顺序稍有不同,这说明基于随机森林算法进行影响因素重要度排序能得到稳定性比较好的结果。因此本文最后筛选出的变量为:隧道埋深,建筑物完好程度、相对水平位置、覆跨比、弹性模量、推进速度,这些因素将用于后文支持向量机模型的构建。
本文随机选取360组数据作为支持向量机的训练样本,剩余80组数据作为测试数据,基于隧道埋深、建筑物完好程度、覆跨比、弹性模量、粘聚力、推进力共6个特征。调用R语言中的e1071 1.6-7程序包,使用tune函数作十折交叉验证实现参数寻优,gamma表示惩罚系数,cost表示核函数的宽度,寻优结果发现,当cost=10,gamma=0.1时,十折交叉验证的均方根误差mse最小,为0.6410707,则最优参数为cost=10,gamma=0.1。将最优参数输入到模型中,对训练集中的建筑物沉降进行拟合预测,拟合结果如图3所示,对测试样本的预测结果如图4所示。
图3 训练集拟合结果对比
图4 测试集预测结果对比
从图3可以看出,模拟值和实际值很接近,模拟效果较好。利用训练好的随机森林模型对测试集进行预测,从图4可以看出随机森林模型测试集上的预测值曲线较贴近真实值。
3.4.1 误差分析
为了检验基于随机森林的支持向量机模型(RF-SVM)的优越性,选择未进行特征选择的支持向量机以及人工神经网络进行建模并做对比分析,选用式(10)均方根误差RMSE和式(11)拟合优度R2来衡量模型的预测精度。R2是由统计模型解释的数据集中的可变性的比例,它提供了一种衡量模型对未来结果可能有多好的预测的指标。R2的范围在0~1之间,越靠近1表示观测数据越精确。RMSE值是估计量预测值与实际观测值之间的个体差异的总和。RMSE的值等于或大于0,越接近0表示观测数据在统计上越完美。得到误差结果对比如表3所示。
表3 误差比较
从预测结果可以看出:随机森林预测模型、支持向量机预测模型、人工神经网络预测模型的RMSE分别为0.126,0.847,2.05,R2分别为0.997,0.937,0.822,可以看出随机森林模型预测结果RMSE最小且R2最为接近1,说明随机森林模型预测结果最为贴近实际值,精度最高,效果更好。
3.4.2 敏感性分析
利用Sobol指数法对监测的400组数据各指标之间进行一阶和全局敏感性分析,得到各指标的敏感度,如图5所示。
图5 建筑沉降敏感性
以建筑沉降为目标函数,基于实际数据分布规律,令隧道安全指标隧道刀盘转速、注浆量、建筑物完好程度、推进速度、建筑物自身结构、刀盘扭矩等指标服从高斯分布,根据式(12)(13)计算得到以上指标关于建筑沉降的一阶敏感度和全局总敏感度,具体如图5所示。图5表明,以建筑沉降为目标函数,一阶敏感度和全局总敏感度最高的安全指标是隧道埋深,分别为0.338和0.347;隧道埋深的敏感度明显高于其他参数。隧道埋深、建筑物完好程度的一节敏感度(全局总敏感度)分别为0.238(0.247)和0.125(0.135);相对水平位置、覆跨比、弹性模量、推进速度的一节敏感度(全局总敏感度)分别为0.120(0.128),0.112(0.134),0.102(0.110),0.081(0.089),依次减小,说明这4个参数对建筑沉降的影响相对隧道埋深、建筑物完好程度较小。各参数的一阶敏感性和总敏感性比较接近,说明各指标对建筑沉降的影响规律比较相似。
(1)引入RF-SVM方法预测隧道盾构施工引起建筑物沉降,建立了RF-SVM预测地铁盾构引起建筑物沉降智能模型,并提出了相应的流程和步骤,RF-SVM预测模型通过得到变量重要性的排序,用Sobol指数法对变量进行全局敏感性分析,得出了与重要性排序一致的结果,在剔除重要性小的变量后,降低训练模型的维度,加快了训练速度,所提出的RF-SVM预测模型为实现建筑物变形预测提供了一种有效的工具。
(2)本文以盾构实际工程为例,剔除重要性小的变量后选取隧道埋深、建筑物完好程度、覆跨比、弹性模量、粘聚力、推进力共6个特征构建了基于RF-SVM预测建筑沉降训练模型,输入部分工程实际数据作为测试集,结果预测和验证了模型的准确性和可靠性。
(3)将RF-SVM模型和未进行特征选择的支持向量机模型、人工神经网络模型的计算结果进行了对比分析。结果表明,与支持向量机、人工神经网络预测模型相比,RF-SVM模型能够得到更准确、更稳定的预测结果,进一步说明了该模型具有良好的应用前景。