贺 攀,郭荣昌,张 蕊,余岭燕
(兰州交通大学自动化与电气工程学院,兰州 730070)
滑坡是土壤、泥浆、岩屑或岩石的坡面运动,是陆地斜坡环境中普遍存在的一种地质灾害[1].铁路沿线常遭受滑坡危害,滑坡对乘客生命财产和铁路线路造成了严重的威胁,据初步统计,成都至白玉段铁路沿线发育有滑坡126处[2].滑坡危险性(发生的概率大小)评价可为滑坡防治提供技术支撑,滑坡评价因子合理选取是危险性评价的重要部分.
已有研究常依据专家经验以及分析滑坡的触发机制、孕灾环境来进行滑坡评价因子选取,并采用不同的算法计算评价因子对于滑坡的贡献率,进行因子筛选.针对滑坡危险性评价因子选取和筛选,文献[3]通过计算因子间协方差和相关矩阵,选取满足相互独立的评价因子用于滑坡易发性评价;文献[4]从16个评价因子中选取30组评价因子组合,对比不同评价因子组合对应的模型精度,得到了最佳评价因子组合,也解决了因子共线性问题;文献[5]选用主成分分析和特征递归消除,从92个特征中分别筛选出15个和30个特征用于滑坡灾害空间预测,实验表明特征递归消除法筛选得到的评价因子组合所对应的模型预测精度更高;文献[6]使用因子相关分析、主成分分析和粗糙集对滑坡评价因子进行筛选和约简,经实验验证,筛选和约简后评价因子可提高评价结果的精度和准确性;文献[7]提出Apriori算法对滑坡评价因子进行强关联分析,用于因子筛选,实验结果表明采用Apriori算法从预选因子中选取导致滑坡发生可能性较大的因子进行组合,所得到评价结果与实际滑坡分布更加吻合;文献[8]采用遗传算法优化后的粗糙集对滑坡评价因子进行约简,表明选用约简后的评价因子所对应的评价模型精度更高.以上研究,多采用单个因子筛选法生成评价因子组合,较少进行因子筛选方法对比,因此,有必要采用不同因子筛选法生成多个评价因子组合,对比评价因子组合的合理性和准确性,选取最适合研究区域的评价因子组合,用于滑坡危险性评价.
综合已有研究,按照以下三点进行评价因子选取和筛选:1)综合考虑专家经验与实地滑坡调查,预选滑坡评价因子;2)选取的评价因子间应相对独立,降低评价结果过拟合现象[9];3)在评价因子筛选的过程中,要考虑各评价因子的权重大小以及相关性,应选取滑坡发育的主要影响因素作为评价因子,舍去次要和冗余因子,以达到简化评价模型的目的.因此,首先,通过遥感解译影像、收集的滑坡资料以及野外调查,预选滑坡评价因子,建立滑坡灾害空间数据库,并对预选因子进行共线性检验,确保因子间相互独立;然后,选用主成分分析法、粗糙集和灰色关联3种因子筛选方法,生成不同的评价因子组合;最后,将不同的评价因子组合输入到滑坡危险性评价性能较好的随机森林[10]、支持向量机[11]、逻辑回归[12]3种评价模型,通过对比模型精度,选择最优的评价因子组合和模型进行危险性评价,使之达到最佳的铁路沿线滑坡危险性评价效果,为铁路的规划建设和后期列车安全运营、防灾减害提供参考依据.
雅安至巴塘段铁路位于四川省西部,全长约520 km,途径雅安、天全、泸定、康定、雅江、理塘和巴塘等站.区域内的铁路沿线区域气候复杂多变,断裂构造发育,地质灾害点多面广、险情重、危害大.该区域内滑坡多为降雨型滑坡,年降水量在500~1 600 mm之间,降水主要集中在5~9月.
通过对研究区域滑坡点的勘察和四川省自然资源厅对研究区域滑坡灾害的信息公布,分析滑坡的成灾原因和孕灾环境,并结合前人的研究[13-15],选取剖面曲率D1、平面曲率D2、坡向D3、高程D4、坡度D5、地层岩性 D6、距断层距离 D7、距河流距离 D8、植被覆盖率D9、降雨量D10、土地利用类型D11和人类工程活动D12共12个因子作为预选评价因子,这些因子可以综合呈现研究区域的地质条件、地貌条件以及滑坡灾害的触发条件等情况.其中:选取当次降雨过程中最大24 h降雨量表示D10;用距道路距离表示D12.各评价因子数据来源见表1.
表1 评价因子数据来源Tab.1 Data sources of evaluation factors
该区域历史滑坡数据来源于中国科学院资源环境科学与数据中心,包括滑坡位置信息、灾害险情等级、滑坡伤亡人数、财产损失、滑坡构造和防治建议等信息,铁路沿线滑坡分布情况如图1所示.提取研究区域内160处历史滑坡灾害和160处非滑坡建立滑坡灾害空间数据库,其中:非滑坡为历史滑坡点附近500 m以内随机非滑坡点.
图1 研究区域铁路沿线滑坡分布图Fig.1 Distribution map of landslides along the railway in the study area
基于不同评价因子组合的铁路沿线滑坡危险性评价流程如图2所示,主要分为4个步骤:
图2 基于不同评价因子组合的铁路沿线滑坡危险性评价流程图Fig.2 Flow chart of landslide risk assessment along railway based on different combination of evaluation factors
Step1:对预选的12个滑坡评价因子进行共线性检验;
Step2:采用主成分分析法(principal component analysis,PCA)、粗糙集(rough set,RS)和灰色关联分析法(grey relation analysis,GRA)3种因子筛选法生成不同评价因子组合;
Step3:将评价因子组合输入到随机森林、支持向量机、逻辑回归3种评价模型,并计算模型精度;
Step4:对比模型精度大小,选择最佳的评价因子组合和评价模型用于滑坡危险性评价.
预选的滑坡评价因子间可能不是完全独立的,存在因子共线性问题,导致危险性评价结果的准确性降低,因此,在因子筛选和构建滑坡危险性评价模型之前,需要对预选因子进行多重共线性检验.当因子存在多重共线性时,因子重要性就会被影响,导致无法正确解释和理解特征;当因子不存在多重共线性时,方可用于因子筛选和模型训练.通过计算容忍度(T)和方差膨胀因子(VIF)的方式进行因子多重共线性检验,计算公式为
其中:A2为评价因子间的方差.
主成分分析法通过对数据进行降维,构造原始因素之间的线性组合,减少数据的维度,降维后的数据产生的主成分之间互不相关,且主成分能够反映原始因素所提供的大部分信息[16].计算各评价因子的特征值和贡献率,利用各主成分累计贡献率(一般达到85%以上)确定主成分的个数[17],从而确定选取和剔除的因子.
粗糙集是一种能够处理不完整、不确定信息的归纳、分类方法[18],其主要用于约简初始的评价指标,使得在保持属性分类性能基本不变的情况下,剔除冗余因子,从而保留核因子.
灰色关联分析法是根据指标之间的相似程度来衡量样本与参考样本之间关联程度的一种方法[19].首先,选取评价因子的最优值或最劣值组成参考样本x0;接着,采用均值化处理评价因子,得到n组样本m个指标的样本矩阵;然后,计算比较样本xi与参考样本的绝对差值 |x0(k)-xi(k)|(k=1,2,…,m;i=1,2,…,n)以及绝对差值的最大值与最小值;最后,通过式(2)~(3)计算关联系数ξi和关联度ri.关联度为各因子对于滑坡事件发生的贡献率,按照因子的关联度由大到小进行累加,选取满足累计贡献率要求的因子,从而剔除其余因子.参考主成分分析法的累计贡献率,设置灰色关联分析法累计贡献率为85%.
其中:ρ为分辨系数,一般取值为 0.5[19].
预选评价因子中可能存在贡献率较弱的因子,这些因子在造成复杂计算程度的同时,还将影响计算的效率以及准确度.使用PCA,RS,GRA对预选因子进行筛选或约简,根据各自的量化方法,选取贡献率较大的滑坡评价因子或者核因子,生成3种评价因子组合.
随机森林(random forest,RF)是机器学习算法中的一种组合分类器,从N个样本中有放回抽取n个样本(n<N),从K个总属性中选取k个属性(k<K),基于基尼指数选择最佳分割属性创建决策树,通过Bagging算法可集成多个决策树,从而组成随机森林[20].随机森林训练速度快,不易“过拟合”,对噪声和异常值的容忍度好[21].
支持向量机(support vector machine,SVM)在处理二分类问题中寻找最优的超平面,以最大间隔区分它们[22].对于线性可分数据,寻找最大间距来完成分类;处理非线性可分数据时,通过核函数将其映射到高维空间,完成线性可分,引入松弛变量来控制分类误差.
逻辑回归(logistic regression,LR)原理是将线性回归的结果映射到0~1之间,适用于因变量为二分类的问题,且对数据要求较为宽松[23].用于滑坡危险性评价时,自变量为滑坡评价因子,因变量为滑坡是否发生,其中:0表示滑坡未发生;1表示滑坡发生.通过建立最优的拟合函数揭示自变量和因变量之间关系.
对随机森林、支持向量机进行参数调整,用于优化模型精度;然后,将筛选后的评价因子组合分别输入到随机森林、支持向量机、逻辑回归3种评价模型,并计算3种评价因子组合分别输入到3种评价模型的预测精度.
选用预测精度最佳的评价因子组合和模型生成研究区域滑坡危险性分布图,根据危险性大小划分风险等级.统计分析铁路线路危险区域分布情况,并对滑坡隐患点进行验证,完成铁路沿线滑坡危险性评价.
通过计算评价因子容忍度和方差膨胀因子的方式进行因子多重共线性检验,检验结果见表2.当容忍度小于0.1或方差膨胀因子大于10,认为因子存在共线性[24],表2中各因子容忍度和方差膨胀因子不符合共线性条件,因此,认为所选因子之间相关性弱或不相关,预选的12个滑坡评价因子满足相互独立的要求,可直接用于因子筛选和参与模型训练,并将此12个评价因子作为评价因子组合一.
表2 评价因子共线性检验表Tab.2 Evaluation factor collinearity test table
预选的12个滑坡评价因子中可能包括相关性较差的评价因子,因此,选用SPSS25软件对评价因子进行主成分分析,计算各评价因子特征值和累计贡献率,计算结果见表3.当累计贡献率达到86.94%时,剔除未参与计算累计贡献率的评价因子,即剔除剖面曲率、平面曲率、到断层距离和土地利用类型,保留降雨、坡度、到河流距离、植被覆盖率、人类工程活动、地层岩性、坡向和高程,并将此8个评价因子作为评价因子组合二.
表3 评价因子的特征值和累计贡献率Tab.3 Eigenvalue and cum ulative contribution rate of evaluation factors
用粗糙集进行因子筛选,将预选的12个评价因子作为条件属性,选择滑坡发生与不发生作为决策属性,构建初始决策表,对初始决策表进行属性约简,找出最小的条件属性集和滑坡核属性.使用Rosetta软件对条件属性和相应的决策属性进行属性约简,最终得到8个核因子,分别是降雨、地层岩性、到断层距离、坡度、坡向、到河流距离、植被覆盖率和人类工程活动,将此8个核因子作为评价因子组合三,剔除剖面曲率、平面曲率、土地利用类型和高程.
对预选的12个评价因子进行灰色关联分析,确定参考样本后生成样本矩阵,通过计算比较样本和参考样本的差值,求得关联系数以及关联度.各因子的关联度为因子对于滑坡事件发生的贡献率大小,关联度和累计贡献率计算结果见表4.当累计贡献率达到85.1%时,剔除未参与计算累计贡献率的评价因子,即剔除到河流距离、坡向、平面曲率和剖面曲率,保留降雨、坡度、地层岩性、人类工程活动、植被覆盖率、土地利用类型、到断层距离和高程,将此8个评价因子作为评价因子组合四.
表4 评价因子的灰色关联度和累计贡献率Tab.4 Grey relation degree and cumulative contribution rate of evaluation factors
将320组数据按照7:3划分训练集和测试集,即224组数据用于训练,96组数据用于测试,将滑坡数据标记为1,非滑坡数据标记为0.为了使评价模型满足精度要求,对随机森林模型各参数进行寻优,再利用网格搜索和交叉验证得到各参数最优值为:n-estimators=69,max-features=3,min-samplesleaf=3,max-depth=12;对支持向量机模型进行参数调整,选择核函数为径向基核函数,通过交叉验证得到核函数中的参数γ为0.8,以及支持向量机模型中惩罚系数c为10.
受试者工作特征曲线(receiver operating characteristic curve,ROC曲线)已广泛应用于地质灾害危险性评价结果精度分析中[25].ROC曲线使用曲线下面积(area under curve,AUC)值衡量模型的预测精度,AUC值为0至1,越接近于1,说明模型精度越好.将评价因子组合一、二、三、四分别输入到RF,SVM和LR 3种评价模型,生成ROC曲线并计算模型AUC值,最后共得到12种不同组合的ROC曲线,实验结果如图3所示.图 3(a)、(b)、(c)分别为4种评价因子组合输入到RF,SVM和LR模型中的ROC曲线,12种组合的模型AUC值见表5.由表5可知:评价因子组合四输入随机森林模型中所得到的预测精度最佳,且AUC值为0.886 1.对比12种组合模型的AUC值可知:PCA,RS和GRA 3种筛选因子的方法可提高评价模型的预测精度,且AUC值平均提高0.034 6,0.044 8和0.054 5.对比 RF,SVM和LR 3种评价模型AUC值可知,随机森林整体预测精度较高.
表5 12种组合模型的AUC值Tab.5 AUC values of 12 combined models
图3 12种组合模型的ROC曲线Fig.3 ROC curves of 12 combined models
综上,在雅安至巴塘段铁路沿线滑坡危险性评价中,评价因子组合四输入随机森林模型中所得到的预测精度最佳,因此,选用评价因子组合四和随机森林模型开展研究区滑坡危险性评价.
选用灰色关联分析法筛选得到的评价因子组合四输入到随机森林模型,进行滑坡危险性评价,计算滑坡危险性大小,并生成滑坡危险性分布图,如图4所示.基于自然断点法将滑坡危险性评价结果划分为低、较低、中、较高和高5个风险等级,普遍认为较高和高风险地区为易受滑坡威胁的区域.选取103个滑坡隐患点用于检验滑坡危险性评价结果,可得86.4%的滑坡隐患点位于较高和高风险地区,即认为验证精度为86.4%.对图4滑坡危险性分布图进行统计分析,得到各风险度级别中铁路长度及比例(见表6),其中:位于高和较高风险地区的铁路线路长度分别为10.9 km(2.1%)和48.7 km(9.4%),且较多分布在雅安地区.评价结果与现场调查结果基本一致,经过现场调查分析,雅安地区铁路沿线滑坡危险性较高的主要原因为雅安降雨量较大,造成坡体的抗剪强度降低,加速坡体解体破坏,其中:雅安市近60年平均年降雨量为1 664.3 mm,为研究区域内最高,而巴塘县近60年平均年降雨量为497.4 mm,为研究区域最低,同时雅安人类工程活动较强烈,道路和居民地分布较为密集,为滑坡发生提供了良好的孕灾环境.在线路建设时,使用科学手段监测危险性较大的坡体,提前做好防御滑坡的措施,以防止滑坡对铁路线路造成巨大的损害;在后期铁路运营时,将滑坡灾害危险性评价结果与铁路信号预警系统紧密结合,保证列车安全运行,为铁路运营提供安全保障.
表6 各风险级别中铁路长度及比例Tab.6 Length and proportion of railway in each risk level
图4 滑坡危险性分布图Fig.4 Landslide risk distribution map
以雅安至巴塘段铁路为研究区域,基于PCA,RS和GRA 3种因子筛选方法与RF,SVM和LR 3种评价模型组合的方法,选用预测精度最优的方法进行滑坡危险性评价,得到以下结论:
1)3种因子筛选方法使用不同的量化方法对评价因子的相关性进行分析,剔除相关性较差的因子,保留主要因子.筛选结果表明:降雨、坡度和地层岩性为导致滑坡事件发生的重要因子,平面曲率和剖面曲率与滑坡发生相关性较弱,分析结果与实际滑坡灾害经验分析相符.
2)12种组合模型中,灰色关联分析法筛选出的评价因子组合输入随机森林模型,其对应的模型预测精度最佳,AUC值为0.886 1.通过灰色关联分析法进行因子筛选提高了模型预测精度,AUC面积增大了0.071 9.
3)基于不同评价因子组合的铁路沿线滑坡危险性评价,选取最优的评价因子组合和评价模型,由其得到的滑坡危险性评价结果与滑坡灾害隐患相比,吻合程度达86.4%,证明此研究方法可靠、准确,具有一定的实用价值,可为雅安至巴塘段铁路的中期建设和后期运营中的风险管理提供一定的参考和技术支撑.