周玉祥,赵玉,聂仁东,丁丁,郭立华,周佳峥
1. 辽宁工程技术大学矿业学院,辽宁 阜新 123000;2. 华硕智慧科技(北京)有限公司技术部,北京 102200
土地沙漠化是当今全球最严重的环境与社会经济问题之一(Xue et al.,2019;Sterk et al.,2020)。中国是世界上沙漠化危害严重的国家之一,尤其是中国北方的土地沙漠化以其面积广大和发展迅速而引人关注(Sa et al.,2016)。近年来,中国北方春季沙尘暴频繁发生,自然生态环境进一步恶化,土地沙漠化地质灾害问题日趋严重,已对当地的经济发展和人民生命财产的安全构成威胁,直接影响了社会稳定(杨秀春等,2008)。
导致土地沙漠化的原因有内因和外因两种,内因包括地形和土壤性质,土壤性质又分为土壤物理因素和土壤化学因素,其中以土壤物理因素为主(Kisic et al.,2002;D’Odorico et al.,2013)。外因指大风、植被覆盖等(Aldrich,2020;Nguyen et al.,2021)。
国内外学者针对土地沙漠化的研究也一直在发展,目前关于土地沙漠化预警的方法也在不断地改进。Akbari et al.(2020)利用土地退化的有效关键指标,以预警地图的形式提供土地沙漠化风险的早期预警信息,确定了物理和人为过程及其相互关系。Gong et al.(2021)针对风沙荒漠化地区地下水动态在线监测现状,有效利用网络简化数据处理,增加预报预警功能,优化供电系统。Kim et al.(2021)基于土壤退化对大片地区造成重大的社会经济威胁,利用遥感数据监测沙漠地区风沙侵蚀也得到了很好的应用。
随着土地沙漠化范围的不断扩大,耕地数量减少,严重地影响和危害农业生产的发展(Kawanabe et al.,2001)。同时对中部城市群的经济发展也构成了威胁,尤其是近些年来每年春季沙尘暴频繁发生,沙漠化预警及其治理迫在眉睫(Sui et al.,2006)。目前,针对某一区域的土地沙漠化程度的评价研究及成因分析的文献资料较多,缺少比较完整的在不同尺度和不同区域都可利用的沙漠化过程动态评估方法或模型(Bergkamp,1995)。本文通过建立层次分析法与支持向量机模型(AHP-SVM)和层次分析法与随机森林模型(AHP-RF),结合项目报告《辽宁省下辽河平原沿河及沿海地区土地沙漠化研究》中提取的数据对下辽河平原沙漠化进行了评价监督预警,不仅对研究区的土地沙漠化情况进行了精准评价,还对研究区土地沙漠化发展趋势进行了预测,对区域土地沙漠化防治工作具有一定的指导借鉴意义。
研究区位于中国辽宁省中部的下辽河平原(图1),东西雁列辽东、辽西山地,北倚康法丘陵,南临渤海,纵长240 km,宽120-140 km。地理坐标为121°-123°50′E,40°30′-42°20′N,总面积16 550 km2,范围包括新民、辽中、台安、盘山和黑山5 个县。研究区沙漠化土地面积为816.56 km2,基于遥感图像解译,其中重度沙漠化类型约占总面积的4.86%。研究区年平均气温8 ℃;年平均降水量650 mm,多集中于6-8 月,占全年降水量的72%-77%(方静涛,2020)。研究区水系为辽河-双台子河水系,辽河-双台子河水系下游,坡降很小,河曲发育,泥砂淤积,河床升高,为补给地下水创造了有利的条件,构成区域地下水的主要补给方式。
图1 位置图Figure 1 Drawing of site
目前,关于土地沙漠化成因、土地沙漠化程度评判及预测的文献资料较多,本文重点关注某一地区土地沙漠化程度的评判及发展趋势预测模型研究。土地沙漠化的成因可归结自然因素和人为因素两个方面(马永欢等,2003)。自然地理条件和气候变异为沙漠化形成、发展创造了条件,人类活动则激发和加速了沙漠化的进程,成为土地沙漠化的主要原因。本文结合数学模型研究土地沙漠化程度及发展趋势预测。下辽河平原地处辽宁省中部,多为均匀下降的冲积平原,地貌类型包括辽河、浑河、太子河间地块冲积平原、柳河冲积波状平原、河床漫滩、海冲积三角洲平原和海积漫滩。结合相关文献资料选取了适合研究区域的“土壤质地(C1)”、“植被状况(C2)”、和“沙丘类型(C3)”和“裸沙占地百分比(C4)”作为土地沙漠化程度的评价指标,其分布特征如图2 所示。C2 与C4 特征分布相似,说明二者之间存在着一定的影响关系。
图2 评价指标特征小提琴图Figure 2 Violin diagram of evaluation index features
本文利用传统方法层次分析法(AHP)的多准则决策分析与支持向量机(SVM)将多维度非线性问题进行线性模型化、随机森林(RF)的择优选取等机器学习方法相结合并对比,分析出最佳的结合方法的同时,也提升了预警的精准度。
层次分析法(Analytic Hierarchy Process)以多准则决策方式把定性分析和定量分析结合了起来(Imamoglu et al.,2019)。因而在信息系统的分析中被广泛采用(Chen et al.,1994;Jin et al.,2017)。其主要步骤为构造判断矩阵、求解特征根和一致性检验。
本文针对下辽河平原土地沙漠化情况,构建了“土壤质地(C1)”、“植被状况(C2)”、和“沙丘类型(C3)”和“裸沙占地百分比(C4)”4 个评价指标,利用层次分析法确定他们的权重。之后再通过与RF 和与SVM 的结合,分析潜在沙漠化、轻度沙漠化、中度沙漠化以及重度沙漠化4 个指标在研究区的权重,从而得出沙漠化程度。
随机森林分类(RF)在给定自变量X下,每个决策树分类模型都通过一票投票来选择最优的分类结果(方匡南等,2011)。RF 算法流程如下:
(1)样本的随机:从样本集中用bagging 的方式,随机选择n个样本。
(2)特征的随机:从所有属性d中随机选择k个属性(k (3)重复以上两个步骤m次,建立m棵CART决策树。 (4)这m棵CART 决策树形成随机森林,通过投票表决结果,决定数据属于哪一类。 RF 能在训练过程中能够通过多棵决策树对任意一个指标计算出多个贡献率指数,对该数取平均即为该指标的贡献率(Xu et al.,2012)。与基尼变量贡献率相比,尤其是在变量之间存在潜在相关性的情况下,使用RF 对指标贡献率评估更加稳定(Aldrich,2020)。在本文中,主要是利用此方法的择优功能,与AHP 结合之后,进一步分析出最紧密的影响因素,提高监测预警的精准度。 支持向量机(SVM)是一种有监督的二元分类方法,在统计分类和回归分析中大范围的被应用。它是从结构风险最小化的概念发展而来的一种相对较新并且很有前途的分类模型(Xu et al.,2015;Abdelaziz et al.,2017)。 在非线性分类问题中,径向基核函数通常比其他核函数能获得更好的结果(Musavi et al.,1992;Robnik-Sikonja et al.,2013)。研究区中,沙漠化程度是一个复杂的系统,所包含的维度信息是多而不易统计的。为了能够把这些信息通过线性的方法表达出来,利用与AHP 相结合来分析监测预警的精准度。 为了能有效地对比RF和SVM模型对于土地沙漠化的预测能力,本文采用受试者工作特征曲线(Receiver-Operating Characteristic,ROC)以及曲线下面积(Area Under Curve,AUC)和准确度(Accuracy,ACC)对模型的性能进行评价。ROC曲线越靠近左上方越好,越往右下方越糟糕,曲线如果在虚线的下方,证明模型完全无法使用;AUC可用于判断模型的优劣,AUC 值介于0-1,值越高表明模型的精度越好。当AUC=0.5 时,说明模型不符合真实情况或不具备参考价值,反之AUC越接近1,说明该模型越准确(Chen et al.,2019)。其计算公式如下: 式中: B——曲线下面积,符号进行了修改,代指AUC; P——灾害点的总数; N——非灾害点的总数; TP——正确分类的灾害发生次数; TN——错误分类的灾害发生次数。 综上所述,在下辽河平原沙漠化土地程度评价的指标体系中,本文建立了C1-C4 等4 个评价指标结构。根据研究区下辽河平原的特点,对指标进行两两比较,构造沙漠化土地程度评价的指标的判断矩阵,从而确定各个指标的权重。采用层次分析法对土地沙漠化的评价指标层构造出判断矩阵A并按照上述确定土地沙漠化评价指标权重的步骤求出决策指标因素U1,U2,U3,U4 所对应的权重为ωi(i=1, 2, 3, 4)。其结果如表1 所示。 表1 判断矩阵ATable 1 Judgment Matrix A 在确定了不同指标的权重后,利用区域内不同土地沙化程度评价的指标进行加权和运算,可以得到土地沙化程度评价的指标对土地沙漠化的总体影响状况。在土地沙漠化指标的值与权重的设置中,其值与权重越大则它表示土地沙化的程度也就越大。本文以SI 指数代表土地沙漠化程度,其公式为: 式中: M——土地沙漠化程度,符号进行了修改,代指SI; i——第i类土地沙漠化类型,值越大则说明沙化程度越大; ωi——第i类土地沙漠化权重; Ai——第i类土地沙漠化评价指标; 经AHP 初步评价后,得到了研究区沙漠化的综合加权得分,如表2 所示。 表2 样本综合得分Table 2 Comprehensive scores of samples 本文共解译出研究区38 处沙漠化区域,根据SVM 和RF 模型的分类要求,将AHP 模型下的数据按照按沙漠化程度分级指标将样本划分为轻度(<50)、中度(50-70)和重度(>70)。将划分好的数据输入SVM和RF模型中,并基于上述方法,将数据集以0.7 和0.3 的比例随机化分训练集和测试集,完成AHP-SVM 和AHP-RF 模型的构建。其预测结果如表3 所示,AHP-RF 的预测结果相对较好,只出现了1 个样本的错误。 表3 样本综合得分Table 3 Comprehensive scores of samples 本研究构建的两个模型性能评价不一,准确度有所差别,选择合适的、最优的模型更有利于对研究区进行评价(范泽孟等,2020)。ROC 曲线和AUC 值可简单直观地体现模型地分类预测能力,不同模型的ROC 曲线如图3 所示。AHP-SVM 和AHP-RF 模型的AUC 值分别为0.73 和0.89。AHP-RF 模型显示了较高的准确率,RF 模型本身对异常值与噪声的敏感较低,可针对性处理大量的数据样本,能够有效避免分类结果的过拟合(Yang et al.,2021)。 图3 ROC 曲线图Figure 3 ROC curve 影响指标在各种评价预测中都十分重要,其合理选择是预测成功与否的关键(Yu et al.,2020)。本研究利用评价模型对研究区土地沙漠化进行了分类预测,其AUC 值显示了AHP-RF 模型的良好性能。因此,本研究基于AHP-RF 模型对研究区沙漠化影响指标进行了分析(图4)。在4 项影响指标中,C2 和C4 的影响最大,表明在土地沙漠化程度评价中“植被状况(C2)”和“裸沙占地百分比(C4)”两项指标起着决定作用,深入研究植被和裸沙的空间分布及其动态特征,为解释土地沙漠化变化的规律及其机制提供依据。植被稀少,岩土裸露面积增大,日照蒸发,风吹干燥作用随之增加,岩土内水分大量缺失,为土地沙漠化的形成提供了沙源。因此,沙漠化地区应重视植被的建设与管理,防止盲目开荒种地,致使一些固定沙丘被风蚀逐渐演化为半固定沙丘,导致土地沙漠化加剧。 图4 指标重要性图Figure 4 Indicator importance map 由于自然土地沙漠化过程和人为加速土地沙漠化过程两方面的共同作用,现阶段下辽河平原土地沙漠化程度仍在加剧,与1985 年调查资料进行对比分析,85 年下辽河平原土地沙漠化面积为232.46 km2,2007 年土地沙漠化面积增加到816.56 km2,22 年翻了近2 倍。本文基于AHP-RF 对研究区土地沙漠化的分类预测结果也表明,各种活动造成的植被稀少,水土流失严重,均说明土地沙漠化发展态势仍十分严峻。因此可以预见,下辽河平原沙漠化土地在今后相当长的时间内有进一步扩展的趋势,应采取积极的措施加以研究和整治沙漠化土地。 随着人口的持续增长、对粮食、副食燃料等各种需求的与日剧增,加上落后的生产方式不可能在近几年内有较大的改变,以及各种工程活动,导致研究区域植被状况恶化、裸沙占地百分比增加,进一步加剧了下辽河平原沙漠化的进程,在今后防治过程中应重点加强植被建设。 (1)采用流域单元作为评价单元,本文构建AHP-RF 和AHP-SVM 模型对下辽河平原沙漠化进行了分类预测。经对模型进行参数调优和对数据集优化,最终RF 模型的AUC 值达到了0.89,优于SVM 模型的AUC 值(0.73),表明随机森林模型更适用于研究区沙漠化的分类预测。 (2)本文采用7:3 的比例对数据集进行划分,以38 组数据为基础数据结合“土壤质地”、“植被状况”、“沙丘类型”和“裸沙占地百分比”4个指标构建的AHP-RF 模型,结果表明,植被状况、裸沙占地百分比为沙漠化的主控指标,其余两项因素也起到了重要作用。 (3)分析统计模型的预测结果发现,植被作为最重要的影响因素,受到了气候以及各种人类活动的多重影响,土地沙漠化恶化,针对改善植被状况的治理措施是首选。 本文在指标选取和处理过程中仍存在些许不足之处。机器耦合也有一定的局限性,在AHP-RF模型中,若影响因素增加,择优的难度就会增加,会出现权重数据接近的问题;在AHP-SVM 模型中,对于核函数的使用仍需扩展。在指标选取过程中具有一定的主观性,今后需要更进一步地分析诱发土地沙漠化的指标,将可能存在的指标纳入初选指标中。2.3 支持向量机模型
2.4 模型验证
3 结果与讨论
3.1 AHP 模型应用
3.2 AHP-SVM 与AHP-RF 模型应用
3.3 模型验证
3.4 影响指标分析
3.5 土地沙漠化的趋势预测
4 结论