杜尚海,古成科,张文静
随机森林理论及其在水文地质领域的研究进展
杜尚海1,2,3,古成科1,张文静2,3*
(1.吉林大学建设工程学院,吉林 长春 130021;2.吉林大学地下水资源与环境教育部重点实验室,吉林 长春 130021;3.吉林大学新能源与环境学院,吉林长春 130021)
随机森林理论是近年来快速发展的一种人工智能集成学习算法,由于其对数据系列中异常值的容忍度较高,且预测结果准确度显著高于其他常用算法,在以水文地质领域为代表的自然科学研究中的应用越来越广泛.本文在介绍随机森林算法理论和应用方法的基础上,结合国外内已有研究成果,分析其在地下水潜力评估、地表水-地下水转化、地下水水质评价和地下水污染预测等水文地质领域的应用效果,对随机森林理论在水文地质领域的应用前景和进一步发展的方向进行了讨论.结果表明,随机森林理论可以有效解决水文地质领域研究中的参数和过程不确定性问题,在水文地质结构精确刻画、水文地质参数准确反演、水文地质过程的描述均具有广阔的应用前景.
人工智能;随机森林;地下水;地表水-地下水转化;地下水水质评价;地下水污染预测
随机森林是一种功能强大的机器学习数据驱动方法,不仅处理数据快、抗噪性强,与其他机器模型相比在预测精度也更有优势.与物理模型相比其在处理大数据上具有优势,其建模速度快,准确率也能达到相当不错的程度.随机森林在水文地质学领域应用越来越广泛,例如将其用于地下水水量和水质的预测建模[1].本文系统总结随机森林在水文地质领域的应用,重点介绍随机森林在地下水潜力评估、地表水-地下水转化、地下水水质评价、地下水污染预测等科学研究中的应用,并对进一步拓展其在水文地质领域应用范围和提高其性能进行展望.
随机森林(RF)是一种基于统计学习理论的组合分类智能算法,由Breiman在2001年提出[2],其原理是利用Bootstrap重抽样方法从原始数据中抽取多个样本,构建所有Bootstrap样本的决策树,并对所有决策树的预测结果进行组合,并投票选出最终结果.
随机森林属于机器学习的一个重要分支-集成学习[3],所使用的Bootstrap重抽样方法也是集成学习众多抽样方法之一.Bagging名称来源于Bootstrap aggregating,即为引导聚集算法又称装袋算法,最初由Leo Breiman在1996年提出[4].Bagging是一种用于训练数据的创建技术,是在原始数据集上通过重复随机有放回抽样,选择出个数据集并分别训练个分类器,其训练数据中允许存在重复数据,但个数据集都是具有相同分布的独立随机向量.因此,某些数据可能会在模型训练中多次使用,而其他数据可能永远不会被使用.这些没有被抽取的数据,约占三分之一,被称为袋外数据(OOB),由于其没有参与训练集模型的拟合,因此常常被用来检测模型泛化能力.
随机森林算法以决策树作为基础学习器,基于许多决策树的生成及其组合以产生最终输出,其输出类别由个别树输出类别的众数决定.决策树是一种基本的分类与回归办法,基于树结构来决策.当决策树用于分类时被称为分类树,用于回归时被称为回归树.决策树由节点和有向边组成,类似于枝杈和树枝.节点有两种类型,内部节点(枝杈)和叶节点(枝梢),其中内部节点表示一个特征,叶节点表示一个类(即决策结果).每个内部节点包含一部分样本集合,会从这些样本集合中随机选择出的特征进行特征测试并根据测试结果将样本划分到子节点中,最终一步步被划分到叶节点中.根节点包含样本全集,从根节点到每个叶节点的路径对应了每一个判定测试序列.其结构像树一样,因此被称为决策树,其学习本质是从训练集中归纳出一组分类规则.
随机森林中“森林”就是决策树的集成,而“随机”是指数据采样的随机和从所有特征中选择部分特征来建立模型的随机.随机森林算法过程有几个阶段:首先,从给定的原始训练集中随机选择样本,为每个样本创建一个决策树,并得到每个决策树的分类结果.接下来对每个分类结果进行投票表决决定最终结果(图1)[5].随机森林集合了多个决策树,比单个决策树有更好的选择结果,它通过对结果求平均值来降低过拟合,因此不宜出现过拟合现象,且预测准确度较高.
总的来说,它具有以下优点[6-7]:
(1)通过反复二分数据进行分类或回归,因此同等精度下计算量比其他机器学习方法(如神经网络或支持向量机)要低很多.
(2)可以处理数千个输入变量,且无需删除变量.
(3)具有估计缺失数据的有效方法,并在大量数据缺失时保持准确性.
(4)对噪声、异常值和过度训练不敏感,预测精度高误差小.
(5)运行时会生成泛化误差的内部无偏估计,并给出了分类中每个变量的重要性估计值.
(6)可以学习复杂的模式,同时考虑到解释变量和因变量之间的任何非线性复杂关系,并给出有关变量与分类之间的关系信息.
(7)可以保存建立的模型,以便将来用于其他数据.
图1 随机森林算法概念图
地下水是水资源的重要组成部分,由于水量稳定,与地表水相比更不容易受到污染,因此在许多国家的国民经济中被广泛使用,例如饮用水和工业供水,灌溉和矿泉水.而气候变化,人口增长和经济发展带来的用水需求,以及人类各种各样的活动,都对地下水的资源贮存量、水质和水文地球化学作用产生影响.因此对与地下水潜力评估、地表水-地下水转化、地下水水质评价、地下水污染预测等类似的数据分析,都是随机森林在水文地质领域研究的重点.
本文在介绍随机森林在水文地质领域应用方向的每个小节时都附有相应流程图(图2~5),这些流程图是对各个方向工作流程的综合归纳概括.实际使用随机森林时,会在某个平台(python软件、R语言等)上运行随机森林代码,将输入的自变量和要模拟的因变量数据集按一定比例(常用的是七三分)分为训练集和测试集,用训练集进行建模运算并用测试集进行验证,输出结果中包括模型结果、评价模型性能的参数和衡量各变量重要性的指数,其他模型建模时流程与随机森林类似.因变量即是要预测模拟的对象,如地下水潜力分布情况、地下水补给和排泄情况、地下水水质评价标准和地下水中污染物浓度及分布情况.自变量为可能影响因变量的众多水文变量,如气候、水文、地质、离子浓度等,其大致分类在图2~5展示,常用的水文地质变量和解释见表1. 由于4个方向不同,其选取的水文变量种类也不同,但由于随机森林工作流程固定,故图2~5的结构类似.若结果表现形式中含有地图图件如地下水潜力图,需要使用Arcgis软件把自变量和因变量的数据源图件(如地质图、水系地图)等转成表格类文件作为数据输入的实际形式,经模拟生成表格形式的结果后再导入Arcgis软件即可得到成果图.若结果表现形式不需要地图图件,比如某些地下水水质评价,就只需将自变量和因变量数据以表格形式输入,建立模型即可得出地下水水质预测情况.
表1 常用的水文地质变量和解释
地下水潜力研究即是评价地下水可开采资源量的一种方法,旨在确定地下水开发的最佳区域,在最近几年被大量关注[8-9].地下水潜力绘图已被定义为水资源系统开发和规划的一种工具,其成果-地下水潜力图被定义为基于一系列间接指标对地形的物理容量进行空间分布估计,以产生足够地下水供特定用途使用.目前地下水潜力分区有两种主要方法:专家决策系统和机器学习方法[10].专家决策系统直接基于人类判断,包括简单加法权重、多影响因子技术、分析层次结构过程等.机器学习方法包含多种方法,包括人工神经网络拟合、逻辑回归、回归树、随机森林和统计树算法等.一般来说,机器学习不太容易出现程序错误和感知偏差,而专家方法具有依靠丰富经验来辨别可能逃脱自动检测特征的优势,但也意味着必然在某种程度上依赖于专家判断,会产生一定程度主观性,且这种方法制出的潜力图分辨率也不高,只适用于大范围或尺度.
使用随机森林进行地下水区域潜力预测,绘制地下水潜力图,充分发挥了机器学习发现大型数据集中的隐藏关联、根据现有信息来源(各种制图、卫星图像、数字高程模型、钻孔数据等)确定哪些变量与地下水密切相关的优势,也是当下随机森林在地下水领域最主要的几个应用方向之一.
Chen等[11]基于随机森林(RF)、支持向量机(SVM)、人工神经网络(ANN)、多元线性回归(MLR)等模型,使用降水量、土壤水分蒸发蒸腾损失总量、径流、土壤湿度、雪水当量、植被冠层水分含量这6个水文变量预测河北省邯郸市地下水总储水量,结果表明随机森林预测最好.同时使用这6个变量进行降尺度研究,成功将总储水量和地下水储量的分辨率从1°(110km)降到0.25°(约25km).
Chen等[12]使用随机森林(RF)、核逻辑回归(KLR)和交替决策树(ADTree)模型为中国陕西省北部柠条塔地区绘制了地下水泉潜力图,其中随机森林的AUC(接受者操作特性曲线与坐标轴围成的面积)值最高,为0.909.Naghibi等[13-15]使用随机森林和其他机器模型绘制了伊朗3个地区的地下水潜力图,随机森林的正确率都很高.
除了直接使用随机森林外,不少学者也对随机森林进行了一定的改进.Sameen等[16]将自我学习框架(Self-Learning Framework)技术和随机森林结合开发了一个新的自学随机森林模型(SLRF),在预测地下水潜力分区时也得到了比改进前更高的准确率.Miraki等[17]提出一种基于随机子空间集合的新型的分类器集合方法-随机森林分类器(RS-RF),用于伊朗库尔德斯坦省代赫戈兰地区的地下水潜力绘图,其性能比改进前要好.这表示了随机森林不止在绘制地下水潜力图上已然成熟,也说明其在提高性能上有着很大进步空间.
图2 地下水潜力评估流程
地表水与地下水的相互作用及转化关系一直是水文地质等领域研究的热点和难点,准确掌握其机理和过程是支撑流域水资源综合利用和保护的基础条件[18].在水文循环中,水质上天然水化学成分一定程度上记录着水分运移和离子转化,水量上地表水与地下水之间存在补给与排泄,水温上地温梯度使得地表水与地下水温度存在纵向上的差异[19].目前对地下水与地表水的水量交换测定常用方法是用渗透流量仪对空间和时间进行点测量,直接量化渗流率,其精确度和测定范围一直在改进中[20].
地下水的水化学场和温度场的演变取决于渗流场的变化,也是渗流场变化的一种表现[21].各种水化学参数,如主要离子(Ca2+、Na+、CO32−、Cl−)和电导率(EC)已被很好地用作确定地表水和地下水之间关系的示踪剂[22].水的稳定氢和氧同位素也常用作研究水文循环的天然示踪剂,但往往只能得到半定量的结果,难以实现连续动态监测.而人工示踪法可能造成污染,且受场地条件限制.这些直接测量(温度、同位素、水文化学)只反映了测量时的条件,可能无法提供足够的信息来评估未来的情景(即灌溉、土地利用变化和气候变化)[23].
此外基于物理和概念的方法也可以模拟地表水与地下水的相互作用[24].基于物理的方法在水头和水力连通性的基础上模拟地表水-地下水的相互作用,通常将地表水模型和基于物理的地下水模型进行耦合[25],但这些耦合模型需要大量水文地质学数据,通常具有精细时间分辨率,有时有数值收敛问题.基于概念的方法通过不同概念存储之间的水转移来模拟地表水-地下水交互作用,需要的数据较少,但缺乏对“水位”的表述,且必须考虑流域间的地下水流动.
而将随机森林模型运用于分析地表水与地下水的相互作用,可以综合考虑地质、气候变化、人类影响等各个因素,以高准确率、高分辨率和低成本评价当前和预测未来变化,是近几年较为突出的一个方向.
图3 地表水-地下水转化流程
Stahl等[26]使用随机森林为美国本土建立了一个浅层地下水2H和18O同位素预测模型,不仅以高于90%的准确度预测了2H和18O的分布规律,还根据地下水同位素的空间模式可以帮助确定含水层补给的来源和季节性时间,并揭示了地表水和地下水相互作用的程度和范围(如输入河流的基流). Yang等[27]使用随机森林和国家尺度的地质学、水文学和土地利用数据建立了一种预测河口尺度地表水-地下水相互作用性质的模型,预测了新西兰的地表-地下水间补给、排泄情况,并得出坡度、与上游的距离、与海岸的距离和地质是主导地表水和地下水相互作用的因素.
同时,地下水的补给和排泄发生的动态变化,会引起地下水埋深的时空演变.因此研究地下水埋深的时空变化规律和变化成因,亦是分析地表水与地下水的相互作用.Koch等[28]使用随机森林模型以50m分辨率来模拟了丹麦日德兰半岛的浅水层的冬季最低深度,水域关系和DK模型(丹麦国家水资源模型)是最重要的两个协变量.杨光等[29]使用随机森林分析了中国黑河中游地下水埋深的时空演变规律及其变化成因.
除此之外,Rong等[30]使用随机森林从晶粒尺寸分布分析了从钻孔中采集的非固结沉积物样品,可以预测含水层的渗透系数,为量化深层地下水流动和输送提供关键信息.
地下水水质评价是地下水资源评价的重要内容,是根据地下水中主要物质成分和给定的水质标准,分析地下水水质的时空分布状况,进而对地下水进行管理、预防或修复,以服务于长远未来[31].
现阶段的水质评价方法可分为三类:水质类别确定、水质污染指数、水质分级.最常用的方法包括:单因素评价、综合指数法、水污染指数(WPI)、水质指数(WQI)、模糊综合评价等.我国地下水水质的评价常采用单因素评价方法,对单个水质指标独立进行评价,但得到的结论不能全面地反映地下水质量的状况,会出现较大偏差;综合指数法具有忽略水质分级界线的模糊性缺陷,评价结果反映出的水质污染状况不够真实[32].水污染指数易于计算,可以识别主要污染因素,并可用于水质类别和定量评估,但评估结果过于保守[33].水质指数法则会导致数据丢失,并且缺乏处理复杂环境问题的能力[34].模糊综合评价方法解决了水质评价的局限性和不确定性,消除了单个成分的单侧性与分类边界之间的不连续性,但是在确定评价因子的权重上较为麻烦,需要与层次分析法、主成分分析、因子分析方法和灰色关联法等赋权方法相结合.随着计算机的发展,机器学习被广泛运用于地下水水质评价,其中的随机森林分类准确度高、可以处理缺失数据、且能综合评判每个因子的贡献率并给出重要性排序,因而被广泛使用.
图4 地下水水质评价流程
很多学者[35-38]都使用随机森林模型和区域地下水水质监测数据,进行了地下水水质的综合评价,并绘制区域地下水水质分区图.Jeihouni等[39]使用从伊朗大不里士市附近地区80口井得到的硬度、pH值、氯化物和EC等参数,使用和比较普通决策树(ODT)、随机森林(RF)、随机树(RT)、卡方自动交互检测器(CHAID)和迭代二分法3(ID3)5种基于决策树的机器模型来预测和进行饮用地下水水质分区.结果表明随机森林预测准确率高达97.10%,研究区域内地下水的质量从南到北以及从东到西都有所下降.Norouzi等[40]采用随机森林和模糊逻辑算法,对伊朗马哈巴德平原的含水层使用地下水质量指数(GQI)确定地下水质,预测的AUC值高达0.96.总之,近年来的研究表明,随机森林算法已成为作为评价地下水水质的重要方法,且预测准确率非常高.
然而有些井同时揭露了多层含水层,从这些井中取得的地下水样本有时无法确定其真实含水层来源,会影响到下一步行动.Baudron等[41]基于随机森林(RF)的监督分类方法,根据样本的主要离子成分来识别从西班牙卡塔赫纳多层含水层系统中提取的地下水样本所属含水层,结果表明,随机森林分类结果的准确率达到90%以上,这进一步表明随机森林在地下水水质方向适用性较好.
地下水中的污染物质,是影响地下水水质、影响地下水用途划分的因素.地下水内的污染物质中除了生物所需要的钠盐钾盐等,也可能含有会造成水体污染的“三氮”(硝酸盐、亚硝酸盐和氨氮)[42]和磷酸盐等,以及对人体产生直接危害高价铁、锰、氟化物、砷化物等[43-44].因此使用随机森林进行地下水中污染浓度预测,对预防和修复水质,划分饮用水、工业水分区而言非常有意义.
图5 地下水污染预测流程
数值模型以前曾用于地下水质量建模目的.然而,这些模型的性能基本上取决于对所讨论过程的水文行为的充分理解,以及地下水系统特性的详细数据可用性,需要大量数据和相当长的时间,并且具有限制其使用的复杂结构.而在一些粗略的估计中,基于主观评级方法(指数方法和混合方法)的地下水脆弱性指数,如DRASTIC、EPIK和SI等经常被用来预测污染物如非点源硝酸盐污染概率,或是使用地理信息系统(GIS)中的表面插值技术预测表面值再使用地下水脆弱性指数预测污染物分布情况.
随着人工智能(AI)技术的发展,如人工神经网络(ANN)、支持向量机(SVM)、决策树(DT)等机器学习方法成为传统物理模型在各种学科中的有效替代建模工具.这些机器学习方法可以在使用相对较少的成本、精力和数据对复杂的水文过程进行建模方面表现出可靠的性能.而随机森林模型作为其中之一,也已有不少实例使用.
有研究使用随机森林模型预测了区域硝酸盐浓度,生成硝酸盐浓度预测概率图并进行了原因分析[45-47].Nafouanti等[48]使用随机森林(RF)、人工神经网络(ANN)和逻辑回归(LR)进行中国大同盆地地下水氟化物预测,并探究了各因子与氟化物之间的关系,发现TDS、Cl-、NO3-、Na+等4个因子最能影响地下水中氟化物浓度. Podgorski等[49]、付宇等[50]使用随机森林绘制了区域砷浓度浓度概率图.Podgorski等[51]使用随机森林对来源于全球各国的结合现场工具测量和复杂实验室分析得到的80项地下水中砷测量结果数据建立了全球砷风险预测模型,结果显示风险最高的地区包括亚洲南部和中部以及南美洲地区.李冲[52]使用随机森林预测中国贵州省一个岩溶区的酸性煤矿井水锰污染.
此外,还有不少针对随机森林预测污染物浓度预测的改进,例如 Canion等[53]用随机森林为美国佛罗里达州喀斯特泉域地下水硝酸盐浓度预测建模时,使用克里金法对残差进行插值,通过考虑空间自相关的误差来改进随机森林模型(回归-克里格法),使得最终的预测准确率高于95%.Bindal等[54]采用了基于随机森林组合算法(对每个变量进行单变量逻辑回归,并通过值评估系数的显著性)的混合方法,来预测印度北方邦地下水的砷污染,结果表明混合随机森林模型的表现优于单变量(Univariate)、逻辑回归(LR)、模糊(Fuzzy)、自适应模糊(AFR)和自适应神经模糊算法(ANFIS).
随机森林也可以用来预测地下水中发生氧化还原的位置.Friedel等[55]通过使用基于监督学习算法(随机森林RF、线性判别分析LDA、提升回归树BRT)和基于无监督学习算法(修改自组织图MSOM)4种机器学习方法预测新西兰主要农业区的地下水氧化还原状态(氧化、混合和缺氧)来判断地下水反硝化作用发生的位置,然而结果表明基于无监督学习算法(修改自组织图)能准确预测地下水氧化还原的时空演变规律,而基于监督学习的3个算法预测结果并不理想.但由于这只是随机森林预测地下水氧化还原反应位置的个例,未来需要更多的实例来综合评价这一领域的适用性.
表2 随机森林在水文地质领域应用汇总
注:“/”表示只使用了随机森林一种模型.
如表2所示,这些研究都使用了随机森林模型,有些研究也使用了其他模型,例如SVM、ANN、LR等. BRT(增强回归树)、CART(回归决策树)、RTF(旋转森林)、交替决策树(ADTree)和随机森林(RF)这些树模型都是由决策树(DT)改进发展而来的,可以视为决策树的分支.表2中所有研究使用的模型中有部分和随机森林都属于机器学习的分支,如决策树(DT)、人工神经网络(ANN)、支持向量机(SVM);有部分则是数学模型,如多元线性回归(MLR).
随机森林理论对数据系列要求相对较低,几十到一百的数据量和大数据都能预测出较好的效果,这一点对水文地质领域非常友好.这是因为水文地质观测数据多来源于钻孔、水井和油井等,与地表水可以直接监测不同,小尺度区域往往因为井数量不足所以地下水数据稀缺,而大尺度区域由于各国各个地区众多监测站的长年监测产生了大量具有时间序列的地下水数据,这些大数据不仅处理起来非常复杂,如何全部被充分利用也是问题,并且还要考虑到个别数据缺失或错误的情况.例如Rong等[30]预测含水层的渗透系数时观测数据只有106个; Koch等[28]模拟浅水层的冬季最低深度时使用了1998~2017年间包括15000口井的数据和1900个沿着溪流、海岸线和湖泊的额外观测数据来训练模型,最后都达到了不错的预测精度.而将当地地质图、数字高程模型(DEM)等水文变量数据在ArcGIS软件中转化为可以被随机森林模型直接使用的数据格式时,数据量将数以万计,也都可以被成功预测,并且建立模型的时间很短.
在准确率方面,随机森林理论在地下水资源量评价、地表水-地下水交互作用、地下水水质评价和地下水中溶质运移的预测中与其他模型相比更为准确,基本都在0.85以上,其中一些预测结果如Stahl等[26]建立浅层地下水2H和18O同位素预测模型时预测准确度高达97%和93%.Naghibi等[13-15]绘制伊朗地区地下水潜力图时,在2015年的研究中随机森林预测的结果在众多模型中表现最差,而在2019年和2020年的随机森林预测及随机森林模型改进中均获得了非常好的预测精度.此外,其他针对随机森林的各种改进也都能取得更高的精度.
随机森林能在预测后给出水文变量的重要性排序,指出哪些变量对结果最有影响并分析讨论这些变量影响结果的方式.例如Wu等[38]评价宁夏回族自治区盐池县天然盐湖的地下水质量时,经评价最重要指标是Na、TDS(溶解性总固体)、TH(水总硬度)和F,而最不重要的指标是As.这在后续的研究中非常有意义,因为能对这些重要性高的水文变量进行改进以增加预测精度,例如采用更精确的测量手段.又或者在地下水中污染物预测中根据水文变量重要性排序对其进行治理,能最有效地降低地区污染.
随机森林属于机器学习的一种,和人工神经网络(ANN)、支持向量机(SVM)等众多机器学习模型一样,本质上都属于黑箱理论.尽管随机森林构建原理已经清楚,但是并不具有对全部工作过程完全的理解能力.即无法通过简单直接的公式对整个随机森林的结构和每棵树的计算方法进行说明,也无法解释调节随机森林各个权重参数后结果改变的原因.而在某一领域的科学研究中往往会同时应用多种机器学习模型,比较预测模拟结果并选择最好的结果作为最终成果.前文总结的这些水文地质领域的研究表明随机森林和随机森林模型的改进预测模拟效果在众多模型中具有优势.尽管其优势的根本原理无法解释,但是这些成功运用的经验表明随机森林确实适用于水文地质领域.并且随机森林仍在不断发展,对其进行改进以提高模型性能非常具有意义.
随机森林在水文地质领域预测时,要求输入众多的水文变量,但并没有统一标准进行变量选择,研究者们往往根据实际情况综合考虑进行选择,但有时会忽略几个重要的水文变量,例如在绘制地下水潜力图时的土壤,有的考虑是土壤物质组分,有的是土壤湿度,有的干脆没有考虑,同样情况的还有水体关系这一重要变量.同时多个研究中有些水文变量指的是同一种,但是名称并不统一.这些在研究中或许影响细微,但若是对多个地区进行连续评价或是对某一地区连续评价时,例如代替传统的DRASTIC方法评价多个行政区时,具有统一的标准就非常必要了.一些相关的变量应当单独评价或是归为一个大类,例如从DEM计算出的平面曲率和剖面曲率,有的单独考虑而有的将其归为一个地形大类,这无疑会对结果产生重要影响.
尽管随机森林在水文地质的应用近年来不断增多,但其尚未得到广泛应用.在水文地质的其他方向,也有关于随机森林的不断尝试,例如地下水水位预测、地下水样本来源识别.相关研究也表明,随机森林在地下水领域在降尺度方面有很大潜力,可以获得高分辨率图,而这正是地下水领域的热门.
此外,使用随机森林进行地下水有机污染预测的应用较少,可以将其与预测有机污染物的软件[56]相结合应用.而将水文地质物理模型和随机森林结合,进行地下水脆弱性评价也或许是一项很好的应用.
多项研究均表明[11,39,41,45,48,54],随机森林比其他机器模型在性能上更具有优势.但是仍可对随机森林进行改进以进一步提高精度,例如随机子空间集合的随机森林分类器(RS-RF)、自学随机森林模型(SLRF)、基于随机森林组合算法(单变量逻辑回归)和回归-克里格法降误差.这些是通过增强随机森林的随机性、筛选变量降低噪音[57]、分析误差等手段提高其性能.
4.1 随机森林在水文地质领域应用广泛,目前在各个方面的应用都取得了不错的效果,其理论在水文地质领域也不断发展,使其建模更契合于实际.对随机森林进行适当的改进能进一步提高其性能,例如增强随机性、筛选变量降低噪音、误差分析等手段提高模型精度.
4.2 随机森林对数据要求低,无论数据多少均能取得不错的精度,在水文地质领域有着很强的适用性,且预测准确率比其他模型普遍要好.但是在水文变量选择上大多根据实际情况考虑,并没有统一的名称和选择标准,这一点应当进行改进.此外随机森林可以根据输出的变量重要性排序和模型预测结果进行变量影响性分析,探究其原因进行合理解释[58].因此可以改进随机森林对重要性高的水文变量的测量手段,以提高预测精度,或是在预测地下水污染时根据变量重要性排序进行针对性治理.此外,一些改进的随机森林算法,例如神经随机森林[59]、伯努利随机森林[60]和随机信条随机森林(RCRF)[61],未来也可以应用于水文地质领域.
4.3 随机森林在地下水资源评价、地表水-地下水交互作用、地下水水质评价和地下水中污染物预测方向均有应用.但目前在污染物预测方向针对的主要是无机污染,未来可以将其用于有机污染物预测.也可以将水文地质物理模型和随机森林结合,进行地下水脆弱性评价.
[1] Tyralis H, Papacharalampous G, Langousis A. A brief review of random forests for water scientists and practitioners and their recent history in water resources [J]. Water, 2019,11(5):910.
[2] Breiman L. Random forests [J]. Machine Learning, 2001,45(1):5-32.
[3] 王奕森,夏树涛.集成学习之随机森林算法综述 [J]. 信息通信技术, 2018,12(1):7:49-55.
Wang Y S, Xia S T. A survey of random forests algorithms [J]. Information and Communications Technologies, 2018,12(1):7:49-55.
[4] Bbeiman L. Bagging predictors [J]. Machine Learning, 1996,24(2): 123-140.
[5] 吕红燕,冯 倩.随机森林算法研究综述 [J]. 河北省科学院学报, 2019,36(3):37-41.
Lv H Y, Feng Q. A survey of random forests algorithm [J]. Journal of the Hebei Academy of Sciences, 2019,36(3):37-41.
[6] Robert I. Kabacoff. R语言实战(第2版) [M]. 北京:人民邮电出版社, 2016:1011-1016.
Robert I. Kabacoff. R in action(version 2) [M]. Beijing: Posts and Telecom Press, 2016:1011-1016.
[7] 董红瑶,王弈丹,李丽红.随机森林优化算法综述 [J]. 信息与电脑, 2021,33(17):34-37.
Dong H Y, Wang Y D, Li L H. A review of random forest optimization algorithms [J]. China Computer and Communication, 2021,33(17):34- 37.
[8] 林 坜,雷晓东,杨 峰.地下水资源评价方法-水量均衡法的探讨 [J]. 北京水务, 2011,(2):41-44.
Lin L, Lei X D, Yang F. Groundwater resources evaluation method- discussion on water balance method [J]. Beijing Water, 2011,(2):41- 44.
[9] 丁 楠.内蒙古察右翼前旗-集宁区地下水资源评价与开采潜力分析 [D]. 中国地质大学(北京), 2018.
Ding N. Evalution of groudwater resources and analsysis of explotiation potential in Chahar Youyiqianqi-Dining district [D]. China University of Geosciences (Beijing), 2018.
[10] Díaz-Alcaide S, Martínez-Santos P. Review: Advances in groundwater potential mapping [J]. Hydrogeol Journal, 2019,27(7): 2307-2324.
[11] Chen L, He Q, Liu K, et al. Downscaling of GRACE-derived groundwater storage based on the random forest model [J]. Remote Sensing, 2019,11(24):2979.
[12] Chen W, Li Y, Tsangaratos P, et al. Groundwater spring potential mapping using artificial intelligence approach based on kernel logistic regression, random forest, and alternating decision tree models [J]. Applied Sciences, 2020,10(2):425.
[13] Naghibi S A, Pourghasemi H R, Dixon B. GIS-based groundwater potential mapping using boosted regression tree,classification and regression tree, and random forest machine learning models in iran [J]. Environmental Monitoring and Assessment, 2016,188(1):44.
[14] Naghibi S A, Dolatkordestani M, Rezaei A. Application of rotation forest with decision trees as base classifier and a novel ensemble model in spatial modeling of groundwater potential [J]. Environmental Monitoring and Assessment Volume, 2019,191(4):248.
[15] Naghibi S A, Hashemi H, Berndtsson R, et al. Application of extreme gradient boosting and parallel random forest algorithms for assessing groundwater spring potential using DEM-derived factors [J]. Journal of Hydrology, 2020,589(1):125-197.
[16] Sameen M I, Pradhan B, Lee S. Self-learning random forests model for mapping groundwater yield in data-scarce areas [J]. Natural Resources Research, 2018,28(3):757-775.
[17] Miraki S, Zanganeh S H, Chapi K, et al. Mapping groundwater potential using a novel hybrid intelligence approach [J]. Water Resources Management, 2019,33(1):281-302.
[18] 韩 玉,卢文喜,李峰平,等.浑河流域地表水地下水水质耦合模拟 [J]. 中国环境科学, 2020,40(4):1677-1686.
Han Y, Lu W X, Li F P, et al. Water quality coupling simulation of surface water and groundwater in Hunhe river basin [J]. China Environmental Science, 2020,40(4):1677-1686.
[19] 殷禹宇,胡友彪,刘启蒙,等.地表水与地下水相互作用研究进展 [J]. 绿色科技, 2016,(4):50-52.
Yin Y Y, Hu Y B, Liu Q M, et al. Review on research progress of interaction between surface water and groundwater [J]. Journal of Green Science and Technology, 2016,(4):50-52.
[20] Hatch C E, Fisher A T, Revenaugh J S, et al. Quantifying surface water - groundwater interactions using time series analysis of streambed thermal records: method development [J]. Water Resources Research, 2006,42(10).
[21] Zhou Z W, Zhou Z F, Xu H Y, et al. Surface water-groundwater interactions of xiluodu reservoir based on the dynamic evolution of seepage, temperature, and hydrochemistry due to impoundment [J]. Hydrological Processes, 2021,35(8).
[22] Kong F, Song J, Zhang Y, et al. Surface water-groundwater interaction in the guanzhong section of the Weihe River Basin, China [J]. Ground Water, 2018,57(4):647-660.
[23] Yang J, Mcmillan H, Zammit C. Modeling surface water-groundwater interaction in New Zealand: Model development and application [J]. Hydrological Processes, 2017,31(4):925-934.
[24] Haque A, Salama A, Lo K, et al. Surface and groundwater interactions: A review of coupling strategies in detailed domain models [J]. Hydrology, 2021,8(1):35.
[25] 朱金峰,刘悦忆,章树安,等.地表水与地下水相互作用研究进展 [J]. 中国环境科学, 2017,37(8):3002-3010.
Zhu J F, Liu Y Y, Zhang S A, et al. Review on the research of surface water and groundwater interactions [J]. China Environmental Science, 2017,37(8):3002-3010.
[26] Stahl M O, Gehring J, Jameel Y. Isotopic variation in groundwater across the conterminous United States - Insight into hydrologic processes [J]. Hydrological Processes, 2020,34(16):3506-3523.
[27] Yang J, Griffiths J, Zammit C .National classification of surface- groundwater interaction using random forest machine learning technique [J]. River Research and Applications, 2019,35(7):932-943.
[28] Koch J, Berger H, Henriksen H J, et al. Modelling of the shallow water table at high spatial resolution using random forests [J]. Hydrology and Earth System Sciences Discussions, 2019,23(11):1-26.
[29] 杨 光,粟晓玲.基于随机森林的黑河中游地下水埋深变化及成因 [J]. 水土保持研究, 2017,24(1):109-114.
Yang G, Su X L. Change of groundwater depth Heihe river basin and its causes in middle dtream of the based on the random forest [J]. Research of Soil and Water Conservation, 2017,24(1):109-114.
[30] Rong M, Shi J, Zhang Y, et al. Variation of hydraulic conductivity with depth in the North China plain [J]. Arabian Journal of Geosciences, 2016,9(10):1-13.
[31] 高瑞忠,秦子元,张 生,等.吉兰泰盐湖盆地地下水Cr6+,As,Hg健康风险评价 [J]. 中国环境科学, 2018,38(6):2353-2362.
Gao R Z, Qin Z Y, Zhang S, et al. Health risk assessment of Cr6+, As and Hg in groundwater of Jilantai salt lake basin [J]. China Environmental Science, 2018,38(6):2353-2362.
[32] 姜海涛.黑龙江省林口县莲花新镇地下水资源评价 [D]. 长春:吉林大学, 2014.
Jiang H T. The evaluation of groundwater resources in Lianhuaxin Town Linkou Ctiy Heilongjiang Province [D]. Changchun: Jilin University, 2014.
[33] Zhang F C, Wu B, Gao F, et al. Hydrochemical characteristics of groundwater and evaluation of water quality in arid area of northwest China: A case study in the plain area of Kuitun River Basin [J]. Arabian Journal of Geosciences, 2021,14(20):1-19.
[34] Chai Y, Xiao C, Li M, et al. Hydrogeochemical characteristics and groundwater quality evaluation based on multivariate statistical analysis [J]. Water, 2020,12(10):2792.
[35] 吴 敏,温小虎,冯 起,等.基于随机森林模型的干旱绿洲区张掖盆地地下水水质评价 [J]. 中国沙漠, 2018,38(3):657-663.
Wu M, Wen X H, Feng Q, et al. Assesssment of groundwater quality based on random forest model in arid oasis area [J]. Journal of Desert Research, 2018,38(3):657-663.
[36] 王 雪.基于随机森林算法的唐山市水质评价 [J]. 水利技术监督, 2018,(5):173-176.
Wang X. Evaluation of water quality of Tangshan city based on random forest algorithm [J]. Technical Supervision in Water Resources, 2018,(5):173-176.
[37] 闫佰忠,孙 剑,安 娜.基于随机森林模型的地下水水质评价方法 [J]. 水电能源科学, 2019,37(11):66-69.
Yan B Z, Sun J, An N. Assessment of groundwater quality based on random forest model [J]. Water Resources and Power, 2019,37(11):66- 69.
[38] Wu C, Fang C, Wu X, et al. Health-risk assessment of arsenic and groundwater quality classification using random forest in the yanchi region of northwest China [J]. Exposure and Health, 2019,(5):761- 774.
[39] Jeihouni M, Toomanian A, Mansourian A. Decision tree-based data mining and rule induction for identifying high quality groundwater zones to water supply management: A novel hybrid use of data mining and GIS [J]. Water Resources Management, 2020,34(1):139-154.
[40] Norouzi H, Moghaddam A A. Groundwater quality assessment using random forest method based on groundwater quality indices (case study: Miandoab plain aquifer, NW of Iran [J]. Arabian Journal of Geosciences, 2020,13(18):1-13.
[41] Baudron P, Alonso-Sarria F, Garcia-Arostegui, et al. Identifying the origin of groundwater samples in a multi-layer aquifer system with random forest classification [J]. Journal of Hydrology, 2013,499:303- 315.
[42] 吴娟娟,卞建民,万罕立,等.松嫩平原地下水氮污染健康风险评估 [J]. 中国环境科学, 2019,39(8):3493-3500.
Wu J J, Pian J M, Wan H L, et al. Health risk assessment of groundwater nitrogen pollution in Songnen Plain [J]. China Environmental Science, 2019,39(8):3493-3500.
[43] 周巾枚,蒋忠诚,徐光黎,等.铁矿周边地下水金属元素分布及健康风险评价 [J]. 中国环境科学, 2019,39(5):1934-1944.
Zhou J M, Jiang Z C, Xv G L, et al. Distribution and health risk assessment of metals in groundwater around iron mine [J]. China Environmental Science, 2019,39(5):1934-1944.
[44] 邓安琪,董兆敏,高 群,等.中国地下水砷健康风险评价 [J]. 中国环境科学, 2017,37(9):3556-3565.
Deng A Q, Dong Y M, Gao Q, et al. Health risk assessment of arsenic in groundwater across China [J]. China Environmental Science, 2017, 37(9):3556-3565.
[45] Rodriguez-Galiano V, Mendes M P, Garcia-Soldado M J, et al. Predictive modeling of groundwater nitrate pollution using random forest and multisource variables related to intrinsic and specific vulnerability: a case study in an agricultural setting (Southern Spain) [J]. Science of the Total Environment, 2014,476:189-206.
[46] Tesoriero A J, Gronberg J A, Juckem P F, et al. Predicting redox‐sensitive contaminant concentrations in groundwater using random forest classification [J]. Water Resources Research, 2017,53(8):7316- 7331.
[47] Nolan B T, Gronberg J A M, Faunt C C, et al. Modeling nitrate at domestic and public-supply well depths in the central Valley, California [J]. Environmental Science and Technology, 2014,48(10): 5643-51.
[48] Nafouanti M B, Li J X, Mustapha N A, et al.Prediction on the fluoride contamination in groundwater at the datong basin, northern china: comparison of random forest, logistic regression and artificial neural network [J]. Applied Geochemistry, 2021,132.
[49] Podgorski J E, Labhasetwar P, Saha D, et al. Prediction modeling and mapping of groundwater fluoride contamination throughout India [J]. Environmental Science Technology, 2018,52(17):9889-9898.
[50] 付 宇,曹文庚,张娟娟.基于随机森林建模预测河套盆地高砷地下水风险分布 [J]. 岩矿测试, 2021,40(6):860-870.
Fu Y, Cao W G, Zhang J J. High Arsenic Risk Distution Prediction of Groundwater in the Hetao Basin by Random Forest Modeling [J]. Rock and Mineral Analysis, 2021,40(6):860-870.
[51] Podgorski J, Berg M. Global threat of arsenic in groundwater [J]. Science, 2020,368(6493):845-850.
[52] 李 冲.随机森林模型预测岩溶区酸性煤矿井水锰污染 [J]. 中国煤炭地质, 2021,33(3):43-47,59.
Li C. Prediction of karst region Acidic coalmine water manganese pollution based on random forest [J]. Coal Geology of China, 2021, 33(3):43-47,59.
[53] Canion A, Mccloud L, Dobberfuhl D. Predictive modeling of elevated groundwater nitrate in a karstic spring-contributing area using random forests and regression-kriging [J]. Environmental Earth Sciences, 2019,78(9).
[54] Bindal S, Singh C K. Predicting groundwater arsenic contamination: Regions at risk in highest populated state of India [J]. Water Research, 2019,159:65-76.
[55] Friedel M J, Wilson S R, Close M E, et al. Comparison of four learning-based methods for predicting groundwater redox status [J]. Journal of Hydrolgy, 2020,580.
[56] Pietrzak D. Modeling migration of organic pollutants in groundwater - review of available software [J]. Environmental Modelling and Software, 2021,144.
[57] Speiser J L, Miller M E, Tooze J, et al. A comparison of random forest variable selection methods for classification prediction modeling [J]. Expert Systems with Application, 2019,134:93-101.
[58] Blanchet L, Vitale R, Stavropoulos G, et al. Constructing bi-plots for Random Forest: tutorial [J]. Analytica Chimica Acta, 2020,1131:146- 155.
[59] Biau G, Scornet E, Welbl, J. Neural random forests [J]. Sankhya-series A-mathematical Statistics and Probability, 2019,81(2):347-386.
[60] Wang Y A, Xia S T, Tang Q T, et al. A novel consistent random forest framework: bernoulli random forests [J]. IEEE Transactions on Neural Networks and Learning Systems, 2017,29(8):3510-3523.
[61] Mantas C J, Castellano J G, Moral-García S, et al. A comparison of random forest based algorithms: random credal random forest versus oblique random forest [J]. Soft Computing, 2019,23(21):10739- 10754.
致谢:感谢本课题组所有成员以及为本研究提供帮助的吉林大学地下水资源与环境教育部重点实验室.
A review on the progresses in random forests theory and its applications in hydrogeology.
DU Shang-hai1,2,3, GU Cheng-ke1, ZHANG Wen-jing2,3*
(1.College of Construction Engineering, Jilin University, Changchun 130021, China;2.Key Laboratory of Groundwater Resources and Environment, Jilin University, Changchun 130021, China;3.College of New Energy and Environment, Jilin University, Changchun 130021, China)., 2022,42(9):4285~4295
Random Forest Theory is a rapidly developing artificial intelligence integrated learning algorithm and increasingly used in the fields of hydrogeology due to its higher tolerance of outliers in data series and significantly higher accurate prediction than other commonly used algorithms do. Based on the introduction of the theory and applications of the random forest algorithm, this paper reviewed its applications in the hydrogeological fields such as groundwater potential assessment, surface water-groundwater conversion, groundwater quality assessment and groundwater contamination prediction. The results show that the random forest theory can effectively solve the problems related to parameter and process uncertainty in hydrogeological researches, and has broad application prospects in the accurate portrayal of hydrogeological structure, accurate inversion of hydrogeological parameters and description of hydrogeological processes.
artificial intelligence;random forest theory;groundwater;surface water-groundwater conversion;groundwater quality assessment;groundwater contamination prediction
X523,P641
A
1000-6923(2022)09-4285-11
2022-02-28
国家重点研发计划项目((2019YFC1804804)
*责任作者, 教授, zhangwenjing80@hotmail.com
杜尚海(1986-),男,安徽宿州人,副教授,博士,主要从事地下水资源评价与管理研究.发表论文50余篇.