董艳玲
(辽宁省北票市地质打井队,辽宁 北票 122100)
传统的水质评价将水质指标视作水质的单一影响因子,并据此建立多元综合评价线性方程,虽然该方案操作简易、可移植性强,然而未能确定水质指标与水体质量之间非线性关系,受共线性或数据噪声影响敏感。随着机器学习算法的广泛应用,其在水质评价研究中取得良好效果,有学者采用BP、RBF、SVM等算法建立了水体质量自动评价模型。随机森林算法集合了多个弱的分类器,其随机自助抽取数据集实现自上而下遍历树形生长从而分割至纯样本,有效避免维数灾难和过拟合,在各类数据挖掘问题中表现良好。鉴于此,本文以北票市为研究区,阐释了基于随机森林算法的水质评价模型建模过程与应用,以期为区域水质综合评价提供参考依据。
北票市位于我国东北渤海外流区、大凌河中游,区域面积4469km2。区域自东北向西南倾斜,高程介于0~1074m,以丘陵为主,平原盆地狭小而破碎。由于位居欧亚大陆东岸中高纬度,形成温带季风性气候,气候温凉、雨热同期,多年平均气温8.6℃,年平均降水量509mm,无霜期153d。生产生活用水以河水为主,地表水资源总量为17343万m3,地下水资源量达16090万m3。
以北票市水源地为研究区,结合区域水文情势、水源地分布特征,布设了36个水样,于2017年10月天气稳定时采集水体标本,并将样品封装后送至实验室化验分析。
测定的指标分别有pH值,总硬度,NO-3,NH+4,SO24-,Na+,Cl-等,依次来反映区域水体质量。测定方法安装SL219—2003《水环境检测规范》执行。
随机森林(RandomForest,RF)是由N棵分类回归树{p(x,Θn),k=1,2,…,N}集成而形成的组合器算法。其基于随机子空间(random subspace) 理 论 和 自 助 聚 集(Bootstrap aggregating) 法对随机向量(X,Y){Θn,k=1,2,…,N}进行随机选取并进行树形生长成为决策树,设X,Y分别为独立随机向量(X,Y)中的随机子集中的输入、输出向量,对于预测样本的输出p(h)存在泛化误差:
随机森林输出结果是基于对N棵回归树{p(Θ,Xn),k=1,2,…,N}取均值得到,当k→∞时,则有:
其泛化误差(RE)为:
对于所有单棵树平均泛化误差为:
式中为残差,且单棵树Θ之间相对独立。
待其构成决策树后节点的属性变量值由随机选中几个属性子集中产生。对于待测试的样本,随机森林通过自助聚集(Bootstrap aggregating)让每棵树进行投票,票数最高类别即为输出结果,即:
式中 P(x)为随机森林组合模型结果;pi为单棵树分类模型;I为指示函数。该算法核心是构建回归决策树组合模型,单树由根节点遍历向下分裂,使其自由生长而不剪枝处理,N棵树集成即为随机森林[1-2]。
2.2.1 水质评价标准
水质评价分级标准是进行水质评价的依据,该标准需要具有公开性、统一性,以及反映水体质量渐进变化。参照相关学者的研究经验,以《水环境质量标准》为依据,选取相应指标水质上下限值,如表1。采用随机内插法于每一水质等级区间内生成200组样本数据,5个水质等级共计有1000组样本数据。随机选取其中的750组作为训练样本,另外250组为测试样本, 分布以数字1,2,3,4,5表示水质等级I,II,III,IV,V。以水质指标数据为输入变量,以水质等级为输出变量,对于预测输出值,将其按照四舍五入法进行归类。
表1 水环境质量评价标准
2.2.2 模型参数优化
随机森林算法中存在ntree和mtry两个敏感参数,前者为决策树数量,影响着算法运行速度与分类效果;后者为分裂属性集中属性个数,影响着结点分裂属性赋值;为确立最优模型,通常采用网格搜索法进行参数设置[2-3]。随着参数变化,模型精度略有不同如图1。模型精度随着mtry变化,精度呈U型趋势,其在mtry=3时,OOB达到最小,为0.0298,表明mtry最优参数为3。随着ntree增加,error总体呈减小趋势,当ntree大于500时,error较小而稳定,综合考虑误差变化趋势,将其设置为600。
图1 水质评价模型参数设置
2.2.3 OOB重要性
随机森林建模过程中能够排除变量间共线性、数据噪声影响,从而识别变量的重要性,依据其重要性分值大小,可以判定水质评价模型中的各指标因子的影响。随机森林算法中OOB是变量重要性度量方法之一,在单棵树中Gini系数为节点分裂过程中各节点的样本纯度,其公式[4-5]:
OOB=2p(1-p)
式中 p为分配到树节点k的正样本的比例,节点负样本比例为(1-p),OOB为系数值。在随机森林中模型中,一个变量的重要性为用该特征变量进行分裂时,所有节点上从父节点到子节点的OOB值减少量的和(Mean Decrease Gini,MDG),其分值越高,表明该变量重要性越大。
将测定的水体样本数据按照3+δ方法进行筛选,移除特异值。在Excel2016中进行基本统计处理,统计36个样本水质的极值、平均值和标准差。随机森林建模和水质评价在Rstudio中完成,水质评价空间分布结果在GIS平台Arcgis10.3中进行。
表2为北票市36个水体样点水质指标统计特征。
表2 北票市水源地水质特征 单位:mg/L
由表2可知,本区水体pH值属于中性,介于7.01~7.65之间,达到I类水质要求。Cl-含量大部分属于I类,部分为II类, 超标率为4.21%;,,Na+属于I,II类,超标率为6.75%,2.38%,3.17%,但总体达到I类水质要求。NO-3含量在0~2.215mg/L之间,满足I类水质标准。研究区水体总硬度较小,为54.21~167.52mg/L,平均值为86.24mg/L。水体中Cl-含量为24.12mg/L,NO-3为0.87mg/L,仅为0.085mg/L,和Na+依次为24.64,54.06mg/L,分别低于区域水环境背景值。
应用前述随机森林模型对研究区36个水质样点进行综合评价,得到评价结果如图2。
图2 北票市水源地水质空间分布
由图2可知,36个样点中5个样点属于II类水质,占样点总数的13.89%,有31个样点属于I类水质,占样点总数的86.11%。I类水质呈片状分布,分布范围较广,表明北票市水源地整体水质较好。这是由于这些水源地位于区域河流中上游,源地原生态环境良好、人为活动较弱,除了受自然环境过程影响外,几乎为遭受破坏。II类水质呈斑点状离散分布,主要由于部分样点水质指标略有超标,虽然II类水质样点较少,但是作为重要水源地,仍然应当加强水源防护。
随机森林算法通过自助随机抽样规避了多维变量间线性干扰,其对各因子重要性的识别是无偏的。应用随机森林OOB对水质评价模型中各项指标因子重要性分值进行估计,水资源承载力对各指标的MDG重要性分值如图3。
图3 指标因子
由图3可知,NO-3的MDG值最大,为0.784,表明其是北票市水源地水质的关键影响因子;NH+4的MDG值次之,为0.651,其对水质具有重要影响;SO24-,Na+,Cl-的MDG介于0.438~0.321之间,对水资源承载力有较大影响;而pH值和总硬度的MDG值较小,仅为0.274,0.241,其对水质的影响较低。
对于算法模型精度的衡量,可采用决定系数(R2)、平均绝对误差(MSE)表示,一般认为R2接近于1,MSE接近于0时,表明算法拟合度高,模型效果较好,鉴于此计算了训练样本和测试样本的决定系数与MSE,并以BP和SVM算法为对比,结果如表3。
表3 随机森林算法拟合结果
就RF算法来看,训练样本的R2,为0.9965,MSE值均较小,检测样本R2为0.9875,MSE为0.0150,表明该算法精度可靠,可用于对目标样本的预测。就BP算法来看,训练样本的R2,为0.9412,MSE值为0.0184,检测样本R2为0.9214,MSE为0.0224;SVM算法显示训练样本的R2为0.9895,MSE为0.0071, 检测样本R2为0.9632,MSE为0.0169。训练模型存在一定误差,将其代入检测样本进行测试时,由于误差传递而精度降低,故而检测样本的精度略小于训练样本。综合分析,基于随机森林算法的水质评价模型精度由于BP和SVM算法,表明随机森林算法在水质评价中具有一定应用性。
(1)运用随机森林原理和水质评价标准,采用随机数的方法生成样本数据,据此建立基于森林的水质评价模型。训练好的模型可移植于其他目标对象的评价,并具有智能化特性。
(2)随机森林对于水质因子的识别是无偏的,结果显示,北票市水质的关键影响因素是NO-3,今后应予以防治。
(3)研究区水质属于I类,NH+4,SO24-,Na+略有超标,但超标率较低。
(4)该方案的应用性在于模型简洁、学习速率快,对维度较高和数据噪声容忍度好,能够排除内部维度间相互影响,通过袋外误差对象模型效果进行评估,相较于BP和SVM等传统机器学习方法,具有一定优势。
[1]Boulesteix A L, Bender A, Lorenzo Bermejo J, et al.Random forest Gini importance favours SNPs with large minor allele frequency: impact, sources and recommendations[J].Briefings in Bioinformatics, 2012, 13(3):292.
[2]Wolfslehner B, Vacik H.Evaluating sustainable forest management strategies with the Analytic Network Process in a Pressure-State-Response framework [J].Journal of Environmental Management, 2008, 88(1):1-10.
[3]徐元凤.ISO发布关于水安全的国际专题组协议[J].中国标准化, 2008(6):78-78.
[4]Sabatia C O, Burkhart H E.Predicting site index of plantation loblolly pine from biophysical variables[J].Forest Ecology&Management, 2014, 326:142-156.
[5]吴敏,温小虎,冯起,等.基于随机森林模型干旱绿洲张掖盆地地下水水质评价[J].中国沙漠,2018,38(3):1-7.