基于随机森林算法的唐山市水质评价

2018-10-19 09:19
水利技术监督 2018年5期
关键词:需氧量唐山市溶解氧

王 雪

(河北省唐山水文水资源勘测局,河北 唐山 063000)

1 水资源概况

唐山市多年平均水资源28.5亿m3,其中地表径流量为14.62亿m3,地下水资源量达13.69亿m3,而人均占有水资源量仅有385m3,为典型缺水城市。唐山为我国重要的重工业城市,工业生产使得区域水环境遭受破坏。以唐山为研究区,采用随机森林算法对区域水质取样、分析,以期为区域水资源管理、保护利用提供参考。

2 研究理论方法

2.1 Kriging插值法

水质是不连续的时空变异体,不同位置上水体质量存在差异,为了便于了解全局水质分布,应用Kriging插值法进行无偏估计。Kriging插值的公式如下[2]:

(1)

式中,Z(x0),Z(xi)—分别表示表示变量在x0,xi处的估计值、实测值;λ—临近点对其影响程度,即空间权值。

2.2 随机森林原理

随机森林为Breiman等发展了分类回归树模型并提出组合树构成的监督学习算法[3-4]。其基于随机子空间(random subspace)和自助聚集(Bootstrap aggregating)理论,从原始m个训练样本中抽取n个训练集(n

第一步:基于bootstrap抽样理论随机抽取K个训练集Θ1,Θ2,…,Θk,并产生的K棵回归树{h(x,Θi),i=1,2,…,k}(x为输入向量),其序列模型为{h1(x),h2(x),…,hk(x)}。

第二步:将各训练子集不予剪枝处理,在树节点处从M个特征中随机抽取m个特征作为节点分裂的属性,然后从节点处分裂,直至节点属性纯度最小。

第三步:单棵树预测值为叶节点l(x,Θ)的观测平均值,公式为:

(2)

(3)

式中,ωi—权值,其和为1;Yi(i=1,2,…,k)—因变量观测值。

第四步:通过决策树权重ωi(x,Θt)(t=1,2,…,k)取其均值,得到每个观测值的权值:

(4)

则其最终预测结果为:

(5)

3 唐山市水质断面分布及数据处理

3.1 水质断面分布

在布设水质断面时综合考虑了土地利用类型、径流量、人口分布等背景环境,水质断面主要位于河流汇流处、湖泊、地下水水源地。于2017年9—10月晴朗时分进行取样,在断面10m范围内采集8个分样品,混合均匀后分装在干燥玻璃瓶中,并应用GPS仪记录水体断面坐标,共计有效样点43个。按照《地表水环境标准》对水质进行检测[6],其中溶解氧(DO)以硫酸钾湿氧化法测定,高锰酸钾指数(K2MnO4)、化学需氧量(COD)以草酸钠法测定,生化需氧量(BOD)、总磷(TP)采用碳酸氢钠浸提-钼锑抗比色法,总锌(Zn)以半微量凯氏法测定,氨氮(NH)以纳氏剂分光光度法测定[1]。

3.2 数据处理

该研究以唐山市水质为研究对象,涉及到的水质数据分析主要包含多元统计分析、GIS空间分析与水质综合评价。先以3+δ方法剔除水质数据中的异常值,使其符合正态分布特性,再应用SPSS19.0软件的描述统计分析、主成分分析工具解析其均值、变异系数、标准差、极值等统计量和水质的影响因素。将含有地理坐标的水质断面数据导入ArcGIS平台上,生成区域水质断面分布图,并应用Spatial Analysis模块的Geostatistics功能将水质综合评价结果进行空间可视化表达[5]。随机森林建模与水质综合评价则在开源软件Rstudio1.1平台上完成。

4 结果与分析

4.1 水质描述统计分析

唐山市43个水质断面监测指标如图1所示。就Zn含量而言,河流、湖泊水体中含量较高,达1.683mg/L,1.482mg/L,地下水中含量最低,为0.612mg/L,根据GB 3838—2002《地表水环境质量标准》,河流水体属于III类,水库、湖泊、地下水均为II类。氨氮含量介于0.232~0.956mg/L之间,其中地下水属于I类,湖泊和水库属于II类,河流水属于III类。溶解氧是维持水体生命机能的重要成分,其含量与温度、水生生物等密切相关,以河流水体的溶解氧最高,为6.56mg/L,属于II类水质;地下水达3.667g/L,为III类;湖泊和水库水体均属于II类。化学需氧量是指在一定条件下,以高锰酸钾为氧化剂,处理水样时所消耗的氧化剂的量,是水环境质量的重要影响因素。此次调查显示,地下水的化学需氧量含量最高,达到33mg/L,湖泊水次之,属III类水质,河流和水库水体的化学需氧量较低,达到I类。磷素是植物生长所需的有机营养物质,其在水体中富集往往引发水藻滋长,并诱发水污染。各类型水体中湖泊中的磷素含量最高,达到0.82mg/L,属于III类水质标准,地下水水体中总磷含量最低,仅为0.08mg/L,水质较优为I类,而河流和水库水体中总磷含量属于II类。

图1 唐山市水质统计特征

4.2 水体指标相关性分析

通常水质指标性相关性越高,表明其同源的可能性越大,这能够帮助我们分析污染物的来源。Person相关分析表明,唐山市水体中的化学需氧量与溶解氧之间呈正相关关系,相关系数为0.69,在5%水平上达到显著性。氨氮、总磷和生化需氧量与化学需氧量均呈显著正相关关系,通过了0.05水平的检验,相关系数依次为0.79,0.84,0.85。而氨氮的含量与总磷、生化需氧量的相关性达到0.72和0.75,达到统计显著水平(p<0.05)。见表1。

4.3 水质主成分分析

表2为唐山市水质主成分分析结果。依表可知,大于1的特征根有2个,4个主成分包含了87.13%的解释方差,能够很好地反映水质独立信息。其中,第一主成分的可解释方差最大,达51.15%,第二主成分占22.32%,第三主成分为9.7%,第四主成分仅占3.96%。经旋转后得到其因子荷载矩阵。可知,第一主成分与溶解氧、化学需氧量的关系密切,荷载值达到0.801,0.759,反应的是水体自净能力。氨氮、总磷在第二主成分上有较大荷载,表明氮素、磷素等有机物污染是唐山市水污染的重要因素之一。第三主成分上荷载值较大的是锌,第四主成分上荷载值较大的为生化需氧量与高锰酸钾指数,荷载值依次为0.819,0.905,0.751。综合来看,溶解氧与化学需氧量对唐山市水体污染贡献值最大,其次为氮磷等有机物,锌和高锰酸钾指数等贡献程度较低。

表1 唐山市水质指标相关性矩阵

注:*为在0.05水平上达到显著性。

表2 水质断面主成分分析

4.4 基于随机森林的唐山市水质综合评价

4.4.1 评价流程

应用随机森林算法实施水质综合评价的关键在于依据水质评价分级标准构建其与指标系统中的单一指标间的隶属规则,在Rstuido环境下其具体流程如下:

步骤1:依据GB 3838—2002,应用R软件中的runif函数在各等级标准区间随机内插生成200组样本数据,5个评价等级共计样本1000组;并将其中的15项指标样本进行归一化处理,以剔除量纲、噪声影响。公式如下:

正向指标:yij=(xij-xj)/(maxxj-minxj)

(6)

负向指标:yij=(maxxj-xij)/(maxxj-minxj)

(7)

式中,x—指标原始数据;i—行政区序列;j—指标项目序列;maxxj和minxj—分别表示第j个指标中最大值和最小值;y—标准化值。

步骤2:样本设置。从1000组样本数据中随机选取700组作为训练样本,另外300组为检测样本;样本中15个参评因子数据为输入向量,5个目标值为输出向量,通过Randomforest函数进行建模训练。

步骤3:参数优选与模型精度评价。模型中的出包错误率(Out of bag error rate,OOB)为模型精度的衡量,对于敏感参数mtry和ntree的选择,可通过tunefit函数进行优化。参数mtry最优值一般为变量的方根值,该研究中其适宜值为4;对于ntree值的搜索如图2所示,可知当ntree为1200左右时,OOB值较小而趋于稳定[6]。由于训练样本、检测样本选取均为随机,并且回归树集成为森林过程中子结点的选取也呈随机性,故而以20次运行结果的平均值表征模型性能,其精度参量技术可通过Metrices程序包进行,结果见表3。结果显示其训练精度、检测精度均较高,模型学习能力好、可靠性强,可用于试验区水资源承载力评价。

图2 模型精度随树数量的变化

表3 随机森林模型实验结果

步骤4:阀值设定。根据检验样本的实际输出向量可获得不同评价等级区间的临界值,取多次运行产生的临界值平均值作为阀值,分别为:I类(0,1.5210]、II类(1.5210,2.3712]、III类(2.3712,3.4283]、IV类(3.4283,4.4688]、V类(4.4688,5.5217]。该阀值作为水质分级依据。

步骤5:模型应用。将训练好的模型应用于目标数据样本,以测评唐山市水质状况,并依据阀值进行分级评价。

4.4.2 评价结果

基于前述方法,对唐山市43个水质断面进行综合评价,结果如图3所示。基于阀值划分水质等级,I类水质主要分布于市域北部和东部边缘地区,该地区水资源涵养条件好、水环境质量高且地广人稀,水资源承载压力较小,水质受人为影响较小。II类水质呈带状分布于市域中部,该地区是唐山市农业、生态用地、园地核心区,水体受到一定污染。III类水质呈斑状聚集性分布于西南和南部地区,该地为唐山市人口、工业密集区,污染排放较多且人为破坏程度大。统计显示,I类水质分布面积最小,占区域总面积的27.31%,II和III类水质分布广泛,依次占34.14%,38.55%。综合来看,唐山市水质呈空间聚集性分布,对此应对加强水资源保护与空间调配。

图3 唐山市水质综合评价结果

5 结论

唐山市水体质量分属I~III类,II和III类水质分布于市域中南部核心区,这对区域经济发展、民生安全造成不利。该市水资源可能存在的污染类别主要是溶解氧、氮素和磷素,对此应予以积极防控。在GIS平台上运用Kriging插值法对全市水质质量进行空间可视化表达,直观反映了水质等级渐进变化及其空间格局,为区域水资源管理提供了有利手段。随机森林机器学习算法将水质综合评价转化为多重非线性模式识别问题,通过组合树的根节点与叶节点模拟水质指标与水质量级间的关系,经过充分训练获得水质等级识别能力,评价过程客观。

猜你喜欢
需氧量唐山市溶解氧
中国人民银行唐山市中心支行
唐山市
东平湖溶解氧及影响因素分析
西南黄海2018年夏季溶解氧分布特征及其影响因素的初步分析
唐山市还乡河水污染综合治理
唐山市
黄河口附近海域化学需氧量和石油烃分布及其关键控制环境因子分析
地表水中总磷、氨氮、化学需氧量的相关性研究
浅析水中溶解氧的测定
《水质化学需氧量的测定》新旧标准区别探讨