基于RBF神经网络的燕山南麓水库群水质评价

2019-03-14 11:05
水资源开发与管理 2019年2期
关键词:水质评价需氧量桃林

(河北省秦皇岛水文水资源勘测局,河北 秦皇岛 066000)

水是多态活跃的物质体,水体质量是其生物、化学、物理等特性的综合体现,对水体质量进行识别,可为测评水生态环境优劣程度、建设水生态文明提供信息基础。国内外学者就水体质量评价理论[1-2]、测评方法[3]、分级标准[4]、水质预警[5]等进行了系列研究,然而尚未形成具有广泛认同的统一评测方法。学者们对水质评价方法的研究逐渐由传统统计学(多元回归、熵权综合指数、模糊数学等)[6]方法过渡到数据挖掘算法(灰色系统、物元、Elma、BP、SOM、BP、分类回归树等)[7],并取得了良好的效果。RBF神经网络是一种前馈神经网络,其采用局部逼近模式实现快速学习,以核函数为核心算法将低维线性不可分问题映射到高维特征空间,克服局部极小等问题。相比于传统神经网络法,RBF神经网络具有结构简单、泛化能力好的特点,在生态环境评估领域中应用较多[1,3]。燕山南麓地处华北半湿润区,区域水资源数量不丰、地下水开采过量,水库是工农业生产生活用水重要的水源地。为了解该地区水库水体质量,以RBF神经网络方法对水体质量进行评估,以期为水环境保护与水污染治理提供参考依据。

1 研究区概况

本研究中的桃林口、石河、洋河、陡河和邱庄5个水库位于河北省燕山南麓的唐山、秦皇岛市境内,水库分布见图1。水库修建于燕山山麓河流上游,流量较小、流速相对湍急,库区水面广阔蜿蜒,6—10月为蓄水期,11月至次年5月为排水期。区域地形属于山地、丘陵、谷地、平原,海拔介于0~1400m之间,库区海拔在500m以上。属温带季风性气候,年均温10℃,多年均降水量540.5mm,冬季寒冷干燥,夏季高温雨水集中,春秋短促,月际温差大,无霜期185天,大于10℃的积温为2800℃,降水月际、年际之间变化大,水库有春汛、夏汛。库区上游为农用地、林地、草地等主要覆被类型,另有工矿企业分布,水体中矿物质主要来源于地质环境过程转化,有机、无机等成分由地表径流、土壤侵蚀转移至水库。

图1 研究区水库分布

2 水质样本获取与测定

水体质量受时序变化、水文情势、断面位置等多要素综合影响,为准确而全面掌握该地区水库水质特征,设定监测时间为2016年9月至2017年8月,每月取1次样本;各水库取样范围分布在库首、库尾、中心、沿岸等多个位置。将各库区历次采集的样本混合均匀后带回实验室予以化验分析,将各月监测指标均值作为各库区水质实际值。各水库断面水质监测指标共7项,分别是:溶解氧(DO)、高锰酸盐指数、化学需氧量(COD)、生化需氧量(BOD)、总磷(TP)、总锌(Zn)、氨氮(NH3-N)。按照《水质高锰酸盐指数的测定》(GB 11892—1989)对各项指标进行测定:DO以硫酸钾湿氧化法测定,COD以草酸钠法测定,NH3-N以纳氏剂分光光度法测定,TP以碳酸氢钠浸提-钼锑抗比色法测定,Zn以半微量凯氏法测定[8]。

3 RBF神经网络方法水质评价

3.1 RBF神经网络原理

RBF (Radical Basis Function)神经网络是在径向基函数逼近理论基础上发展起来的前馈网络学习算法[9]。在RBF网络结构中函数基以拓扑关联形式构成隐含层,将输入向量经矢量变换后映射到高维特征空间,遂将非线性问题简化成线性可分性问题。该网络结构由输入层、隐含层、输出层3个层次构成,其中中间层为非线性映射的关键,此处是单元的线性加权求和,其核函数有格林函数、高斯函数等形式。相比Elma、BP等传统神经网络,其具有泛化能力强、避免局部极小、拟合程度高等优点。RBF神经网络拓朴结构见图2。

图2 RBF神经网络拓扑结构

3.2 基于RBF神经网络水质综合评价流程

水体质量是水体中各种理化属性的综合反映,水体断面单一监测指标只能反映其某一性质,应用RBF神经网络实施水体质量综合评价的关键在于依据水质标准构建隶属规则。Rstuido环境下有诸多关于BRF的程序包,本文应用Kernlab程序包实现研究区水库水质评价,其具体流程如下:

a.依据水质评价标准,应用R软件中的runif函数在各标准区间随机内插生成100组样本数据,并将各指标数据经scale函数予以归一化处理,剔除量纲、噪声影响,计算公式为

(1)

式中y——标准化值;

x——实际指标值。

b.本次水质监测共有7个指标,5个水质等级,共生成了1000组样本数据;从中选取500组为训练样本,另500组为监测样本;监测样本作为RBF网络结构的输入向量,其输出向量为相对应的水质级别,其中Ⅰ、Ⅱ、Ⅲ、Ⅳ和Ⅴ类水质依次记作为1、2、3、4和5。设置好样本后进行建模训练。建模过程从输入到输出可以描述为

(2)

式中n——网络结构中感知单元数;

h——训练样本数;

wij——权值;

φp(|xp-ci|)——径向基函数;

xp——第P个n维输入变量;

ci——网络隐含层第i个基函数的中心。

c. RBF模型中需要确定基函数中心、方差宽度和循环次数,通过tunefit函数可进行网格搜索寻优,最终确定各项参数分别为1.2、0.2、1000。

d.根据《地表水环境质量标准》(GB 3838—2002)中对相应水质监测指标分级的临界值,运用RF算法进行模拟计算,其模拟值作为不同分级标准阀值,也是水质评价的依据,阀值见表1。在此基础上将训练好的RBF模型应用于目标数据样本,并结合阀值综合评价水库水质质量。

3.3 RBF神经网络水质综合评价结果与分析

3.3.1 库区水质监测描述统计分析

桃林口等5个水库水质监测指标见图3。就总锌含量而言,邱庄水库水体锌含量最高,达1.683mg/L、桃林口水库含量最低,为0.612mg/L。氨氮含量介于0.432~0.851之间,DO是水质量的基础,其含量与氧的分压、水的温度、水体营养物质含量密切相关,5个水库水体含氧量相差较大,其中桃林口水库水体溶解氧高于90%;陡河次之,达5.667mg/L。化学需氧量是指在一定条件下,以高锰酸钾为氧化剂,处理水样时所消耗的氧化剂的量,是水环境质量的重要影响因素;以邱庄水库含量最高,达到30mg/L;石河次之,其他水库水体化学需氧量较低。总磷的含量往往成为浮游植物的限制性元素之一,易成为水体营养化污染物;以邱庄水库含量最高,桃林口水库总磷含量最低类。生化需氧量在桃林口水库水体中的含量仅为3.154mg/L。

图3 燕山南麓水库水体监测指标值

3.3.2 库区水质监测指标相关性分析

相关性分析能够帮助推断水体中各物质之间迁移转化机理及其来源是否相同,水体指标相关性分析见表2。其中化学需氧量与溶解氧之间呈正相关,相关系数达到0.624,与总磷、生化需氧量、高锰酸盐指数含量均呈显著正相关关系,相关系数为0.716、0.763、0.769、0.362。水体中溶解氧的含量与生化需氧量呈负相关,相关系数为-0.354,与高锰酸盐指数含量在0.05水平上表现出负相关,相关系数为-0.231。

表1 水质分类阀值与库区水质综合指数

3.3.3 库区水质RBF神经网络法评价结果

依据前述RBF神经网络运算流程,对溶解氧、高锰酸盐指数、化学需氧量、生化需氧量、总磷、总锌、氨氮等7项监测指标在《地表水环境质量标准》(GB 3838—2002)中的分级阀值作为矢量输入值进行模拟,其输出值指示水质评价分级标准,并据此得到桃林口等5个水库水体质量综合指数。由表1可知,邱庄水库水质综合指数为3.015,依据评价阀值属于Ⅲ类水质;石河水库水质综合指数为2.124,属于Ⅱ类水质;洋河、陡河、桃林口水库水质的综合指数依次为1.648、1.824、1.579,均属于Ⅱ类水质。

表2 水体指标相关性分析

注**表示在0.01水平上呈极显著相关,* 表示在0.05水平上呈显著相关。

3.4 RBF神经网络法评价可靠性比对

为了证明该方法的可行性,另以模糊数学法对库区水质进行综合评价。模糊数学结果表明:5个水库水体质量排序为:桃林口>洋河>陡河>石河>邱庄,该水质排序结果与RBF神经网络方法所得评价排序结果一致。

4 结 论

RBF神经网络以水质监测指标值作为输入向量,通过隐含层核函数构建水质指标与水体质量分级之间的隶属规则,从而将水质评价结果在输出层显示。模型经网络优化后具有精确的学习能力,进而可对水体质量予以量化评价。RBF模型训练精度高,在评价过程中具有维数扩充简易、可移植性强的优点,与传统模糊综合评价法评价效果相一致,因而具有良好的应用潜力。

猜你喜欢
水质评价需氧量桃林
阿什河哈尔滨段水质评价
秦皇岛北部地表水和地下水水化学特征及水质评价
浞河浮游藻类的调查研究与水质评价
黄河口附近海域化学需氧量和石油烃分布及其关键控制环境因子分析
地表水中总磷、氨氮、化学需氧量的相关性研究
《水质化学需氧量的测定》新旧标准区别探讨
十里桃林平东路
囧版三国之桃林争夺战
桃林村(外一首)
模糊数学评价法在水质评价中的应用