基于BP神经网络的内陆河流水质遥感反演

2022-04-18 09:59:28张宏建皇甫款
关键词:波段反演水体

张宏建, 王 冰, 周 健, 余 勇, 柯 帅, 皇甫款

(1.信阳市水利勘测设计院, 河南 信阳 464000;2.郑州大学水利科学与工程学院, 郑州 450000)

目前工业生产、畜禽养殖及人类日常生活等行为产生了大量有机污染物,严重污染了周边水体.危害水生生物,随着食物链的逐级放大,逐渐影响人类的身体健康[1-4].因此,及时、准确地掌握水体有机污染物污染程度对于水质评价和内陆水体污染防治具有重要意义.常规的水质监测方法是在整个水域范围内布设大量的取样断面,通过人工取样检测来获得实时实地的水体污染物浓度.该方法取样检测过程不仅需要大量的人力物力财力,而且受当地水文、气候等自然条件的影响,部分区域很难进行取样工作,最主要的是这种方式也只能获取到局部点位的水质情况,不能很好地反映整个区域水质信息.从实际需求方面来看,水质监测范围大且实时性要求高,而传统的监测方法在时间和空间上均不连续,无法达到该要求.由于不同区域的水体污染程度不同,遥感图像上相应的水体反射率光谱曲线也不尽相同.卫星遥感影像覆盖范围广、成像速度快、信息量丰富且性价比高,非常适合用于水质监测.遥感技术在水质监测方面的应用能有效弥补传统方法的缺点.

随着遥感空间技术的发展,利用遥感监测水质信息的工作也逐渐展开,可利用卫星影像反演的污染物类型也大大增加,反演精度不断提高.Mahtaba等[5]通过研究发现二次回归模型对悬浮物浓度的估测效果较好.Matias Bonansea等[6]在线性混合模型中加入降雨量、水面温度等相关因子开发了反演叶绿素a浓度的算法,提高了估算的准确性.胡举波[7]利用TM数据构建了叶绿素和溶解氧的反演模型,模型的精度均在20%以内;黄妙芬等[8]通过建立线性判别函数来实现遥感图像上COD的识别;杨煜等[9]构建三波段模型监测了巢湖水体中叶绿素a浓度,在充分考虑水质参数光谱特征的情况下,实现了内陆水体的有效监测.水环境污染过程实际上受多种因素的影响,是一个非线性的过程,传统的线性反演模型限制了水质反演结果的准确性.然而,人工神经网络具有较好的非线性逼近能力,将神经网络应用于水质监测为提高水质监测的准确性提供了新思路.王佳楠等[10]以高锰酸钾盐含量为研究参数,在ARIMA时间序列预测模型基础之上又试着建立BP神经网络预测模型,结果表明后者对水质的预测更为理想.岳佳佳、庞博等[11]利用BP神经网络模型和RBP神经网络模型实现了宽浅型湖泊水体的水质反演,取得了较好效果,对城市浅型湖泊的专项治理有重大意义.在国外,Alves等[12]通过主成分分析简化前馈神经网络的输入变量,从而确定了水质指数(WQI)的最优的人工神经网络(ANN)模型为19-16-1.Dandy G C等[13]通过实验证明用神经网络反演河水的含盐量效果较好.

城市内陆地表水污染受多种因素的影响,当前对叶绿素a浓度、水温、悬浮物、含盐量等的相关研究相对比较成熟,而其他水质指标的相关研究还比较少[14-18].化学需氧量(chemical oxygen demand,COD)是用化学方法测量水样时氧化水样中还原性物质所需的氧化剂的量[19].在生活废水和工业废水导致的河流污染的研究和管理中,化学需氧量是能较快被测定的重要指标之一.氨氮是水中的营养物质,是河水中的主要耗氧污染物之一,氨氮含量超标会导致水体富营养化,不利于水生生物的健康生长[20-21].因此,及时、有效地监测河水中COD和NH3-N这两个重要的有机物污染指标很有必要.目前对水量比较集中且水域面相对较广的湖泊水质的研究较多,但对于水面较窄的内陆水体方面的研究相对较少[22-24].信阳市的各支流水体水面相对较窄,在枯水期期间,各固定监测断面水面宽度最大不到900 m,一些在湖泊水质监测中常用的卫星数据,例如MODIS,在这类水体中的应用受到限制.除此之外,相较于湖泊这类大型水体来讲,水面较窄的内陆水体成分复杂多样,这也增加了利用遥感进行水质参数反演的难度.因此,本文以信阳市内的淮河干流及其南侧支流水体为例,利用非线性的方法反演出了COD和NH3-N浓度的空间分布,丰富了水质反演方面的研究内容,并结合实际(即信阳市水质现状),使该研究更具有实践性.这对于信阳市城市内陆水体纳污能力的评价、城市水功能区的规划以及水体污染防治等有重要意义.

1 材料与方法

1.1 实验数据

本文所用的水文数据为2016年3月1日淮河流域信阳市范围内的COD和NH3-N的实地监测数据.监测断面处的水质情况如表1所示.根据2016年信阳市水资源公报,研究区内共有5个监测断面水质为Ⅱ类水;18个监测断面水质为Ⅲ类水;4个监测断面水质为Ⅳ类水;1个监测断面水质为Ⅴ类水;6个监测断面水质为劣Ⅴ类水.

表1 取样点实测水质数据分析

1.2 OLI数据及其预处理

本研究所用数据为2016年3月1日获取的Landsat 8卫星影像(下载地址:http://www.gscloud.cn),该影像质量较高,其云量低于2%.实验主要使用了Landsat 8卫星0.450 μm~2.300 μm的水体反射信息.具体波段分布如表2所示.

表2 Landsat 8波段介绍

大气校正是使用多光谱遥感数据进行地表参数定量分析的前提,主要用于减少或消除气溶胶和大气分子的吸收和散射对地物反射率的影响.图1展示了FLAASH大气校正的结果,该预处理过程在ENVI 5.3环境下进行.通常来讲,与其他地物相比,水体的反射率相对较低,因此,本研究在提取采样点遥感反射率信息时,主要以采样点所在像元为中心,在其3×3矩阵掩模范围内选取灰度值最小的像元进行取样,以降低偶然误差.

图1 水体大气校正前后光谱曲线对比Fig.1 Comparison of water spectrum curves before and after atmospheric correction

1.3 相关分析方法

对数据进行相关分析有很多种方式,常用的方式主要有:相关系数、一元或多元回归、信息熵和互信息等.本文选用回归的方式进行相关分析,具体来说,该过程主要采用单波段模型(自变量为单一波段)和波段组合模型(自变量为波段组合)进行回归分析.单波段模型即建立单波段影像上的遥感反射率与各水质指标浓度之间的相关关系模型.波段组合模型则为对单波段影像进行波段组合后,建立相应图像位置上的数值与水质指标浓度之间的相关关系模型,组合方式主要有差值模型、比值模型、及一些水体指数模型[25-27],如式(1)~式(6).

(1)

RNDWVI=3×B2+1.5×(B3-B5)-

(2×B6+B7),

(2)

RNDWI=(B6-B4)/(B6+B4),

(3)

(4)

NDWI=(B3-B5)/(B3+B5),

(5)

NWI=

(6)

式中,B2、B3、B5、B6、B7分别代表大气校正后Landsat 8卫星中的blue、green、NIR、SWIR1和SWIR2波段数据.

1.4 遥感水质监测机理

遥感水质监测通常是在排除外界因素干扰的情况下,基于水体的表观光学特性(如遥感反射率等)获取水体组分的浓度.一般来说清洁水体有固定的光谱反射特征,即随着波长的增加,清洁水体的遥感反射率值逐渐降低呈现线性分布.而对于污染水体来说,其表面光学特性随着污染成分的不同而不同,各类污染物对电磁波的反射能力有所不同,且均与清洁水体不同,具体表现为水体光谱曲线中出现峰值或谷值.因此,水体的光谱特性主要与其水体组分相关,当该水体与清洁水体组分不同时,该水体表面的光谱特性就会发生变化,而这个变化可以被遥感仪器探测到,具体表现为遥感图像上不同的像素值,而该像素值经一定变换可以得到遥感反射率值.理论上来讲,水体遥感反射率值与水体污染指标浓度之间可能存在某种函数关系.

Rλ=F(x),

(7)

式中,Rλ是λ波段的水体遥感反射率值,x是某污染指标的浓度.

利用遥感手段对水质进行监测的方法主要有直接法和间接法.直接法主要利用遥感反射率值与水质参数浓度之间的联系,采用数据拟合的方式直接建立相应水质参数的反演模型对其进行反演,适用于一些对光谱信息较为敏感的水质参数.间接法则需要借助水质参数之间较强的相关关系,该方法首先利用遥感反射信息得到对光谱信息较为敏感的水质参数浓度分布情况,然后利用强相关性间接得到与该水质参数具有较强相关性的但对光谱不敏感的其他水质参数浓度的分布情况,以此来对那些对光谱信息不敏感的水质参数浓度进行反演.由于水体类型差异、季节性差异和地域差异,各种水质参数之间的相关性不固定,这时一般根据经验关系利用直接法构建统计模型对非光学活性水质参数进行反演.

2 实验与分析

2.1 研究区概况

淮河自西向东横贯信阳市,境内河长363.5 km,水资源丰富,主要支流有浉河、竹竿河、潢河、白露河等.信阳市市内建有5座大型水库,13座中型水库,866座小型水库.该地区大部分区域属于亚热带季风气候,降水量自北向南递增,年均1 300 mm[14].信阳春季和冬季降雨较少,属于枯水期,径流减少导致河流中水中有机污染物浓度偏高.经对比,实测水质数据中春、冬两季的水中有机污染物浓度明显偏高.因此,本实验着重选取了淮河、浉河、竹竿河、白露河、潢河、南湾水库、石山口水库以及泼河水库作为研究区域,对枯水期期间研究区域内主要的水质监测断面的有机污染物浓度数据进行分析,获取的实地监测水质数据的监测断面位置如图2所示.

2.2 相关分析

选取Landsat 8影像的蓝波段(B2)、绿波段(B3)、红波段(B4)、近红外波段(B5)、短波红外1波段(B6)和短波红外2波段(B7)与化学需氧量和氨氮进行回归分析,并绘制了回归曲线.实验排除了部分在遥感影像上受环境或周边地形因素影响反射信息误差较大的部分监测断面.图3仅展示部分相关系数大于0.5的回归曲线.实验结果表明:1) COD B7波段的拟合度较高,R2为0.757,COD与B5的相关性最低,R2仅为0.058; 2) 氨氮与B2的拟合度最高,R2为0.745;由上分析可知,氨氮可直接利用其敏感波段进行反演.

图2 研究区主要河流分布图Fig.2 Distribution map of major rivers in the study area

图3 水质因子与单波段数据回归曲线(R2≥0.5)Fig.3 Regression curves of water quality factors and single band data (R2≥0.5)

在水质因子与单波段相关性分析的基础之上,本文利用与水质因子相关性较好的单波段进行波段组合试图提高其相关性.由于波段组合较多,图4仅展示部分与COD或氨氮相关性较高的回归曲线,图中X轴横坐标轴标题B3B6代表(B3-B6)/(B3+B6),B4B6代表B4/B6,以此类推.实验结果表明:1) COD与B4/B6的相关性较高,R2可达0.852,波段组合明显提高了DN值与COD的相关性;2) 氨氮与(B3-B4)/(B3+B4)的相关性较高,R2为0.706,波段组合以后,各波段组合与氨氮的相关性并没有单波段与氨氮的相关性高,由此可利用波段比值对COD这类水质因子进行反演.

图4 水质因子与多波段数据的回归曲线(R2 ≥ 0.5)Fig.4 Regression curves of water quality factors and partial combined bands data(R2 ≥ 0.5)

2.3 BP神经网络

BP神经网络是一种多层的前馈神经网络,主要包含输入层、隐含层和输出层.每一层都由若干个节点组成.首先初始化网络参数,将与水质参数相关性较高的单波段或波段组合数据作为输入,以取样点处的水质因子浓度作为输出,构建网络,计算网络的输出值,并将其与期望值进行比较,若含有误差便通过误差逆传播算法从输出层到输入层逐层进行误差修正,通过不断调节层与层之间的连接权值和节点的阈值,使网络的输出更接近期望输出[28].为了加快神经网络的收敛速度,使用premnmx函数对原始数据进行归一化处理,这样也可以减少环境及其他因素对水体反射光谱的影响,同时也避免了因其他干扰导致的波谱曲线整体的降低或上升,除此之外还可以加快网络学习速率.输入层为Landsat 8影像的30 m分辨率的波段数据,输出层为所要研究的水质指标,根据经验公式(10)确定隐含层的节点数的取值范围,通过神经网络训练结果精度选择最佳的隐含层的节点数.在网络训练过程中,较小的期望误差意味着更多地训练次数和更久的训练时间,根据前人经验及多次实验分析决定将其设置为0.000 1.考虑到系统的稳定性,将学习速率设置为0.01.经过大量实验对比分析,最终确定COD的网络模型为6-11-1;氨氮的网络模型为6-4-1.

(8)

式中,n1为隐含层节点数,n为输入层节点数,m为输出层节点数,k为1~10之间的调节常数.

3 结果与讨论

利用相对误差和绝对误差分别对测试集模型仿真结果进行分析结果表明:BP神经网络在水体污染物浓度监测方面体现出明显的优势,使用该模型反演得到的COD和氨氮浓度与实测数据吻合度较高,平均相对误差分别为14.35%和29.30%.

表3 不同模型的相对误差

基于精度较高的BP神经网络反演模型和Landsat 8影像各波段数据信息对COD和氨氮含量进行反演,得到研究区内化学需氧量(COD)和NH3-N含量的空间分布情况(如图5所示).监测结果表明:研究区内各水体的COD最低为8.71 mg·L-1,最高为27.09 mg·L-1,平均值为18.34 mg·L-1.NH3-N含量最低为0.17 mg·L-1,最高为3.65 mg·L-1平均值为0.87 mg·L-1.研究区内整体污染物浓度反演结果与实际情况相符,仅部分地区有些微偏差.

实验结果(如图5所示)显示南湾水库的水质仅有轻度污染,属于地表水源一级保护区,但其下游浉河流经城镇和农村居民区,人类日常生活污水和工业污水排放的量相应增加,导致COD含量增加,进而水体污染程度增加.除此之外,农田径流中随着氮肥的施加,水体中NH3-N含量也会增加.经查证该区域水体中实际COD含量在20 mg·L-1以上,NH3-N含量在1.00 mg·L-1以上.而实验结果中浉河河段部分的水体污染物浓度的监测结果的空间分布与实际情况不太符合:监测结果显示该区域水体中COD含量在15.40 ~27.08 mg·L-1之间,NH3-N含量在0.50~3.65 mg·L-1之间,浉河区域部分河段COD含量低于20 mg·L-1,NH3-N含量低于1.00 mg·L-1,与实际情况相比浓度均偏低.造成部分水体污染物含量监测误差的可能的原因有:1) 遥感影像的拍摄时间和水质数据的取样时间虽然是同一天,但时间点无法精确吻合,时间或早或晚总会有些差异,客观上在这段时间内流经居民区的水体内污染物的浓度存在差距;2) 经考察发现,由于平桥滚水坝的拦截作用,浉河中下游地区河流较窄,水面较浅,且浉河中下游地区有许多沙洲,这些综合因素的影响了这片区域的遥感影像上DN值,从而造成浉河部分水体污染物浓度监测结果的误差;3) 大气校正过程中引起的误差;4) 取样点处实测水质浓度误差,对于平桥区内取样点的水质样本,在实验室内测量COD和NH3-N浓度时产生的误差.导致该实测取样点处的这两种水质因子含量偏小;5) 由于部分河流比较窄,且本研究使用的影像为30 m分辨率的Landsat 8遥感影像,在较窄河段像元数量较少,河水和岸边地物区分不明显,从而产生混合像元,对该处影像DN值产生影响,导致水体污染物浓度监测结果偏低.

图5 水质因子的空间分布Fig.5 The spatial distribution of water quality factors

表4展示了《地表水环境质量标准》中COD和NH3-N的限值.按照《地表水环境质量标准》对水质反演结果进行了双指标水质评价,如图6所示:上游地区的南湾水库、光山县泼河水库和罗山县石山口水库均为Ⅱ类水;由于河水流经居民区和工业区,生活污水、工业污水以及农田径流增加,竹竿河和浉河水质较差些,大部分为Ⅲ类水和Ⅳ类水;淮河、白露河和潢河极少部分水体为Ⅳ、Ⅴ类水,整体上可规划为Ⅲ类水.评价结果与水资源公报中水质现状大体相同, BP神经网络模型能实现较高精度的水体污染物浓度的监测.

表4 水质分类标准

图6 双指标水质评价Fig.6 Double-index water quality assessment

4 结论

本文基于实测水质数据和同步影像数据,相关性分析结果表明光谱反射率与有机污染物浓度之间存在内在联系.利用取样点实测的水体污染物浓度信息和Landsat 8影像上与之相应的同步光谱信息,运用相关分析法找出信阳水域两个重要的水质因子COD和NH3-N的光谱特征波段.利用陆地卫星系列Landsat 8数据进行波段运算,将单波段或波段组合影像数据与实测水质因子数据进行相关分析,选取相关性较高的波段或波段组合对水质因子建立BP神经网络模型进行反演,将反演结果与实测数据进行对比分析.结果表明:利用Landsat 8遥感影像数据监测水体污染物(COD和NH3-N)的浓度是可行的.Landsat 8的蓝波段(Band 2)与NH3-N具有较高的相关度,其中利用蓝波段、绿波段、红波段以及三个波段之间的波段组合得到的NH3-N的空间分布与实际情况较为符合.COD与Landsat 8的各个单波段的相关度不太高,但是利用红波段(Band 4)与短波红外波段(Band 6)进行波段组合后与COD的相关度明显提高很多,且利用Band 4/Band 6估测的COD浓度精度较高.基于BP神经网络的反演模型能够更好地监测水质数据,监测得到的COD和NH3-N浓度的空间分布与实际情况较符合.

目前利用遥感手段进行水质监测仍然存在许多问题,未来可考虑采用不同空间分辨率的数据对其进行进一步的研究以探寻利用遥感数据进行内陆水体水质监测的合适的尺度.此外,对于内陆水体组分来讲,季节性差异和区域性差异较大,因此,仍需根实际情况有针对性地构建适合当地的相关模型,为当地水污染防治提供合理的数据支撑.

猜你喜欢
波段反演水体
春日暖阳
反演对称变换在解决平面几何问题中的应用
中等数学(2022年5期)2022-08-29 06:07:38
农村黑臭水体治理和污水处理浅探
生态修复理念在河道水体治理中的应用
基于低频软约束的叠前AVA稀疏层反演
基于自适应遗传算法的CSAMT一维反演
广元:治理黑臭水体 再还水清岸美
M87的多波段辐射过程及其能谱拟合
日常维护对L 波段雷达的重要性
西藏科技(2015年4期)2015-09-26 12:12:58
叠前同步反演在港中油田的应用