朱小明
(河海大学 计算机与信息学院,江苏 南京 211100)
河流和水库是目前世界上最重要的淡水资源,在调整支流,农业灌溉,工业和生活用水,全球生态平衡,防洪排水,沟通航运中具有重要的作用,是全球经济可持续发展与人类生存和发展的重要保证。国内区域广袤,河流水库众多,水库数目超过100 000座[1]。但是由于前期大力发展重工业,未处理过渡排放的工业废水,以及民众对环境保护的意识薄弱,未处理过渡排放的生活污水,导致水生态系统被严重破坏,河流湖泊污染严重,部分水域富营养化,浮游藻类大量繁殖,形成水华等现象,给国家带来了巨大的经济损失[2]。根据国家环境监测总站数据显示,国内水域污染等级为IV类、V类、劣V类严重污染的占总水域的80%以上,其中最严重的事例为2007年5、6月的太湖蓝藻污染事件[3],造成了巨大的经济损失。因此,水质污染问题急需解决,而水质污染监测[4]是其中一项重要环节。
通常对水域质量进行质量分析评价是判断水域污染程度的有效方法。传统的水质监测是对水域进行污染分析监控,国内外学者对此进行了大量研究。例如,黄耀明等采用监测点现场水体采样、提取、分析对海港水域进行污染监测[5];黄建清等使用基于无线传感器网络的水体数据提取进行水质监测[6];CF Iscen等对Uluabat湖的采样数据进行成分分析以判定水质[7]等。
随着遥感卫星领域的快速发展,遥感图像在各类研究中应用广泛,其中不同的星载遥感图像的光谱段不同,主要有反射红外遥感、热红外遥感、微波遥感三种类型。其具有探测范围大,收集数据速度快,图像信息丰富,动态监测地面信息等优点,因此在城市规划监测、水库变化监测、灾害监测、地面资源环境监测等方面应用广泛[8]。其中X Guan等[9]采用SDT模型对Simcoe湖的TM卫星遥感图像进行水质研究分析;汪小钦等[10]采用基于TM影像的波段视反射率进行研究,探讨TM影像第四波段,第三波段与水体污染关联的研究等。
而后随着机器学习[11]的发展,国内外学者又将机器学习带入水质监测研究。例如,J Cao等提出基于DAGSVM的水质评估方法对水质进行监测[12];宓云軿等[13]建立LM-BP神经网络和支持向量机模型对水质有机污染物浓度进行监测等。
基于上述研究,针对现有水质污染监测研究的时空局限性和监测效果不足以及遥感卫星使用年限等问题,提出基于高分一号WFV(wide field of view)遥感图像对水域进行定性监测,并引入极限学习机方法,搭建基于集成ELM模型对水域进行异常监测。
文中研究的水域为太湖兰山嘴地区和洪泽湖盱眙淮河大桥地区。太湖是中国第三大淡水湖,位于长三角地区南缘,横跨江、浙两省,北临无锡,南濒湖州,西依宜兴,东进苏州。太湖水域的面积为2 338 km2,流域面积为36 500 km2,水域周边居民人数大约为3 500万,其生产总值约占全国八分之一。是国内工业最发达,城镇化水平最高的地区之一。太湖水域平均深度为1.89 m,最大深度约为4.8 m,平均年出湖径流量约为75亿立方米,其中太湖的蓄水量为44亿立方米。在周边城市经济发展,生活用水,交通运输中太湖具有很大的作用。但由于近年来周边城市的工业发展过于迅速,忽略了环境污染问题,导致大量未经处理的污染物流入太湖,使太湖每年都会大面积爆发春夏蓝藻,严重影响了周边城市的生活质量和经济发展。2007年5、6月,太湖蓝藻污染爆发,造成无锡全城自来水污染,导致周边城市生活用水严重短缺,造成了大量经济损失和环境污染。因此太湖的水污染治理受到了政府的高度重视,而水污染监测是其中一项重要环节。
洪泽湖是中国第四大淡水湖,位于江苏省西部淮河下游,苏北平原中部西侧,处于淮安宿迁两市境内,为淮河中下游结合部。洪泽湖水域面积大约为2 069 km2,是“南水北调”工程东线部分的组成部分,水域周边居民人数大约为1 000万。洪泽湖水域为过水性湖泊,水位波动不稳定,因此水域面积的变化也比较大。洪泽湖大部分情况下蓄水位为12.5 m,水域容积大约为31亿立方米。洪泽湖平均水深为1.5 m,水域容量最大时是5 m,由于地势较高,洪泽湖湖底高度一般在10 m左右,因此洪泽湖也被称为“悬湖”。由于近年来周边城市发展过快,未经处理的污水大肆排放,有研究表明,洪泽湖从2000年到2008年,其水域质量大部分时间段都处于严重污染状况。由此可见,洪泽湖水域也需要进行相应的水质污染监测。
由于太湖的兰山嘴和洪泽湖盱眙淮河大桥这两个位置均处于太湖和洪泽湖的上游,水域的污染物大部分都从这两处流入,造成严重污染,因此国家在此处设立了国家水质自动监测站,可以实时获取这两处的水质信息。其中水域遥感图像的数据选择及处理在Zhu H等研究[14]的基础上重新实验及改进。
(1)太湖兰山嘴(31.216°N,119.913°E)。本次实验从中国资源卫星应用中心数据库挑选了由高分一号卫星(GF-1)拍下的13幅成像效果比较好的16 m分辨率的WFV遥感图像,其中这13幅图像为每天一幅,其成像时间为2013年到2016年。从每幅WFV图像中选取了位于兰山嘴附近的10*10(100)个像素点的遥感波段值,数据集总共为1 300条数据,每条WFV数据由蓝色、绿色、红色、近红外四个波段组成。同时根据兰山嘴国家水质自动监测站发布的实测数据,将获取到的13幅遥感图像根据水质状况分为Ⅱ类、Ⅲ类、Ⅳ类、Ⅴ类、劣Ⅴ类。根据相关规定,等级为Ⅱ类、Ⅲ类的水质为正常水质,等级为Ⅳ类、Ⅴ类、劣Ⅴ类的水质为污染水质,实验测试中将正常水质数据标记为“+1”,共有600条数据,将污染水质数据标记为“-1”,共有700条,如表1所示。
表1 太湖兰山嘴WFV图像日期与污染等级
(2)洪泽湖盱眙淮河大桥(33.030°N,118.495°E)。本次实验从中国资源卫星引用中心数据库挑选了由高分一号卫星(GF-1)拍下的15幅成像效果比较好的16 m分辨率的WFV遥感图像,其中这15幅WFV图像为每天一幅,其成像时间为2013年到2016年。由于水域快读限制,实验从每幅WFV图像中选取了位于洪泽湖盱眙淮河大桥附近的5*10(50)个像素点的遥感波段值,数据集总共为750条数据,每条WFV数据由蓝色、绿色、红色、近红外四个波段组成。同时根据洪泽湖国家水质自动监测站发布的实测数据,将所获取到的15幅遥感图像根据水质状况分为Ⅱ类、Ⅲ类、Ⅳ类、Ⅴ类、劣Ⅴ类。根据相关规定,等级为Ⅱ类、Ⅲ类的水质为正常水质,等级为Ⅳ类、Ⅴ类、劣Ⅴ类的水质为污染水质,实验测试中将正常水质数据标记为“+1”,共有500条数据,将污染水质数据标记为“-1”,共有250条,如表2所示。
表2 洪泽湖盱眙淮河大桥WFV图像日期与污染等级
文中图像数据是从中国资源卫星应用中心获取,是由高分一号(GF-1)所拍摄,但由于所拍摄图片干扰辐射较多,所以需要先进行以下矫正:
(1)辐射定标。校正传感器本身的误差,使用ENVI5.1软件的Radiometric Calibration工具对光谱图像进行相应的辐射定标。
(2)大气校正。校正大气散射引起的误差,使用ENVI5.1软件的FLAASH模型工具对光谱图像进行相应的大气校正。
(3)正射校正。校正图像中的地形影响,使用ENVI5.1软件的RPC Orthorectification工具进行相应地正射校正。
极限学习机(extreme learning machine,ELM)是一种单隐层神经网络算法[15],广泛应用于回归与分类领域[16],其相比于其他单隐层前馈神经网络(SLFNs)具有学习速度快,不会陷入局部最优且泛化性能好的优点。
极限学习机的原理是在学习过程中网络随机初始化生成输入权值和偏置值,只需设置网络的隐层节点个数,求解最优输出矩阵,使得误差最小。ELM网络结构如图1所示。
图1 ELM网络结构
假设有N个任意样本(Xj,tj),那么对于图1中含有L个隐层节点的ELM网络可以表示为:
(1)
其中,g(x)为激活函数;Wi为输入层与隐含层权值;bi为输入层与隐含层偏置;βi为隐含层与输出层的连接权值。
该网络的学习目标是让网络的输出与样本误差最小,表示如下:
(2)
由此可推出,存在βi,Wi,bi,使得:
(3)
使用矩阵表示为:
Hβ=T
(4)
其中,H为该网络隐层节点的输出;β为隐含层与输出层的连接权值;T为样本期望输出。
H=
(5)
由此可知,当激活函数可微时,由于之前随机的输入权重和偏置固定,可以推出解为:
β=H+T
(6)
其中,H+为H矩阵的广义逆(Moore-Penrose)。
由于单个ELM模型的稳定性可能存在不足,故文中选择N个ELM模型对训练样本进行训练,最后利用极限学习机集成方式对所有数据进行预报,以获得较高的预报精确度和稳定性。
基于ELM集成的水域质量监测方法的步骤为:
Step1:根据训练样本训练N个极限学习机;
Step2:使用训练好的N个极限学习机对训练样本进行预测,根据N个ELM模型预测下的正确率,选取并记录前k个模型的正确率αi(i=1,2,…,k);
Step3:使用挑出的前k个模型对测试样本进行预测,记录结果为Qi(i=1,2,…,k);
Step4:采用加权平均法对k个极限学习机进行集成,根据Step2的正确率αi确定模型的权值Wi,正确率αi越高,权值Wi越大,公式如下:
(7)
Step5:根据Step3的预测结果Qi和Step4的权值Wi,计算得到最终的预测结果Q。
(8)
实验流程如图2所示。
图2 实验流程
文中使用集成极限学习机搭建模型分别对太湖兰山嘴和洪泽湖盱眙淮河大桥进行实验,模型中N取值为15,每条数据预测出的结果如果大于0则为1,小于0则为-1。
实验一:从高分一号所获得的WFV图像数据中,分别将两个地点的总数据集中随机分为4等份,搭建ELM模型,使用k-折交叉验证,k=4,得出实验预测像素点污染准确率,结果如表3所示。
表3 实验一分类准确率 %
实验二:将高分一号所获得的太湖兰山嘴WFV数据,按天分为13等份,每天一幅WFV图像,搭建ELM模型,使用k-折交叉验证,k=13,得出实验预测准确率。将高分一号所获得的洪泽湖盱眙淮河大桥WFV数据,按天分为15等份,每天一幅WFV图像,搭建ELM模型,使用k-折交叉验证,k=15。其中每幅图像中重度污染的像素点数大于60%,则该图像所在区域当日为重度污染,反之则为正常水质。实验结果如表4所示。
表4 实验二分类准确率 %
从表3可以看出,水质污染与水质的遥感光谱图像具有一定的相关性,而集成极限学习机模型可以很好地通过该水质的光谱数据对水质污染程度进行区分;从表4可以看出,集成ELM对水质的预测效果比较好,而其中洪泽湖盱眙淮河大桥比太湖兰山嘴的准确率低,其原因可能是淮河大桥那边的水体由于在城镇附近,干扰物比较多,总体来说实验准确率比较高。
文中提出了一种结合高分一号光谱图像和机器学习极限学习机模型对水质进行监测的新方法,采用该方法对太湖兰山嘴和洪泽湖盱眙淮河大桥进行实验监测。结果表明,该方法能够定性地判别一个地区当日是否严重污染,在训练样本相同的情况下,该模型与使用单个极限学习机判别预测相比,具有更好的准确率和稳定性,与其他机器学习模型如SVM模型相比具有更好的速度和泛化性,与传统模型相比具有更好的即时性和操作简便性。因此,该方法可以有效地对水质进行污染监测,具有一定的参考价值。