基于FY-3A/MERSI数据和支持向量机的太湖水体悬浮物浓度遥感模型

2016-04-11 02:54龚绍琦孙德勇李云梅
关键词:悬浮物太湖波段

张 鸽,黄 方,龚绍琦,孙德勇,李云梅

(1.东北师范大学地理科学学院,吉林 长春 130024;

2.南京信息工程大学地理与遥感学院,江苏 南京210044;

3.南京师范大学地理科学学院,江苏 南京 210046)



基于FY-3A/MERSI数据和支持向量机的太湖水体悬浮物浓度遥感模型

张鸽1,黄方1,龚绍琦2,孙德勇2,李云梅3

(1.东北师范大学地理科学学院,吉林 长春 130024;

2.南京信息工程大学地理与遥感学院,江苏 南京210044;

3.南京师范大学地理科学学院,江苏 南京 210046)

[摘要]以太湖为研究区,基于2009年4月(春季)和2012年8月(夏季)现场观测的总悬浮物质量浓度数据,以及同步过境的两期FY-3A/MERSI卫星影像,采用支持向量机方法构建了悬浮物浓度遥感模型.结果表明:经粒子群PSO算法优化支持向量机参数,选择径向基函数为核函数,以FY-3A/MERSI各波段遥感反射率及其波段组合,即B565,B650,B685,B765,B865和(B865+B650)/(B650/B865) 共6组特征数据作为输入参数,所建立的两个季节的悬浮物质量浓度遥感模型决定系数分别为0.89和0.78,均方误差为 0.018 5和0.106 1,为最优的水体悬浮物浓度SVM反演模型.

[关键词]FY-3A/MERSI数据;悬浮物浓度;遥感;支持向量机;太湖

0引言

悬浮物是水质监测重要的参数之一,直接影响水体的透明度和浊度等一系列物理特性.悬浮物浓度(suspended solids concentration)影响太阳光照在水下的分布和浮游植物对光照的利用,最终可决定湖泊初级生产力水平.[1]基于遥感技术定量地估算水体中悬浮物,对于水环境评价、水体生态环境空间差异研究以及水环境治理具有重要意义.

太湖是中国第三大淡水湖,许多学者关注于太湖水体悬浮物的遥感反演研究,已取得了一定进展.祝令亚等人[2]应用MODIS影像对太湖水体悬浮物浓度建立了一元线性回归估算模型;光洁等[3]的研究认为,应考虑季节对太湖悬浮物的影响,并利用四个季节的Landsat TM/ETM图像建立了太湖分季节悬浮物浓度估算模型,使结果更加精确.但以上研究更多采用的是Landsat TM及MODIS卫星影像等数据,而对我国自主研发的卫星遥感数据研究应用甚少.风云三号(FY-3)是中国第二代极轨气象卫星,卫星上搭载的中分辨率光谱成像仪(medium resolution spectral imager,MERSI)共有20个通道,辐射分辨率较高,其中第6—14通道可用于水色遥感.目前FY-3A/MERSI数据在内陆水体水质参数的研究应用尚不多见,韩秀珍等人[4]以FY-3A/MERSI和AQUA/MODIS遥感影像为数据源,对水体实测的叶绿素a含量以波段组合的形式建立了反演模型;朱晶晶等[5]建立了叶绿素a的三波段反演模型,并应用MERIS数据对滇池2003—2009年叶绿素a浓度的时空分布进行了预测.以上反演模型均为实测水质参数或以其组合形式与遥感反射率所建立的线性模型,算法本身具有单一性,导致其并不能很好地拟合复杂的二类水体水质参数与遥感反射率之间的函数关系.近年来,国内外学者尝试利用各种非线性复杂算法来定量反演悬浮物浓度.Keiner[6]在Delaware Bay建立了悬浮物浓度的神经网络模型,这是最早利用神经网络模型反演海洋悬浮物的研究.张博等人[7]认为,湖泊的水质与遥感光谱之间的关系可以被认为是一种十分复杂的非线性的问题,需要用神经网络模型这种黑箱模型来模拟其不确定性.吕君伟[8]利用粒子群优化算法(PSO)优化了径向基函数(RBF)神经网络,建立了一种改进的用于南海近岸水体悬浮物浓度监测评估的神经网络模型.但由于神经网络模型的训练过程较为复杂,往往过分依赖于以往模拟数据的训练结果,需要较多的训练样本数据.相比人工神经网络受到训练样本数和专家经验的影响,支持向量机(support vector machine,SVM)算法能够根据有限的样本信息在学习能力和模型复杂性之间寻求最佳折中,可以获得较好的推广能力.Singh等[9]通过建立支持向量机分类模型和支持向量机回归模型优化水质监测,结果表明支持向量机在分类和回归模型中的精度都高于其他模型.刘朝相等[10]采用SVM模型对妫水河叶绿素a的浓度进行了反演,结果表明在样本数较少的情况下,SVM具有很强的非线性映射能力,能够取得较好的预测结果;烟贯发等[11]利用改进的粒子群(particle swarm optimization,PSO)算法优化最小二乘支持向量机(least squares SVM,LSSVM)的参数对松花江哈尔滨段的悬浮物进行了反演建模,发现PSO算法优化参数可有效提高SVM反演模型的精度.上述研究表明,以统计理论为基础的支持向量机在小样本、非线性学习中表现出一定的优势.

本文基于实时FY-MERSI数据结合SVM方法对太湖水体进行了悬浮物反演研究,对比支持向量机输入波段的各种组合形式及核函数,确定了最适宜的FY-3A/MERSI遥感数据、精度较高的SVM模型,以为MERSI数据在湖泊水质遥感监测中的应用提供参考依据.

1研究区概况

太湖是我国第三大淡水湖,面积2 427.8 km2,平均水体深度为1.89 m.太湖是一个大型浅水湖泊,湖面十分开阔,一般天气时浪高在50 cm左右,5~6级风时,浪高可达1 m;再加上太湖水浅底平,风浪对湖底表层3~5 cm的水底具有扰动与侵蚀的作用,在风的作用下,泥沙极易再次悬浮,从而使得湖水中的悬浮泥沙增加,湖水变得混浊.同时,也可引起水底中营养盐的释放,与湖泊的污染关系密切.[12]而太湖水质直接关系到太湖地区的水环境质量,一定程度上影响着流域的经济发展.

2数据与研究方法

2.1实测数据获取与FY-3A/MERSI影像预处理

本文所使用的FY-3A/MERSI遥感图像数据来源于风云卫星遥感数据服务网(http://satellite.cma.gov.cn/),日期为2009年4月18日和2012年8月4日.总悬浮物浓度分别为2009年4月16—27日(春季)和2012年7月31日—8月10日(夏季)在太湖实际测得,采样点均匀分布整个太湖.总悬浮物浓度采用常规的干燥、烘烧、称重法(GB11901-89标准)进行测定[13].

水质的光学遥感监测容易受到大气等外界因素的影响,因此,影像数据的预处理非常重要.本文对FY-3A/MERSI遥感原始数据进行了预处理,包括传感器定标、几何校正和根据当地实时气象数据所进行的大气校正.

2.1.1辐射校正

FY-3A/MERSI数据的辐射定标采用多项式进行,其中19个可见光-短波红外波段是二次定标,有3个定标系数,储存在HDF5文件的属性信息VIS-Cal-Coeff中.根据定标系数,分别对两个时相FY-3A/MERSI数据的6—14波段进行辐射校正.

2.1.2大气校正

根据大气辐射传输理论可知,传感器所接收的辐射亮度为瑞利散射的辐射亮度Lr、气溶胶辐射亮度La、多次散射产生的辐射亮度Lra、水面泡沫的辐射亮度Lwc、太阳耀斑的辐射亮度Lg与离水辐射亮度Lw之和.通过以下公式可以计算得到离水辐射亮度Lt:

Lt=Lr+La+Lra+Lwcts+Lgtd+Lwts.

(1)

式中:td为大气直射透过率,ts为大气漫射透过率.

2.1.3几何校正

本文采用GLT几何校正法,利用FY-3A/MERSI数据本身自带的GLT经、纬度几何文件,读取其影像文件包含的每个初始像元的地理定位信息.

根据矢量边界数据对处理好的影像进行剪裁,得到覆盖太湖地区的MERSI影像.每期共49组数据,去除残差较大的9个特异点后,随机选取30个样本做训练样本,余下10个样本作为检测样本.

2.2敏感波段分析

悬浮泥沙光谱反射率具有双峰特征,第一个光谱反射峰位于550~670 nm处,第二个反射峰位于780~830 nm.根据巩彩兰等人[14]的研究,总悬浮物浓度与光谱反射率在712~918 nm之间存在较好的相关性,且变化幅度不大,R取值在0.57~0.65之间;李素菊等人[15]对巢湖水体进行研究时发现,悬浮物含量与光谱反射率在706~900 nm范围相关系数较大,在819 nm处相关系数达到最大;吕恒等人[16]的研究表明,悬浮物浓度与遥感反射率在580~865 nm之间反应比较明显;王艳红等人的研究认为,576 nm和808 nm是太湖悬浮物的敏感波段.根据采样点的经纬度信息,从预处理后的FY-3A/MERSI影像中提取相应的反射率数据.本研究采用的波段包括FY-3A/MERSI数据中1 km分辨率6—19波段,共15个波段.通过对遥感反射率与总悬浮物浓度进行相关性分析,可知在565~865 nm波段范围的各波长遥感反射率与总悬浮物都存在中高度相关,Pearson相关系数在0.5以上.综上可知,在565,650,685,765,865 nm波段,悬浮物的光谱特征较为明显,反射率随悬浮物浓度变化较为显著,故本文选取这5个波段进行悬浮物反演模型的研究.

2.3支持向量机

支持向量机是在统计学习理论的基础上发展起来的一种新的数据挖掘方法,在解决小样本、非线性和高维模式识别问题中表现出特有的优势.[17]SVM算法巧妙地把数据映射到高维持征空间,并在特征空间中将分隔超平面正好放在距离两类都相等的位置,也就是说可以使信息的各样本点在特征空间中得到最优拟合;此外,SVM的训练过程没有局部极小点.[18]

f(x)=ωTφ(x)+b.

(2)

拟合给定数据点集,使函数

(3)

最小.惩罚函数采用ε-不灵敏损失函数

(4)

函数拟合可以表示为一个最优问题:

(5)

式中:ε表示逼近精度;ζi0和0为松弛因子.式中的第二项是对超出逼近精度样本的惩罚,常数控制对错分样本惩罚的程度.采用对偶理论,将其转化为二次规划问题:

(6)

求解该二次规划问题,可得

(7)

引入核函数,由此可得最优回归函数

(8)

目前常用的核函数主要有[10]:线性核函数(linear kernel)、多项式核函数(polynomial kernel)、径向基核函数(RBF kernel)、多层感知器核函数(sigmoid).

PSO算法的基本思想是受早期对鸟类群体行为进行建模与仿真研究的启发,最早应用于分类问题的神经网络训练[20],该算法收敛速度快,设置参数少.PSO初始化一群随机粒子,然后进行迭代,在每一次迭代中,通过个体极值和邻域极值更新粒子的位置和速度,改变SVM的参数值,计算适应度函数值,根据其值的变化,寻找粒子的个体极值点和全局极值点,并不断更新这些极值点,直到达到最佳适应度函数值或是达到最大迭代次数,得到全局最优值,更新SVM的参数值为最优值.[11]

本研究中,SVM利用LIBSVM-2.89-3库文件构建,利用psoSVMcgForRegress函数文件在Matlab7平台进行全局搜索,寻找SVM最佳参数c与g.采用径向基函数(RBF)作为核函数.

3悬浮物浓度SVM反演模型

为了找出适合建立悬浮物浓度SVM模型的最佳输入波段或波段组合,分别进行FY-3A/MERSI影像各单波段、波段比值(Bi/Bj)和商比值((Bi-Bj)/(Bi/Bj))[3]等几种常用的波段组合光谱反射率与总悬浮物浓度的相关分析,相关系数R如表1所示.

表1 实测悬浮物浓度与FY-3A/MERSI各波段及组合光谱反射率的相关系数

从表1可以发现,B865波段、B865波段与其他4个波段的和商组合与悬浮物浓度的相关系数R明显高于其他波段及其他组合形式,其中B865波段与B650波段的和商组合对悬浮物的反应最为敏感.故本文在选取原有的5个波段为支持回归机输入值的基础上,增加B865与B650波段的和商、B865与B565波段的和商、B865与B650波段的和商代替B865,B650波段等几种支持向量机输入形式,选择径向基函数作为支持向量机的核函数,分别建立悬浮物浓度支持向量机模型.

由表2可见,当输入特征数小于6时,SVM训练模型的决定系数R2呈上升趋势,在6时为最高值,而大于6后逐渐减小.将B565,B650,B685,B765,B865和(B865+B650)/(B650/B865) 6组特征数据作为支持向量机的输入值时,所建立的春夏两期SVM模型决定参数R2分别为0.89和0.78,均高于其他输入形式.

表2 不同输入参数建立支持向量机模型的决定系数(R2)与均方误差

为验证模型的预测能力及稳定性,将10个测试数据样本点带入模型中进行预测.图1为悬浮物质量浓度实测值与SVM预测值结果的对比.2009年4月18日、2012年8月4日验证模型的决定系数R2分别为0.84和0.81,预测悬浮物质量浓度的平均相对误差分别为12%和18%,决定系数R2最大,平均相对误差最小.因此,本研究合适于FY-3A/MERSI数据最优的SVM反演模型是以B565,B650,B685,B765,B865和(B865+B650)/(B650/B865)为输入参数,以RBF核函数为核函数,经PSO算法优化内部参数c与g后建立,SVM参数见表3.

图1 太湖悬浮物质量浓度的实测值与预测值

日期cg2009年4月18日12.16185.65232012年8月4日 18.82550.921

4结论

(1) FY-3A/MERSI影像在565~865 nm波段范围内各波长遥感反射率与总悬浮物质量浓度相关,其中565,650,685,765和865 nm波段的Pearson相关系数均在0.5以上.MERSI影像在可见光与红光波段数据量较多、自带的GLT几何校正文件校正简单精确、3个近红外波段完成的大气校正精确,显著提高了水质参数的反演精度与效率,在内陆水体水质参数反演过程中具有很大的优势及可行性.

(2) 利用春、夏两季太湖悬浮物质量浓度实测数据和FY-3A/MERSI数据建立了SVM反演模型.通过多次实验发现,当B565,B650,B685,B765,B865和(B865+B650)/(B650/B865) 6组特征数据作为支持向量机的输入值时,春、夏季SVM训练模型的决定系数R2分别为0.89和0.78.验证样本模拟的平均相对误差分别为12%,18%,说明其预测能力优秀,SVM能够很好地解决小样本、非线性、高维数等问题.二类水体中水质参数较为复杂,基于非线性模型进行反演更能满足定量要求.

(3) 本研究中悬浮物质量浓度低于20 mg/L的样点参与建模时会造成模型误差变大,故只保留大于20 mg/L的悬浮物质量浓度样点值.因悬浮物浓度较小时,水体反射率受叶绿素a、有色可溶性有机物CDOM浓度变化的影响,进而影响悬浮物质量浓度的建模反演.

[参考文献]

[1]秦伯强,范成新. 大型浅水湖泊内源营养盐释放的概念性模式探讨[J]. 中国环境科学,2002,22(2):150-153.

[2]祝令亚,王世新,周艺,等. 应用 MODIS 影像估测太湖水体悬浮物浓度[J]. 水科学进展,2007,18(3):444-450.

[3]光洁,韦玉春,黄家柱,等. 分季节的太湖悬浮物遥感估测模型研究[J]. 湖泊科学,2007,19(3):241-249.

[4]韩秀珍,郑伟,刘诚等. 基于MERSI和MODIS的太湖水体叶绿素a含量反演[J]. 地理研究,2011,30(2):291-300.

[5]朱晶晶,陈晋,王胜强等. 基于MERIS数据的滇池叶绿素浓度时空变化(2003—2009年)及趋势[J]. 湖泊科学,2011,23(4):581-590.

[6]KEINER L E,YAN X H.A neural network model for estimating sea surface chlorophyll and sediments from thematic mapper imagery[J].Remote Sensing of Environment,1998,66(2):153-165.,

[7]张博,张柏,洪梅,等. 湖泊水质遥感研究进展[J]. 水科学进展,2007,18(2):301-310.

[8]吕君伟,刘湘南,王晶,等. 基于PSO-RBF神经网络的南海近岸海域悬浮物浓度遥感反演[J]. 海洋环境科学,2013,32(5):669-673.

[9]SINGH K P,BASANT N,GUPTA S.Support vector machines in water quality management[J].Analytica Chimica Acta,2011,703(2):152-162.

[10]刘朝相,宫兆宁,赵文吉. 基于SVM模型的妫水河叶绿素a浓度的遥感反演[J]. 遥感技术与应用,2014,29(3):419-427.

[11]烟贯发,张雪萍,王书玉,等.基于改进的 PSO 优化 LSSVM 参数的松花江哈尔滨段悬浮物的遥感反演[J].环境科学学报,2014,34( 8) :2148-2156

[12]王艳红,邓正栋,马荣华. 基于实测光谱与MODIS数据的太湖悬浮物定量估测[J]. 环境科学学报,2007,27(3):509-515.

[13]孙德勇,李云梅,王桥,等. 基于实测高光谱的太湖水体悬浮物浓度遥感估算研究[J]. 红外与毫米波学报,2009,28(2):124-128.

[14]巩彩兰,周颖,尹球,等. 太湖水体时间序列叶绿素浓度与反射光谱特征分析[J]. 遥感信息,2011 (6):42-46.

[15]李素菊,王学军.巢湖水体悬浮物含量与光谱反射率的关系[J].城市环境与城市生态,2003,16(6):66-68.

[16]吕恒,李新国,江南. 基于反射光谱和模拟 MERIS 数据的太湖悬浮物遥感定量模型[J]. 湖泊科学,2005,17(2):104-109.

[17]郑一华,徐立中,黄凤辰. 基于支持向量分类的水质分析应用研究[J]. 仪器仪表学报,2006,27(S3):2291-2292.

[18]SCHMIDT R O. Multiple emitter ldeationand signal parameter estimation[J].IEEE Transon AP,1986,34(3):276-282.

[19]张学工. 关于统计学习理论与支持向量机[J]. 自动化学报,2000,26(1):112-119.

[20]KENNEDY J,EBERHART R C. A discrete binary version of the particles warm algorithm[C].Proceedings of the IEEE congress on systems,man,and cybernetics. Piscataway NJ:IEEE Service Center,1997:4104-4109.

(责任编辑:方林)

Estimation of suspended solids concentration at the Taihu Lake using FY-3A/MERSI data

ZHANG Ge1,HUANG Fang1,GONG Shao-qi2,SUN De-yong2,LI Yun-mei3

(1.School of Geographical Sciences,Northeast Normal University,Changchun 130024,China;2.School of Geography and Remote Sensing,Nanjing University of Information Science and Technology,Nanjing 210044,China;3.School of Geography Science,Nanjing Normal University,Nanjing 210046,China)

Abstract:Accurate retrieval of suspended solids concentration of inland water body by remote sensing is one of the important approaches for water quality monitoring. Taking Taihu Lake as the study area,based on the FY-3A/MERSI multi-spectral data and the measured data collected in April 18,2009 and August 4,2012,a prediction model of suspended solids concentration using Support Vector Machine (SVM) is constructed. Particle Swarm Optimizer (PSO) is used to optimize the parameters of SVM model and the Radial Basis Function (RBF) is selected as the kernel function. The spectral bands sensible to suspended solids concentration are determined,and the spectral data of combined bands from FY-3A/MERSI are calculated. The results show that when B565,B650,B685,B765,B865and (B865+B650)/(B650/B865) spectral data from FY-3A/MERSI images are taken as the input data of the SVM,the prediction model has a better performance with the highest determination coefficient R2 (0.89 in spring and 0.78 in summer,respectively). The mean square error (MSE) of predicted suspended solids concentration is 0.018 5 and 0.106 1. It could be regarded as the optimal inversion model suspended matter concentration by SVM using FY-3A/MERSI data.

Keywords:FY-3A/MERSI data;suspended solids concentration;remote sensing;support vector machine;Taihu Lake

[中图分类号]X 87[学科代码]420·2040

[文献标志码]A

[作者简介]张鸽(1991—),女,硕士研究生;通讯作者:黄方(1971—),女,博士,副教授,主要从事遥感信息分析与地表参数反演研究.

[基金项目]国家自然科学基金资助项目(41571405,41271196);国家自然科学青年科学基金资助项目(40801145).

[收稿日期]2015-04-03

[文章编号]1000-1832(2016)01-0148-06

[DOI]10.16163/j.cnki.22-1123/n.2016.01.029

猜你喜欢
悬浮物太湖波段
悬浮物对水质氨氮测定的影响
太湖茭白
最佳波段组合的典型地物信息提取
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
太湖
废水悬浮物国标检测方法的修改建议
压裂返排液中悬浮物去除的室内研究
砂质河床对悬浮物去除行为的试验研究*
日常维护对L 波段雷达的重要性