潘煜琳,林 辉
(1.中南林业科技大学 林业遥感信息工程研究中心,湖南 长沙 410004;2.林业遥感大数据与生态安全湖南省重点实验室,湖南 长沙 410004;3.南方森林资源经营与监测国家林业与草原局重点实验室,湖南 长沙 410004)
湿地被誉为“地球之肾”,与森林和海洋一起称作地球最重要的三大生态系统[1]。随着现代工业的发展和城市化的不断扩张,生态和资源问题引起更多的关注,湿地资源作为不可忽视的生态环境资源之一,受到来自社会和科学领域的高度重视[2]。与此同时,探讨高效的湿地资源管理与利用方法也成为当今研究的热点之一。然而,我国的湿地大多位置偏远,分布广泛,难以深入调查。对湿地信息的调查和变化监测,不仅能够掌握当前湿地的状况,而且能够对湿地的动态变化进行有效监测,给林业研究提供数据支持。因此,对湿地进行精确且高效的分类,对于林业研究来说是十分必要的。
随着空间信息技术和计算机的发展,遥感技术的进一步提升给地表周期性监测、大范围的地类信息提取和动态监测提供了技术支撑。美国发射第一颗陆地卫星(Landsat)以及后来的Landsat系列卫星、SPOT及快鸟(Quick bird)等卫星的发射,较大程度上丰富了遥感数据源。目前,多光谱遥感数据在湿地分类中的应用十分普遍。蒋卫国等[3]利用环境一号多光谱可见光影像实现了东洞庭湖湿地的信息提取;刘舒等[4]选取Landsat8和SR TM DEM为数据源,通过特征选择算法提取优化特征集对南瓮河流进行了面向对象的湿地分类。特别是近几年,我国的高分系列卫星更进一步丰富了多光谱数据源,也逐步开始了基于高分系列遥感影像数据的地类信息提取研究。麻锴等[5]基于高分一号宽幅影像完成了鄱阳湖湿地的地类信息提取,对当地的湿地生态环境保护和生态环境建设有重要意义;游佩佩等[6]以高分二号遥感影像为数据源,拓展了基于高分辨率影像对滨海湿地信息提取的技术方法应用。
此外,高光谱遥感数据对地物信息的精细识别具有更加重要的价值。在复杂的环境中,高光谱丰富的波谱特征能够有效识别不同地物的光谱差异,进而精细识别不同地物类型。岁秀珍等[7]基于HyMap航空高光谱遥感影像数据,以萨克拉门托-圣华金三角洲为研究区,实现了在物种水平上的湿地分类。张雅春等[8]基于环境一号卫星的高光谱影像,实现了扎龙湿地的精细化分类。但是,高光谱的空间分辨率低,限制了湿地信息的精准提取。近年来,利用多源遥感数据提取湿地信息的方法更受青睐。季建万等[9]基于ASTER影像和高分一号影像,对龙祥岛的湿地进行分类,探究人类活动对湿地变化的影响;崔小芳等[10]以高光谱和同期机载LIDAR为数据源,探究高光谱降维以及沿海滩涂湿地的分类方法;孙伟伟等[11]将资源一号02D高光谱数据和Sentinel-2A的多光谱数据进行融合,提出了适用于滨海湿地分类的方法。目前,国产高分系列中GF-5号卫星提供了高质量的高光谱影像,GF-6号卫星提供了高空间分辨率的多光谱影像。但是,基于国产GF-5号高光谱及GF-6号多光谱遥感影像数据对中高纬度湿地进行分类的研究占比较少。
由于湿地的多样性和复杂性,湿地信息的精准提取不仅与遥感数据源有关,还与选择的分类算法有关。通过采用不同的分类算法可以识别不同的特征因子和地物类型,提取遥感影像中所蕴含的丰富信息[12]。在湿地分类的常见算法中主要包括最大似然法(Maximum Likelihood,MLC)、决策树学习(Decision Tree,DT)、K-近邻算法(K-Nearest Neighbor,KNN)、支持向量机(Support Vector Machine,SVM)、随机森林算法(Random Forest,RF)等[13-15]。詹国旗等[16]采用了进行优化特征空间的随机森林算法,对季节性的植被和水文进行分类。此外,支持向量机也常用于湿地分类,使用支持向量机算法从卫星图象中提取土地覆盖信息,并对分类结果的准确性、稳定性及对其训练速度进行评估[17]。
为了评价国产GF-5号高光谱及GF-6号多光谱遥感影像对中高纬度湿地信息提取的能力,本研究以黑龙江三江湿地为研究区,基于GF-5号高光谱及GF-6号多光谱,采用支持向量机、随机森林和KNN分类算法,分析适合于中高纬度湿地的影像特征最优组合和分类算法,探究GF-5号高光谱及GF-6号多光谱遥感影像在中高纬度湿地信息提取的能力。
黑龙江三江湿地位于黑龙江和乌苏里江的交汇处,地理坐标为东经134°16′12″~134°46′48″,北纬47°42′00″~48°22′48″。该地区受人为破坏小,保存着湿地生态系统的原始风貌,是我国面积最大的淡水沼泽湿地,也是全球少见的淡水沼泽湿地之一[18-19]。本研究选择的研究区为黑龙江三江自然保护区的代表性部分区域,位于黑龙江与乌苏里江交汇的三角区,面积为1 265.20 km2,其中耕地面积占比最大,林地、草本其次,水域和其他占比较少。研究区内分布着大小河流和水塘湖泊,具有丰富的野生动植物资源,研究区地理位置如图1所示。
图1 研究区地理位置Fig.1 Location of the research area
为了提取研究区的地类信息,本研究使用GF-5高光谱数据和GF-6多光谱数据,数据成像时间分别为2019年10月20日和2019年5月3日。GF-5高光谱的空间分辨率为30 m,幅宽60 km,在光谱范围0.4~2.5 μm内共有330个波段,而且该高光谱数据的近红外及可见光的光谱分辨率为5 nm,远红外的光谱分辨率为10 nm。GF-6多光谱数据的空间分辨率为16 m,幅宽95 km,共有8个波段,宽幅卫星影像能很好地对研究区实现全覆盖,GF-5和GF-6数据参数如表1所示。
表1 GF-5和GF-6参数Table 1 Satellite parameter of GF-5 and GF-6
卫星距离地面遥远,在接收地物信息过程中会因光照、水汽或其他杂质等大气原因导致影像偏差,或由于传感器的不同,产生一定的偏差。为了消除GF-5、GF-6遥感卫星的偏差,对遥感影像进行预处理。
在进行数据收集后,首先对影像进行辐射定标,消除传感器自身产生的偏差,减少影像失真;其次进行大气校正,利用辐射传输模型法、基于统计学模型的黑暗像元法、基于统计的不变目标法或直方图匹配法等消除由大气造成的影像偏差;然后对多景影像进行镶嵌,GF-5高光谱影像数据由于偏移,无法和GF-6影像重叠,需要进行以GF-6影像为基准的地理配准;最后以研究区为边界对数据进行裁剪,确保研究区范围的一致。
根据现有的外业数据和高分遥感数据以及先前的湿地分类研究,本研究的主要内容包括高分遥感影像数据的预处理,确定湿地分类体系,通过外业调查,获得实地样本,利用分类算法进行分类以及精度检验与比较分析,技术路线如图2所示。
图2 技术路线Fig.2 Technology roadmap
根据拉姆萨尔制定的《湿地公约》以及我国发布的湿地分类标准,结合研究区的实际情况和所用高分影像的分辨率,严格遵循以湿地为主的分类原则,同时参照刘源[20]的方法,以Landsat8遥感影像为基础,对黑龙江嫩江平原湿地保护区进行分类的研究。本研究将黑龙江三江研究区分为2级,第一级包括湿地和非湿地;第二级包括草本、耕地、林地、水域、其他(建筑用地、大棚等)5类,分类体系如表2所示。
表2 三江湿地分类体系Table 2 Classification system of the Sanjiang wetland
研究区的外业调查时间为2020年8月,该时间点植被生长旺盛,水文丰富,可以较为全面地记录当地地物情况。外业数据按照规划路线,进行湿地勘查,采用GPS记录研究区不同地物类型对应位置与坐标,同时利用手机拍摄湿地资源实景并存档。根据外业调查情况,耕地和林地面积占比最大,湿地次之,水域和其他如建筑占比最少,在保证样本点分布均匀的条件下,样本点数量按照地类所占面积确定,参照洞庭湖湿地植被的分类研究[21],按照6∶4的比例分为训练样本和检验样本较为合理,实地调查结果如表3所示,样本点在研究区内分布如图3所示。
图3 样本点分布Fig.3 Distribution of sample points
表3 实地调查结果Table 3 Result of field survey
依据GF-5和GF-6影像数据特点,GF-5有上百个波段,所含的波段信息冗余,全部波段参与分类不仅耗时长,而且难以保证精度,因此对其进行降维,从而提高分类效率;GF-6仅有8个波段,因此选择提取经典的指数增加特征,以达到更好的分类效果。
1)光谱特征。GF-5影像数据原有330个波段,经过预处理剔除无效波段后,剩余313个波段。PCA应用领域较广,以线性组合方式,用互不关联的新变量替换冗余重复的原始变量,从而达到简化的目的[22],主要原理如式(1)所示:
式中:a1i,a2i,…,ani(i=1,2,…,n)为X的协方差阵和特征值对应的特征向量;ZX1,ZX2,…,ZXn是原始变量标准化处理后的值;R为系数矩阵;λi、ai为特征值和单位特征向量,λ1≥λ2≥…≥0。综合指标用Fn的方差表示,Var(F1)越大,F1包含的信息越多。
PCA也常用于遥感数据处理,能够将多个具有与分类相关的波段,重新组合成新的相互独立的综合波段来代替原始波段,对于高光谱的降维通常能获得较好的效果[23]。利用PCA对GF-5的313个波段提取光谱信息,第一主成分的光谱信息最为丰富,贡献率可达97%,最后保留5个重组波段,总贡献率为99.86%,包含了绝大多数的信息,确保在提高分类效率的同时保证一定的精度,主成分贡献值如表4所示。
表4 主成分贡献值Table 4 Eigenvalue of PC bands
2)指数特征。地表覆盖物的光谱信息是分类的重要依据之一。对遥感影像数据进行归一化植被指数(NDVI)的提取,可以部分消除由于气象或者传感器接收等所造成的误差,同时可以更好地反映绿色植被的分布情况,是湿地分类当中重要的一项指数[24]。NDVI为红外波段(NIR)与可见光波段(Red)之差和这两个波段之和的比[25]。在湿地分类当中,水体也是其中的一项重要指标,归一化水体指数(NDWI)是绿波段(Green)与红外波段(NIR)之差和这两个波段之和的比,提取并增强水体的信息[26]。根据光谱波段特性,提取GF-6的NDVI和NDWI,得到10个波段变量的GF-6遥感影像数据。NDVI和NDWI提取公式如式(4)~(5)所示。
根据GF-6卫星参数,对应的光谱波段计算如式(6)~(7)所示。
随着计算机技术和航天科技的发展,遥感技术及基于遥感影像的分类算法在很大程度上得到提升。三江湿地地类复杂,不同地物边界模糊,覆盖范围广,采取单一的分类方式容易导致信息量少,识别困难,造成错分现象。因此拟采用GF-5和GF-6多源高分数据相结合,探究多源遥感影像不同的特征组合能否丰富研究区的光谱信息,从而达到提高分类精度的效果。
经过特征筛选后,得到5个波段变量的GF-5遥感影像和10个波段变量的GF-6遥感影像,将两者进行波段叠加,得到15个波段变量的特征组合,基于3个不同的特征组合,应用不同的分类算法,探究不同的特征组合对湿地分类的影响,具体特征组合如表5所示。
表5 特征组合Table 5 Combination of features
将外业调查获得的样本按比例分为训练样本和验证样本之后,将训练样本和遥感影像分别导入SVM、RF以及KNN,对3组遥感影像数据进行分类。
在遥感影像分类完成之后,对分类结果进行精度检验是必不可缺的环节,通过检验分类精度可以了解分类效果并且帮助改进和完善实验方法,最终得到一个良好的分类结果。利用混淆矩阵对分类结果进行验证,得到总体精度(Overall Accuracy,OA)及Kappa系数,对分类结果进行评价,并且根据错分误差(Commission Error,CE)对各种地类的分类情况进行评价和比较。
研究区的植被主要包括由白桦、杨树乔木等组成的大片林地,零散的柳树分布在水域附近,耕地主要是玉米、大豆和水稻,建筑用地与耕地交错分布,而典型的湿地植被主要为草本,分布在水域和耕地附近。湿地地势较为平坦,不同植被类型边界不明显,存在着两种或多种植被交错生长的情况,并且由于近几年的退耕还湿政策,植被交错生长的问题更为突出,这使得湿地分类变得困难。通过研究不同的特征组合在三江湿地的分类效果,选用3种特征组合对研究区进行分类,希望获得在三江湿地研究区的最佳分类组合,表6为3种特征组合应用不同的分类方法得到的结果精度对比。
表6 三江湿地分类精度对比Table 6 Comparison of the Sanjiang wetland classification accuracy
基于3种特征组合,分别应用SVM、RF和KNN这3种算法进行分类,一共获得9种分类结果。从分类结果来看,GF-5、GF-5和GF-6组合的分类结果图由于受噪声的影响,影响到大范围的分类,GF-6的噪声情况较好,但“椒盐现象”比较严重。获得的分类结果如图4所示。
图4 分类结果影像Fig.4 Result of classification
由表6的分类结果来看,GF-6和GF-5、GF-6特征组合的分类效果较好,总体精度都在80%以上,Kappa系数0.74以上。其中基于GF-5和GF-6特征组合,利用SVM分类算法的精度达到最高,总体精度最高达到88.96%,Kappa系数为0.85。在数据处理时,虽然对GF-5进行了PCA信息提取,但GF-5影像有较多的噪点,对分类时的影响比较大,而GF-6影像质量较好,在对环境复杂多样的三江湿地分类中,高质量影像能够获得较高的分类精度,在总体的分类上具有一定的优势,但波段较少,能提供的光谱信息也较为有限。因此,将两者进行特征组合,丰富了影像的信息,能够在分类当中获得一个较好的结果。
为了能更直观地比较各特征组合的分类情况,通过错分误差,对3种特征组合遥感影像在不同地物的表现进行评价,错分误差结果如图5~7所示。
图5 SVM错分结果对比Fig.5 Comparison of SVM CE
图6 RF错分结果对比Fig.6 Comparison of RF CE
从3种特征组合的各地类错分结果来看,单一的GF-5高光谱影像数据虽然拥有丰富的光谱信息,但分辨率低,总体上错分现象较为突出。中高纬度湿地季节差异显著,GF-5高光谱影像为10月份数据,进入冬季后大部分地物被雪覆盖,植被的光谱信息难以获取,水域的流域范围变化较大,获取各地物光谱信息有限,难以识别,从而导致错分严重,精度不高。GF-6多光谱影像数据分辨率较高,虽然增加了能够有效反映作物特有光谱特性的“红边”波段,对比GF-5高光谱数据,能够对植被地物进行较好的识别,但是波段少,能提供的光谱信息较少,而且单一的数据源对于受季节和人为因素影响大的地物,识别能力有限,因此分类精度一般不高。而将GF-5高光谱和GF-6多光谱进行组合,综合两者光谱信息,明显降低了草本、耕地和水域的错分情况。
图7 KNN错分结果对比Fig.7 Comparison of KNN CE
根据分类结果图,单一的GF-6多光谱的分类结果“椒盐现象”最为严重,对于高分辨率影像而言,由于相同地物的光谱差异增大,不同地物光谱差异减少,容易出现同谱异物和同物异谱的现象,导致错分或者是“椒盐现象”的出现。GF-5高光谱和GF-6多光谱的特征组合波段信息丰富,可以在很大程度上避免由于同谱异物和同物异谱引起的“椒盐现象”,从而获得精度较高的分类结果影像。从GF-6多光谱分类结果可以看出,虽然经过提取NDVI和NDWI,但在草本和耕地交汇处,对比其他两组特征组合,草本呈现零碎的分类,甚至是错分成耕地,在大片的草本区域,出现了草本错分为林地的情况,而一些细长的小河流,也出现了错分的现象。由于其他这一地类占的比例小,分布零碎且广泛,与多种地类都有交汇,特别是细小的道路,3种特征组合的分类结果都不理想,而GF-6的错分更为严重,结果如图8所示。
图8 分类对比Fig.8 Comparison of classification
1)三江研究区耕地面积占比最大,林地成片分布,部分林地与耕地交错分布,湿地集中分布在水域附近,与实地调查结果基本一致,说明GF-5、GF-6遥感影像数据在黑龙江三江湿地分类具有可行性。
2)相对于单一的GF-5高光谱遥感影像和GF-6多光谱遥感影像,高光谱和多光谱多源数据的特征组合在保证分辨率的情况下加入了丰富的高光谱信息,在很大程度上减少了“同物异谱,同谱异物”的情况,在一定程度上避免了“椒盐现象”的产生。黑龙江三江湿地研究区草本湿地和耕地交互,边界模糊,丰富的光谱信息能在很大程度上对地物进行特征提取和识别区分,获得更好的分类效果。同时说明国产高光谱数据和多光谱数据在中高纬度湿地中的分类应用是可行的,为未来黑龙江三江湿地研究奠定基础。
3)分类结果显示,在研究区中建筑用地、大棚光谱信息较少,面积占比小且分布零碎,容易被错分为其他地类。
研究区位于黑龙江省,年平均气温为-4~5℃,受气候条件的影响,植被种类较为单一,耕地主要以玉米、大豆及水稻为主,苔草湿地分布最广。植被和水文受季节影响较为明显,春冬和夏秋季节差异大,研究建立的分类体系和分类方法对于其他季节和研究区,需要做进一步的探究。三江平原受工业化干扰程度较小,建筑群少且分布零散,所以对于建筑分类,仅使用单一的光谱信息难以获得一个好的分类结果。因此,在提取了简单的光谱指数和原始光谱数据的基础上,在下一步研究中应加入更多有效的指数或者纹理因子,将可能进一步提高分类的精度。