郎 芹,马明国*,闻建光,肖 尧
(1.西南大学地理科学学院遥感大数据应用重庆市工程研究中心,重庆400715;2.中国科学院遥感与数字地球研究所遥感科学国家重点实验室,北京100101)
喀斯特石漠化是指在亚热带脆弱的喀斯特环境背景下,受人类不合理社会经济活动的干扰破坏,土壤严重侵蚀、基岩大面积出露、土地生产力严重下降、地表出现类似荒漠景观的土地退化过程[1]。我国西南地区拥有世界上连片分布面积最大的喀斯特地貌,生态环境脆弱,植被的恢复是该区域石漠化治理以及生态重建的首要任务[2-3]。高效、大面积地实现西南地区植被精细分类,是进一步开展植被动态监测、进行生态环境评估、科学有效采取治理措施的重要前提。
传统的植被监测多采用野外实地调查的方式[4-6],这种方法可以实现更为精细的植被类型监测,但难以满足大面积实时监测的需求。遥感监测的方式则可以弥补这种缺陷,但应用于多云雾天气且地形复杂的西南地区有其局限性。所以充分利用并挖掘各种遥感数据源在西南地区植被精细分类研究中的应用价值是非常必要的。目前已有基于 Landsat影像[7]、环境减灾卫星数据[8]、ALOS遥感影像[9]、高分2号(GF-2)数据[10]的西南地区植被精细分类研究,但尚未发现基于天宫二号(TG2)可见光近红外数据的西南地区植被精细分类研究。天宫二号空间实验室于2016年发射,其搭载的宽波段成像仪是新一代宽波段、宽视场和图谱合一的光学遥感器,该成像仪获取的可见光近红外数据空间分辨率较低,但有如下优势:①有14个波段,可以提供更加丰富的光谱信息;②其幅宽为300 km,有利于开展大面积陆地监测。作为一种新的遥感数据产品,对其进行数据挖掘并探索其在西南地区植被分类中的可行性方法,有利于缓解西南地区可用影像不足的问题,且新数据源的融入可以提供更丰富的地面信息,有利于改善植被分类精度。
遥感植被分类过程中,辅助信息的利用程度、分类方法的选择等都起着至关重要的作用。西南地区不同植被类型间存在的同物异谱和同谱异物现象十分显著,使得仅利用光谱信息进行植被分类具有一定的局限性。为了提高植被分类精度,国内外学者提出了一些结合辅助信息的方法,常用的辅助信息有植被指数[11-13]、地形数据[14-16]、纹理信息[17-19]等。拥有丰富的辅助信息后还需要选取合适的分类方法来保证分类的效率和精度。以分类基本单元为依据,遥感分类方法大体可分为基于像元和面向对象2大类。面向对象分类法以同质的像素群作为分析对象,不但融合了空间特征信息,还减少了像元间的光谱异质性[20]。在利用空间分辨率较高的影像进行分类时,相较于基于像元分类,面向对象分类的精度更高[21]。以分类过程中识别地物的方式为依据,遥感分类方法包括最大似然法、支持向量机法、决策树法、机器学习法等[22-24]。在众多的分类方法中,决策树分类法因其可以兼顾分类效率和精度而有一定的优势[25],该方法的基本原理为:依据指定的预设规则将遥感数据集逐级向下分,最终得到具有不同属性的子类别[26-27]。
本文主要基于天宫二号可见光近红外数据,并辅以其它数据设计2组分类实验,分别探索单一时相多源数据融合、多时相单一数据源分类的方法并评估其分类效果,为天宫二号可见光近红外数据在西南地区植被分类中的研究提供应用示范。
综合考虑影像质量、不同影像间的时相匹配度,确定了西南地区2个小面积的实验区进行植被分类试点研究(图1)。
实验一的研究区包括云南省昆明市北部和曲靖市西部区域,属亚热带高原季风气候。该区域气候全年温和且变化不大,年均气温约为15℃,海拔为1105~4165 m。该区域以森林生态系统和农业生态系统为主体。农业生态系统以旱地为主;森林生态系统以暖温性针叶林为主,其次是半湿润常绿阔叶林,但由于人类活动,分布零散,面积不大[9,28]。
实验二的研究区位于四川东部、重庆西北部交界处,属亚热带湿润季风气候,四季分明、年均气温约为17℃,海拔为153~601 m,全年云雾多且日照少。位于四川盆地低山区,可耕地面积较大,因而垦殖程度较高,森林植被覆盖率低,森林类型以常绿阔叶林为主[29]。
2.2.1 遥感影像数据
图1 研究区及采样点Fig.1 Study area and sampling sites
采用的遥感影像数据包括天宫二号宽波段成像仪(Wide-band Imaging Spectrometer, WIS)搭载的可见光近红外数据和Landsat 8(L8)陆地成像仪(Operational Land Imager,OLI)数据。选择Landsat8 OLI与天宫二号数据进行多源数据分类实验的原因:①Landsat8 OLI数据15 m分辨率的全色波段数据有利于为100 m天宫二号可见光近红外数据提供足够丰富的空间细节信息,且相较于米级全色波段数据(如GF-2、ALOS),二者分辨率更接近,可减小数据融合误差;②Landsat8可免费获取,应用广泛。天宫二号可见光近红外数据来源于载人航天空间应用数据推广服务平台。Landsat 8 OLI遥感影像数据来自于地理空间数据云网站。综合考虑多数据源分类实验中不同影像间的时相匹配、多时相分类实验中时相组合是否能够较好地反映植被的生长变化过程、影像质量因素,共选择了5景影像参与分类。2种遥感影像特征及本研究所用影像信息如表1、表2所示。
表1 影像特征比较Table 1 The characteristics of two types of images
表2 获取影像信息Table 2 The information of the images used in this study
2.2.2 其它数据
样本与验证点数据结合Google Earth高清影像采集得到(点的分布如图1所示),样本点的纯净度极大地影响着分类的精度,故需剔除异常的样本点(偏离样本均值过大的点数据),剔除后实验一和实验二分别剩下170和192个优质样本点数据,实验一和实验二验证点数据分别为104和109。高程数据使用空间分辨率30 m的ASTER GDEM V2数据(重采样为15 m用于实验一)和空间分辨率90 m的SRTMDEMUTM数据(重采样为100 m用于实验二),2种高程数据均来自于地理空间数据云网站。坡度数据根据以上2种高程数据计算得到。
设计了2组实验(表3):实验一采用单一时间分辨率数据,虽然天宫二号可见光近红外数据光谱信息丰富,但空间分辨率较低,仅凭单一时相数据进行西南地区植被精细分类难度较大。为提高分类精度,将之与同一天获取的Landsat8全色波段数据进行融合,同时获得天宫二号数据丰富的光谱信息和Landsat8的空间细节信息;实验二仅基于天宫二号数据,但结合了3月、5月和8月共3期数据。2组实验都采用决策树分类法,实验一面向对象分类,因为实验一基于融合后15 m分辨率影像分类,空间分辨率较高,使用面向对象分类方法可以更好地利用影像的光谱、空间和纹理信息,提高分类精度,但这种方法更适用于高空间分辨率影像分类[30]。而实验二是基于100 m分辨率数据分类,空间分辨率不高,加之西南地区景观较为破碎,故采用基于像元的分类方法。
表3 实验方案信息Table 3 The information of experimental programs
3.2.1 影像校正
对Landsat 8 OLI全色波段数据进行辐射定标。对天宫二号可见光近红外二级产品数据(无需做辐射定标)做FLAASH大气校正[31],校正时Use single scale factor for all bands中的 Single scale factor设置为250(头文件中的放大倍数);Aerosol Retrieval设置为none。由于天宫二号可见光近红外数据产品采用非控制点几何校正,定位精度在8个像元内。为减小定位误差,以经过地面控制点几何校正的Landsat 8 OLI为参考影像进行几何配准,几何配准误差在0.5个像元以内。
3.2.2 天宫二号数据波谱分析
为了更好地了解天宫二号影像的波谱特征,将天宫二号数据和应用广泛的Landsat8数据波谱信息进行比较。天宫二号数据的光谱信息丰富,为避免数据冗余,对其进行波段相关性分析,并根据波段间的相关系数将天宫二号可见光近红外数据的波段分为3类(表4)。
3.2.3 影像融合
实验一中将获取时相均为2017年3月22日的天宫二号可见光近红外数据和Landsat8全色波段进行融合。由于Gram-schmidt融合方法不受波段限制,能较好地保持空间纹理信息,尤其能高保真保持光谱特征[32],故采用该方法进行数据融合。
表4 TG-2波段独立性分组Table 4 The classification of TG-2's bands based on their dependency
目前西南石漠化区的分类研究主要以土地利用类型分类为主,通常划分为旱地、林地、灌丛、草地和裸地6类。植被的分类系统相对较少,陈亮等[33]对三峡库区进行了植被类型的划分,将其分为草地、灌木、阔叶林、农作物、针叶林。雷光斌等[34]对岷江上游地区的森林进行了类型的划分,将其分为常绿灌木林、落叶灌木林、常绿阔叶林、落叶阔叶林、常绿针叶林。
实验区一四季如春,海拔落差大,以旱地和乔木林为主。乔木中主要包括暖性针叶林(以云南松林为主)、高海拔区的温凉性和寒性针叶林,还有零散分布、面积不大的半湿润常绿阔叶林。实验区二四季分明,分布有常绿林和落叶林,位于低海拔区,几乎无针叶林。研究参考已有的西南地区植被分类体系并根据2个实验区的植被特征建立如表5所示分类体系。
3.4.1 实验一分类特征
实验一用的单一时间分辨率数据,无法提供连续的时序变化信息,但将14个波段的天宫二号可见光近红外数据和15 m空间分辨率的Landsat8全色波段融合后,能提供更为丰富的光谱和空间几何信息。
表5 分类体系Table 5 The classification system
由于不同植被类型的生长状况往往有差异,植被指数能够反映植被的生长状况,归一化差值植被指数(Normalized Difference Vegetation Index,NDVI)可以消除大部分与仪器定标、太阳角、地形、云阴影和大气条件有关辐照度的变化,增强了对植被的响应能力,应用十分广泛[35],故选取NDVI作为实验一的一个分类指标,统计发现乔木和灌木的NDVI显著高于耕地和草地。统计实验区一样本点的光谱信息均值(图2)发现:在7、8波段,乔木的反射率显著低于其它类别。统计各类别的高程和坡度数据发现,草地和灌木的分布无固定的高程段;耕地分布海拔普遍低于2500 m,坡度小于 20°。
图2 实验一样本波谱曲线Fig.2 Spectra of samples in experiment 1
除以上特征外,本研究还提取了纹理信息。首先对融合后影像做主成分分析,再提取第一分量的纹理信息。因为以7*7窗口提取的植被纹理信息更适用于植被的分类研究[36-37],故选取7*7窗口提取影像的8个纹理特征统计量。这8个统计量分别为:均值(Mean)、方差(Variance)、协同性(Homogeneity)、对比度(Contrast)、相异性(Dissimilarity)、熵值(Entropy)、二阶矩(Second Moment)、相关性(Correlation)。以各类样本点纹理特征的灰度值间的标准差为依据,选择区分度最好的对比度作为分类特征。
3.4.2 实验二分类特征
实验二基于多时相的天宫二号可见光近红外数据分类,空间分辨率较低,但有丰富的光谱季节变化特征。在不同的月份,各种植被类型生长速度和长势不同,针对不同月份植被长势选取合适的植被指数有利于植被的识别。NDVI有其优势,但也有对高植被区不敏感的局限性。比值植被指数(Ratio Vegetation Index,RVI)在植被覆盖度较高时,对植被十分敏感;当植被覆盖度<50%时,这种敏感性显著降低[38]。鉴于二者的互补性和广泛应用性,基于NDVI和RVI探索了各植被类型的季相变化规律,发现:
1)除耕地以外,各种植被类型的NDVI在3~5月增幅均高于5~8月的NDVI增长幅度。3~5月NDVI增加最为显著的是落叶灌木林和落叶阔叶林,均高于0.30;其次是常绿灌木林和常绿阔叶林。5~8月NDVI增加最为显著的是耕地,为0.192,4种林地次之,增加幅度最小的是草地。统计3~8月NDVI增加幅度,发现各类植被在生长季的NDVI增加幅度为:落叶阔叶林>落叶灌木林>常绿阔叶林>常绿灌木林>耕地>草地。
2)在3月,各类植被NDVI均值都高于0.25且类型间区分度较好;然而各类植被RVI的区分度在3个月份中是最差的且都略小于2,通常植被的RVI应大于2,可见在3月植被覆盖度不高的时候,RVI对植被覆盖不敏感。在8月,植被生长最为茂盛的时期,RVI对各类植被的响应比NDVI更为敏感,拉大了落叶林和阔叶林的差距。
3)统计各植被类型3月、5月和8月NDVI的累积量发现:落叶阔叶林>常绿阔叶林>落叶灌木林>常绿灌木林>耕地>草地。样本在各月份的植被指数均值见表6。
由于实验区二耕地开垦度高,故耕地是该区植被划分中重要的组成部分,为避免因某期影像获取时农作物暂时收割导致耕地漏提取,研究采用分时相提取、取并集的方式提取耕地。就波谱特征来看(图3),3个时期的耕地在3、4、5波段的反射率均明显高于其它植被类型,具有较为明显的区分度,故以3、4、5波段的反射率之和作为分类依据,扩大耕地与其它类型的差异。再结合耕地样本数据的植被指数,各个月份采用以下提取规则(分类阈值根据耕地样本点值的分布情况确定):在3月,生长了作物的耕地的NDVI比其余植被高,结合样本数据分布情况,以NDVI_3 m>0.28 且ρ(3+4+5)_3 m>6200为条件(分类特征缩写含义见表7)提取3月有作物覆盖的耕地;在5月,种植了作物的耕地的NDVI普遍低于林地NDVI。在8月,种植了作物的耕地的NDVI普遍高于草地NDVI、低于林地NDVI,以0.38<NDVI_5 m<0.6 且ρ(3+4+5)_5 m>6500为条件提取5月种植了作物的耕地;以0.5<NDVI_8 m<0.75且ρ(3+4+5)_5 m>6700为条件提取8月种植了作物的耕地。基于满足以上条件的并集并提取出坡度小于35°的区域得到图层“Is-Farmland”且赋值为1。
表6 各类植被样本植被指数均值Table 6 Mean value of vegetation indexes of various vegetation samples
3.5.1 实验一分类
实验一采用面向对象的决策树分类法,首先对影像进行分割。分割方法采用了多尺度分割(Multiresolution segmentation)和光谱差异分割(Spectral difference segmentation),经多次试分割将2种分割方法的分割尺度分别设为200、80;分割的各波段比重设置参考表1中各波段的相关性:独立性好的权重为1;独立性中等的权重为0.1;独立性差的权重为0。分割完成后根据决策树进行分类(图4(a))。最后进行精度评价,结果见表8。最终的分类结果图见图5(a)。
灌木和乔木之间有一定的混淆性。耕地的主要分类误差为被误分至非植被,虽然有纹理、坡度条件的限制保障了一定的精度,但由于实验一仅基于一期影像提取,影像获取时无农作物覆盖的耕地的光谱信息与非植被近似,这类耕地比较容易误分为非植被。
图3 实验二样本波谱曲线Fig.3 Spectra of samples in experiment 2
表7 分类特征及说明Table 7 Classification features and description
图4 分类决策树Fig.4 Classification decision tree
表8 实验一精度评价表Table 8 Accuracy evaluation form of experiment 1
3.5.2 实验二分类
实验二直接基于像元分类,其分类决策树如图4(b)。完成分类后,通过聚类处理融合较小的斑块,然后对分类后影像进行精度评价,详见表9。最终的分类结果见图5(b)。
7类中草地的分类精度是最差的,最好的是非植被。非植被与4种林地的可分性很好,与草地可分性较好,分类误差主要来源于与部分耕地的混淆。本研究利用了多期可见光近红外影像的植被光谱信息,能较好地区分植被生长的时相规律,提取的耕地精度以及常绿林和落叶林的区分度较高,但常绿灌木林与常绿阔叶林、落叶灌木林与落叶阔叶林有一定的混淆性。
图5 分类结果Fig.5 Classification results
实验区一分类总体精度0.70,kappa系数0.61;实验区二分类总体精度0.72,kappa系数0.66。确定植被分类体系、提取分类特征以及选择分类方法是保证实验分类精度的3个关键环节:
1)确定准确合理的植被分类体系是分类的前提和基础。实验一分类体系确定为非植被、耕地、草地、灌木和乔木;实验二分类体系确定为非植被、耕地、草地、常绿灌木林、落叶灌木林、常绿阔叶林和落叶阔叶林。这是在充分了解研究区气候条件、地形特征、主要植被类型和分布特征等情况下,结合影像分辨率确定的准确可行的植被分类体系。
表9 实验二精度评价表Table 9 Accuracy evaluation form of experiment 2
2)分类特征的选择不应局限于影像光谱特征,选择合适的辅助信息并充分利用是提高分类精度的重要保证。天宫二号数据有丰富的光谱信息但空间分辨率不高,用L8全色波段数据与之融合可提供更为精确的空间细节和纹理信息。在有多时相数据的情况下,采用植被指数及其形变指标(累积值、差值)能较好地区分各类植被,但植被指数的选择要结合作物生长状况,在植被覆盖度较低时相选取NDVI,植被覆盖度高时相选取RVI。坡度、高程是区分耕地和自然植被的重要信息。
3)分类时是基于像元还是面向对象取决于影像空间分辨率,实验一的天宫二号数据数据融合了L8全色波段数据后空间分辨率为15 m,采用的面向对象分类;实验二用未融合的100 m天宫二号数据数据,采用的基于像元分类。然后选择了决策树分类法,实现简单、高效和准确的植被分类。
设计的2组实验探索了天宫二号可见光近红外数据进行植被分类的方法并验证了其可行性,但也有一定的局限性,今后需深入研究加以改进。在分类实验中,灌木林和阔叶林具有一定的混淆性,由于二者的一大显著差异是植被群落高度。灌木林群落高度通常在3 m以下,阔叶林的群落高度高于灌木林[39],而研究仅基于光谱信息进行提取,今后可融入天宫二号三维成像仪高度数据,结合实测植被高度数据、DEM,估算研究区植被平均高度,从而进一步提高植被分类精度。