侯蒙京 殷建鹏 葛 静 李元春 冯琦胜 梁天刚
(兰州大学草地农业生态系统国家重点实验室/兰州大学农业农村部草牧业创新重点实验室/兰州大学草地农业教育部工程研究中心/兰州大学草地农业科技学院, 兰州 730020)
高寒湿地是生物多样性的重要基础地带和高寒湿地生态系统的典型代表,主要分布在我国的青藏高原东部,其中以若尔盖地区面积最大、最为原始[1-4]。随着城市化进程的加剧、人口数量的剧增以及全球气候变化,近30年来青藏高原湿地总面积减少了2 970.31 km2[5-6]。高寒湿地正面临着萎缩和退化的严重危机,给当地生态安全和生产生活带来巨大的威胁[7]。因此,迫切需要采用先进的技术和方法对高寒湿地地区进行持续有效的监测,为保护和管理湿地资源提供科学依据。
随着遥感技术的发展,湿地的监测更加趋于快速、高效和大尺度[8-9]。从研究方法来看,基于遥感的湿地信息提取和分类方法主要包括人工目视解译和计算机自动分类。目视解译对解译者的判读经验有很高的要求,且耗费大量的时间和精力,不宜作为独立的分类方法[10]。监督分类和非监督分类方法提高了湿地的分类速度,其中极大似然法(Maximum likelihood classification,MLC)的精度最高,逐渐成为自动分类的基准方法[10-11]。随着机器学习算法在遥感影像分类中的应用普及,决策树(Decision tree, DT)、支持向量机 (Support vector machine, SVM) 、人工神经网络(Artificial neural network, ANN)等方法在湿地分类研究中不断趋于成熟,这些方法各有优势,分类效果一般优于MLC法[12-16]。
近几年,随机森林(Random forest,RF)作为一种较新的机器学习算法,因其运算速度快、分类精度高、对噪声数据不敏感等优势在遥感信息自动提取领域获得了良好效果[17]。吴静等[18]基于多时相Sentinel-2A影像,采用RF算法对景泰县农作物进行分类,总体精度达到86.2%;陈元鹏等[19]结合MESMA和RF算法,对山丘区土地覆盖信息进行分数提取,精度可达90.50%;WU等[20]利用GF-2影像和机载激光雷达数据(Airborne LiDAR data),对城市建筑用地进行RF分类,Kappa系数达到0.93。尽管RF算法已经成功应用于农作物、城市和山地等区域的土地覆盖信息分类提取中,但在湿地研究中尚不多见,尤其是在高寒湿地生态系统中的应用鲜见报道。进入21世纪以来,各国对地观测系统不断完善。从数据源来看,遥感影像逐渐突破通道数量、空间分辨率、时间分辨率以及宽幅的限制[21]。高分一号(GF-1)是我国高分辨率对地观测系统重大专项的首颗民用卫星,具有空间分辨率较高、成像宽幅大、获取成本低等优点[22]。GF-1影像在高寒湿地分类的应用价值仍有待进一步挖掘。
本文根据高寒湿地地区土地覆盖类型的分布特点构建光谱、水体、地形、植被和纹理5种分类特征,利用RF算法的变量重要性分析选出分类精度达到最高时的特征变量,并进行分类,兼顾分类精度和工作效率两方面选出分类精度较高、且变量数尽可能少的特征,并利用RF、MLC、SVM、ANN共4种方法进行分类。旨在探索RF方法和GF-1数据在高寒湿地分类中应用的可行性,寻找分类的最佳方案,以期为高寒湿地保护区的动态监测提供高效的手段。
本研究区为若尔盖湿地国家级自然保护区,位于青藏高原东北端,隶属于四川省若尔盖县,位于102°9′~102°59′E,33°25′~34°00′N之间,平均海拔约3 500 m,总面积达1.67×103km2。研究区属于高原亚寒带半湿润大陆性季风气候,冬季较长夏季极短,寒冷干燥,日照时间长,大部分地区年均气温在0~2℃,年降水量为600~800 mm[23]。该地区分布着世界上面积最大的高原泥炭沼泽,是青藏高原高寒湿地生态系统的典型代表[23]。参照WANG等[24]和武高洁等[25]的分类体系和研究结果,将研究区的土地覆盖类型划分为高寒草地、沼泽湿地、河流湖泊湿地、沙化地、建设用地和裸岩共6类。研究区位置及其GF-1影像如图1所示。
图1 研究区位置及GF-1影像Fig.1 Location of study area and its GF-1 image
2016年7月15日覆盖研究区GF-1影像共两景(下载地址:http:∥www.rscloudmart.com/),质量良好,无云。GF-1多光谱影像主要参数如表1所示[26]。将同时期空间分辨率为15 m的Landsat8 OLI全色波段(PAN)影像作为参照,对GF-1影像进行正射校正。经过辐射定标、大气校正、镶嵌和裁剪等处理,得到待分类的影像。
表1 GF-1 WFV传感器主要参数Tab.1 Main parameters of GF-1 WFV sensor
在大量实地调查的基础上,并参考同时期Google Earth影像,利用ArcGIS 10.2在GF-1影像上选择和生成样本。考虑到样本均衡性,样本数量按照各地物类型的面积占比所设置。由于建设用地的混淆程度较大,适当增加了其样本数。最终共选择了18 650个像元作为样本数据(高寒草地9 031个、沼泽湿地5 628个、河流湖泊湿地867个、沙化地889个、建设用地1 283个、裸岩952个)。
对影像完成各项预处理后,首先构建分类特征,包括指数计算、灰度共生矩阵计算、缨帽变换(Kauth-Thomas transformation, K-T)和地形分析等,得到分类所需的各类特征集;然后利用RF算法进行特征变量重要性分析、特征选择并开展分类和精度评价;最后利用选定的特征,比较不同方法对高寒湿地土地覆盖类型分类效果。图2为研究思路的具体技术流程。
图2 技术流程Fig.2 Flow chart of technical route
本文选取了光谱信息、遥感指数、纹理信息、缨帽变换成分和地形等共26个分类变量。光谱特征为GF-1影像输出的4个波段。基于波段运算得到8个指数,包括水体指数和植被指数。
缨帽变换通过对原始数据进行正交变换,去除各波段之间的冗余信息,且变换后前3个分量成为有重要物理意义的参数,可被用于湿地信息的分类与提取[27]。参照王帅等[28]的方法,对GF-1影像进行缨帽变换,输出的前3个分量位亮度指数(Brightness index,BI)、绿度指数(Green index,GI)和湿度指数(Wetness index,WI)作为本研究的分类特征。
地形特征是对高寒地区土地覆盖类型分类的重要指标。本文使用的DEM为空间分辨率30 m的ASTER GDEM V2数据集,来自地理空间数据云(http:∥www.gscloud.cn/)。将其重采样为16 m,与GF-1数据进行匹配。利用ArcGIS 10.2软件和DEM数据进行地形分析,得到坡度(SLOPE)和坡向(ASPECT)。
郑淑丹等[29]研究表明纹理信息在一定程度上可以提高分类精度。在ENVI 5.3中,选用3×3移动窗口,利用灰度共生矩阵(Grey level co-occurrence matrix, GLCM)计算影像8种纹理特征(对比度、相关性、差异性、熵、同质性、均值、二阶矩和方差),得到4个波段的32个纹理特征变量。由于这些纹理特征变量存在较高的相关性,利用主成分变换(PCA)进行降维,最终选择前8个主成分(GLCM_1~ GLCM_8)作为纹理特征变量。
湿地是分布在陆地与水体之间且兼具水文、土壤和植被特征的生态系统。青藏高原地区高海拔的地势、适宜的地形和高原气候为高寒湿地的发育提供了条件[7]。因此,本文依据高寒湿地地区土地覆盖类型的分布特点,构建了光谱、水体、地形、植被和纹理共5种类型的分类特征。各特征变量的名称、计算方式和描述如表2所示。
表2 分类特征变量Tab.2 Classification feature variables and their introduction
RF算法是由多棵分类与回归树(Classification and regression tree,CART)构成的非参数机器学习算法。该算法可有效地运行大量数据集,并处理数千个输入变量[19]。在学习阶段,首先从观测数据中选择多个样本,然后从每个样本中构建大量的分类树。对于树中的每个节点,先从所有特征中随机选取Mtry个特征,根据基尼系数进行分裂测试并找到最优特征。在经过上述取样、建树的Ntree次重复后,最终建成含有Ntree棵分类树的随机森林[20]。研究表明,Mtry通常设置为输入变量总数的平方根[30]。Ntree参数值上限一般设置为1 000,大量研究已证明该值对许多RF程序有效[31]。本文Ntree设置为1 000,Mtry为输入特征变量的平方根。此外,在抽样过程中,随机选择一部分样本分割分类树的每个节点,剩下未被抽取的样本被称为袋外(Out of bag,OOB)数据。利用大约37%的OOB数据进行分类结果的精度评价以及计算不同特征变量的重要性[32]。
RF算法可以对特征变量的重要程度和贡献进行分析评价,在提高模型精度的同时减少数据的冗余和处理工作量。图3是通过随机森林OOB误差分析得到的特征变量重要性分布,重要性得分越高,说明该变量对分类结果的影响和贡献就越大。可以看出:Band4、BI、GLCM_1、DEM、NDGI和RI变量的重要性得分均超过6,排序最靠前。由于研究区的主要地物类型是高寒湿地,而水分信息在近红外波段(Band4)特征性较强、吸收强度较高,对分辨潮湿土壤以及从植被中区分水体等方面具有很好的效果。亮度指数(BI)可以有效反映土壤反射信息,对研究区沙化地、建设用地和裸岩等亮度指数较高的地物类型能较好的识别。纹理特征对于河流、湖泊、沼泽斑块和道路等形状轮廓明显的地方的提取发挥了重要的作用。研究区内沼泽湿地多分布在排水不畅的低洼之地,且呈现出随着海拔的升高,面积逐渐减少的趋势,因而DEM的重要性较高。NDGI和RI等植被指数对高寒草地的探测与识别较敏感,重要性也排在前列。此外,与湿地关系密切的湿度指数(WI)在高寒湿地土地覆盖的分类中贡献也较大,由于WI 反映了地面的水分条件,在水体信息丰富的沼泽湿地以及河流湖泊湿地的提取中发挥着较重要的作用。归一化水体指数(NDWI)的重要性得分处于中等水平。NDWI能最大限度地抑制植被的信息,突出水体,可以区分一部分混淆的高寒草地与沼泽湿地。
图3 各特征变量重要性分布Fig.3 Importance distribution of characteristic variables
GLCM_3~GLCM_8的重要性得分较低,原因可能是经过主成分分析,排序靠后的纹理特征分量包含的原始信息较少。由于坡度和坡向是基于地形分析得到,与原始DEM相关性较高,因此参与分类的贡献度较低。
为了确定到达最佳分类精度时所用到的特征类型和变量个数,按照变量重要性和数量依次从1~26进行RF分类,利用OOB数据的验证集建立混淆矩阵,对分类结果进行评价。评价指标包括生产者精度(Producer accuracy,PA)、用户精度(User accuracy,UA)、总体分类精度(Overall accuracy,OA)和Kappa系数。由图4可知,影像分类精度在变量个数从1~5时显著升高,OA和Kappa系数分别达到87.10%和0.81。其中,当加入DEM特征变量时,对整体分类精度的提高影响较大,OA和Kappa系数比加入前提高了7.49个百分点和 0.10。特征变量数达到7时,即伴随着湿度指数的加入,分类精度有阶段性的提升,OA达到了88.16%。分类的特征变量数从8开始,精度总体呈上升趋势,但并不明显。最终在26个变量全部参与分类时,RF模型的结果达到最优,OA和Kappa系数分别为90.07%和0.86。
图4 特征变量数与分类精度关系Fig.4 Relationship between number of characteristic variables and classification result accuracy
通过以上分析可知,综合光谱、水体、地形、植被和纹理特征的RF模型精度最高,但所用到的特征数量较多。通过变量重要性分析对特征做出选择,将贡献度和重要性较小的变量予以剔除,在降低变量维度的同时,又能保证较高的分类精度,进而减少模型运算时间,提高了工作效率。
基于各个变量重要性的排序进行特征选择,分别选取精度达到较高时的最少特征数量、全部特征数量的一半以及达到最优分类结果的特征数量进行进一步评价(表3)。由图5可以看出,沼泽湿地、高寒草地和河流湖泊湿地的PA和UA在6种地物类型中处于较高的水平,且3种特征选择方式的分类精度差距不大。说明使用所选特征和RF算法对高寒湿地地区主要土地覆盖类型的分类表现比较稳定。
表3 基于特征选择的RF分类结果比较Tab.3 Comparison of RF classification results based on feature selection
图5 不同土地覆盖类型生产者精度(PA)与用户精度(UA)Fig.5 Accuracy evaluation of different land cover types
通过直观目视解译并对比原始影像可发现,3种分类制图结果整体效果较好(图6)。由图6可知,沼泽湿地饱满均一,斑块边界分明;湖泊湿地轮廓清晰,形状规则;河流湖泊湿地和建设用地分布连续;裸岩和沙化地提取较为完整。
图6 RF各方法分类结果Fig.6 Classification results by different methods
以上分析可知,最少使用Band4、BI、GLCM_1和DEM等4个特征变量进行RF分类,可以达到兼顾分类精度和工作效率的效果。为了评估RF模型的分类效果与性能,基于同样的样本数据,选择对分类影响和贡献最大的前4个变量(Band4、BI、GLCM_1和DEM),使用MLC、SVM和ANN方法对研究区进行分类并与RF算法作对比,记为RF_1、MLC_1、SVM_1、ANN_1。
由表4可知,相同特征下的4种分类方法中,RF分类结果精度最高,OA和Kappa系数分别为85.95%和0.80,比SVM和ANN方法分别高出6.98、6.56个百分点和0.08、0.09。MLC方法的分类效果最差,OA仅为68.32%,Kappa系数0.58。说明RF算法比MLC、SVM和ANN方法更能有效地提取高寒湿地土地覆盖信息,具有很好的适用性。
表4 各种方法分类结果精度评价Tab.4 Accuracy evaluation of classification results by various methods
(1)针对高寒湿地地区的土地覆盖分类问题,通过使用筛选出的特征,比较了RF和MLC、SVM、ANN等分类方法的性能,结果表明:RF算法的分类精度高于SVM和ANN等机器学习算法,且显著高于MLC基准方法,是高寒湿地地区较适合的分类方法。
(2)建立了一种结合GF-1影像光谱信息、水体特征、植被特征、地形特征和纹理信息的最优RF分类模型,实现了对高寒湿地地区土地覆盖信息的分类, OA达到了90.07%,Kappa系数为0.86。
(3)利用RF的变量重要性分析方法,可以有效地选择出地物最重要的特征信息,在大大降低特征变量维度的同时,仍能保持较高的分类精度,从而缩短了模型运算处理时间,有效提高了工作效率。