杨昆 王加胜
摘要 应用高分辨率的Sentinel-2A数据,提出了随机森林算法结合多特征的烤烟遥感提取方法。然后将支持向量机和分类回归树算法与随机森林算法进行了对比试验,3种分类器与光谱+地形+纹理+缨帽特征组合的平均验证精度分别为63%、88%和94%,随机森林分类器结合光谱+地形+纹理+缨帽特征组合的分类精度最佳,制图精度达到90%,用户精度为98%,总体精度为96%,Kappa系数为0.94。结果显示,研究区烤烟的最佳分类时相为4月下旬至5月下旬;随机森林算法结合光谱+地形+纹理+缨帽特征的方法能够精确地对研究区烤烟种植区进行遥感提取,为云南高原山区农作物提取提供技术参考。
关键词 烤烟;随机森林;Sentinel-2A;特征优化;曲靖市
Abstract A remote sensing extraction method of flue-cured tobacco based on high-resolution sentinel-2A data was proposed. Then the support vector machine and classification regression tree algorithm were compared with the random forest algorithm.The average verification accuracy of the three classifiers combined with spectrum,terrain,texture and tassel cap features were 63%,88% and 94%,respectively.The classification accuracy of RF classifier combined with spectral,terrain,texture and tassel cap features was the best ,with mapping accuracy of 90%,user accuracy of 98%,overall accuracy of 96% and Kappa coefficient of 0.94.Results showed that the best classification period of flue-cured tobacco in the study area was from late April to late May;RF algorithm combined with spectrum,terrain,texture and tassel cap features could accurately extract tobacco planting area in the study area,which provided technical reference for crop extraction in Yunnan plateau mountainous area.
Key words Flue-cured tobacco;Random forest;Sentinel-2A;Feature optimization;Qujing City
曲靖市借助得天独厚的地理位置和气候条件,生产出了优质的烟叶,是亚洲最大的优质烤烟生产基地。但是随着近几年来气候条件的恶化,对烤烟的种植空间的时空变化产生了一定的影响。因此合理优化烤烟种植空间结构,对烤烟种植区进行监测和制图具有重要的现实意义。
GEE(Google Earth Engine)云计算平台是一个集数据获取、数据运算以及可视化分析于一身的平台。它强大的云计算能力能够让用户几秒钟至几分钟之内快速完成数据的获取、数据的預处理、数据的分析以及展示,极大提高了影像处理的效率,节约时间成本。因此,近几年来GEE云计算平台被广泛应用在农情监测领域,比如Dong等[1]基于GEE平台,使用Landsat8影像对2014年东北亚地区的水稻种植区进行了提取,其中生产者精度为73%,用户精度达到了92%。
目前,中分辨率影像在大面积农作物识别领域广泛应用。柳文杰等[2]利用国产卫星和MODIS融合数据对湖南洞庭湖区域的水稻种植区进行了提取,结果表明NDVI+物候特征的方法参与水稻分类具有良好的效果。但是云南高原山区地形起伏不平,农作物种类繁多,很多耕地不连成片且不规则,存在某个区域有多种农作物种植,如果使用中分辨率的卫星影像,很容易产生混合像元,大大降低制图精度。因此,高精度的卫星影像是高原山区农作物提取的关键之一。
虽然研究人员对大量农作物类型提取进行了研究,但是鲜见烤烟的遥感提取研究。鉴于此,笔者以云南省曲靖市马龙、陆良、师宗以及罗平4区县为研究区,基于GEE平台,应用高分辨率的Sentinel-2A数据,提出了随机森林算法结合多特征的烤烟遥感信息提取方法,并与支持向量机和分类回归树算法进行对比,研究随机森林算法在该地区烤烟识别的适用性,以期为云南高原山区农作物识别、农业规划和决策提供技术支持。
1 材料与方法
1.1 研究区概况
研究区马龙、陆良、师宗以及罗平4区县位于云南省曲靖市南部,东临贵州省,西与昆明市接壤,南与红河州、文山州毗邻(103°16′~104°43′E,24°20′~25°37′N),面积9 655 km2左右,约占全市面积的33.4%。研究区地处云贵高原,珠江源头,地形属于高原山地地形,地势由西北向东南倾斜。研究区为亚热带高原季风气候,年平均气温14~16 ℃,年均降水量900~1 600 mm,年均日照时数1 500~2 500 h。烤烟的生长期为4—9月份,其物候历信息如表1所示。
1.2 数据与预处理
该研究采用的数据包括Sentinel-2A影像数据、SRTM数字高程數据以及样本数据。具体描述如下:①Sentinel-2A影像数据。与烤烟最难区分的农作物类型就是玉米,烤烟与玉米的外形相似,因此光谱特征很相似,但它们的物候特征存在很大差异,烤烟在4月下旬到5月中旬移栽完之后要覆盖地膜,以抢抓积温,保持热量充足,同时使墒内水分充足,8月下旬至9月上旬进行采收,玉米则在3月下旬至4月上旬播种完之后覆膜,有些地区不覆膜,8月下旬至9月上旬进行采收。烤烟和玉米的覆膜时间相差1个多月,因此当4月下旬至5月下旬烤烟存在地膜的时候,玉米的覆膜期快要结束,除此之外其他农作物这时期不需要覆盖地膜。因此关键物候期影像为4月下旬至5月下旬,考虑云影像,收集了4月27号的云量低于20的影像5幅。数据来源为GEE平台,产品级别为1C级,该级别经过了数字高程模型校正,影像空间分辨率为10 m,总共13个波段。预处理:首先计算QA60波段Bit10和Bit11的值,设置2者的值为0得到云掩膜,利用云掩膜去除影像中的云信息,然后对5幅影像进行中值合成,最后裁剪研究区范围,得到最佳分类影像。②SRTM数字高程数据。选用的是GEE平台上由NASA喷气推进实验室提供的航天飞机雷达地形测绘任务(The Shuttle Radar Topography Mission,SRTM[3])数字高程数据,分辨率为30 m,坐标系统采用WGS84,定位精度为1 m,高程精度为±16 m,影像集ID为“USGS/SRTMGL1_003”。预处理:将SRTM数据按照研究区进行裁剪即可。③样本数据。样本数据分为实地和线上采集2种方式进行,将研究区主要地物划分为烤烟、其他农作物、建筑用地、林地和水体,总共采集12 553个样本,其中烤烟2 157个,其他农作物6 077个,建筑用地1 883个,林地1 683个,水体753个。实地采集数据时间为2019年9月21—24日,实地总共采集131个点样本。线上采集是在Google Earth Pro上通过目视解译法完成的,样本遵循随机、均匀的原则。所有样本数据70%用作训练数据,30%用作验证数据。
1.3 研究方法
基于GEE平台,通过物候分析选择关键物候期哨兵2数据进行快速地去云、拼接与裁剪,得到最佳时相影像数据,然后对光谱、纹理、地形以及缨帽特征进行构建与提取,利用J-M距离公式对特征集进行优化,最后分别使用支持向量机(Support Vector Machine,SVM)、分类回归树(Classification And Regression Trees,CART)以及随机森林(Random Forest,RF)算法结合优化后的特征对影像进行分类以及精度评价(图1)。
1.3.1 特征构建。
1.3.1.1 光谱特征。该研究光谱特征包括原始特征和光谱指数。原始特征包括其中的B2、B3、B4、B5、B6、B7、B8、B8A、B11和B12总共10个原始光谱波段 。通过计算NDVI[4](归一化植被指数)、EVI[5](增强型植被指数)、MSAVI[6](修改型土壤调整植被指数)、NDWI[7](归一化水体指数)、LSWI[7](地表水分指数)以及NDBI[8](归一化建筑指数)6种常见光谱指数,并将它们分别加入原始特征空间的构建。
1.3.1.2 地形特征。地形特征作为研究区的突出特点之一。研究区所处地形为高原山区,烤烟一般需要连片的大田以及靠近水源,所以大体种植在相对平缓地势较低的地方,很少种植在坡度较大海拔较高的区域。而其他农作物和林地往往可以在坡地进行种植和生长,因此可以利用地形特征更好地区分烤烟与其他植被,提高烤烟的提取精度。由于研究区海拔差异不明显,将研究区SRTM数字高程数据计算得到的坡度(Slope)、坡向(Aspect)以及山体阴影(Hillshade)3个特征分量分别作为独立波段参与原始特征的构建。
1.3.1.3 纹理特征。纹理是遥感影像分类中重要的特征之一,它表现的是影像的表面或者结构属性。烤烟与玉米的光谱特征以及纹理特征都很相似,但与其他农作物纹理特征有很大不同,该研究可以很好地通过光谱的差异来解决烤烟和玉米、其他农作物的混分,也可以通过纹理特征的差异区分烤烟与其他农作物。基于灰度共生矩阵(Gray-Level Co-occurrence Matrix,GLCM)的统计方法[9-10]对纹理特征进行计算,将其中得到的角二阶矩(NDVI_asm)、对比度(NDVI_contrast)、相关性(NDVI_corr)、方差(NDVI_var)、逆差矩(NDVI_idm)、熵(NDVI_ent)6个纹理特征统计量参与到原始特征的构建中。
1.3.1.4 缨帽变换特征。缨帽变换即坎斯-托马斯变换(Kauth-Thomas Transformation,KT[12]),又称缨帽变换(Tasselled Cap Transformation,TCT)。缨帽变换的转换系数是固定的,依赖于影像的传感器,缨帽变换通过这个转换系数将多光谱影像变换到具有同样多波段数的特征空间,其中得到的前3个特征分量为亮度指数、绿度指数、湿度指数。其变换公式如下:
式中,Y表示变换后的影像,C表示对应影像的转换系数矩阵,X表示变换前的原始影像。该研究的影像为哨兵2影像,基于常用的6个波段(Blue、Green、Red、Nir、Swir1、Swir2)和哨兵2变换矩阵系数[12](表2),通过公式(7)经过缨帽变换后选择前3个重要波段Brightness、Greenness、Wetness作为独立波段加入到原始特征的构建。
1.3.2 特征优化方法。如果将所有的特征都加入到分类器中,会造成数据的冗余,加重分类器的负担,最终导致分类精度大大降低,因此特征优化极其重要。该研究选择的是通过J-M距离公式计算样本间分离度的特征选择方法,J-M距离的基本思想是选择对类与类之间区分度大的属性。基于某个特征或特征组合的类与类之间的J-M距离计算公式如下:
式中,Bij为某个特征或特征组合的巴氏距离,反映了类与类之间的重叠量;Mi與Mj为对应的类别的某个特征的均值向量;Vi与Vj分别是对应的类别的某个特征的协方差矩阵。其中JM的取值范围是0~2,取值越接近于0表示样本分离度越小,说明该特征完全混淆类别,取值越接近于2表示样本分离度越大,说明该特征区分类别越佳。为了更好地排除区分度小的特征,选择JM距离大于1且接近2的前2位特征[13-16]作为优化后的特征参与到分类中。
1.3.3 分类方法。随机森林算法是一种近年来比较流行且广泛应用的集成学习方法[17]。它的基本组成是决策树,由成百上千个决策树共同对样本进行训练和分类,综合考虑多个学习器的预测结果最后做出决策。随机森林的核心就是随机性,体现在:①样本的随机。对于每一棵决策树,使用bootstrap采样方法从训练样本中有放回的随机抽取一部分训练样本,作为每一棵决策树的训练集,没有被抽到的样本作为袋外样本,用来评估随机森林的袋外误差。②特征的随机。随机从样本的所有特征中选择特征子集,每次树分裂时,从特征子集中选择最优特征。有了这2个随机性,在处理复杂且高维的数据时,随机森林就不会出现过拟合现象,抗噪能力很强。
1.3.4 精度评价方法。采用混淆矩阵[18-19]的方法评估模型的优劣。具体评价指标有制图精度、用户精度、总体精度以及Kappa系数,它们从不同的角度评估分类精度。
2 结果与分析
2.1 特征优化结果 通过计算每组地类组合的每种特征的J-M距离,选择每组组合中每类特征的J-M距离大于1且排名前2位的特征,最后得到NDVI、MSAVI、NDBI、NDWI、EVI_min、slope、NDVI_asm、NDVI_idm、NDVI_ent和greenness共10个最优特征。
2.2 3种分类器精度比较与分析 分类器选择支持向量机、CART决策树与随机森林分类器进行对比试验。特征优化使用3个分类器和4种特征分别进行组合,采用交叉验证策略进行精度的比较(表3),交叉验证策略如下:①每次随机取样本的70%用来分类,其余30%用来验证;②每种组合每次计算分类的总体精度作为验证精度,总共计算10次,10次结果的平均值作为每种组合的平均验证精度。
3种分类器中,SVM分类器的平均验证精度最低,分类效果最差,SVM分类器平均验证精度仅63%,而CART决策树和随机森林分类器的平均验证精度分别为88%和94%。以随机森林分类器为例,仅结合光谱特征的平均验证精度为85%。加入地形特征之后提升了2%,说明在研究区复杂地形中加入坡度因子有助于区别地类;加入纹理特征(角二阶矩阵、逆差矩和熵)之后提升了4%,达到了89%,说明对于表面差异大的地类能够通过加入纹理特征很好地区分;加入缨帽特征(即绿度)之后提升为88%,说明绿度特征的加入能够更好区分植被与非植被以及不同植被。结合地形+纹理+缨帽特征的平均验证精度为81%,而结合光谱+地形+纹理+缨帽特征的平均验证精度提升了13%,达到了94%,说明光谱特征在研究区的地物分类中扮演着至关重要的角色。
2.3 精度验证以及烤烟种植区分布
由于随机森林分类器结合光谱+地形+纹理+缨帽组合的分类效果最佳,其第6次精度验证的混淆矩阵如表4所示,烤烟的生产者精度达到90%,烤烟测试样本总计647个,其中正确分类580个,未正确分类67个,包括61个被分类为其他农作物,6个被分类为建筑用地,用户精度达到98%,10个其他农作物和3个建筑用地被错分为烤烟。总体精度为96%,Kappa系数为0.94。
图2为2019年4月份烤烟、水体、其他农作物、林地和建筑用地遥感提取结果,为了突出烤烟种植区分布,只保留水体,将其他农作物、林地以及建筑用地归并为其他类显示。
从图2可以看出,研究区烤烟马龙县主要分布在北部的王家营镇、西部的旧县镇、西南的马鸣乡以及大庄乡、东部以及东南部的月望乡、纳章镇,马龙县烤烟整体分布比较均匀,陆良县包括中部的芳华镇、西南的小百户镇以及大莫古镇、东部和东南部的活水乡以及龙海乡、南部的召夸镇,师宗县主要分布在彩云镇以及龙庆乡,南部以及东南部地区多为山区,地势起伏太大,因此烤烟种植较少且零散分布,罗平县烤烟主要分布在西北部的阿岗镇,罗平街道、腊山街道以及板桥镇分布较少,主要原因是该地区油菜花与烤烟实行轮作制,此时有些油菜花还没收割,因此烤烟分布较少。
3 结论
基于GEE云平台,通过烤烟物候特征选取了最佳分类时相,对覆盖研究区的2019年4月27号的四景影像进行去云、镶嵌和裁剪等预处理,构建了光谱、地形、纹理和缨帽特征,并通过计算J-M距离来优化原始特征空间得到最优特征,之后进行了SVM、CART以及Random Forest共3种分类器与最优特征的组合对比试验,并对精度进行了评估,快速提取了曲靖市马龙、陆良、师宗以及罗平4区县的烤烟种植区空间分布信息,主要结论如下:
(1)烤烟提取的难点之一在于和玉米的区分,通过物候分析其存在覆膜的时间差且反射率差异大,从而得到研究区烤烟的最佳分类时相在4月下旬至5月下旬。
(2)随机森林分类器结合光谱+地形+纹理+缨帽特征的分类效果最佳,提取精度较高,表明该方法能够有效地运用于区域烤烟种植区遥感提取,可为云南高原山区农作物识别提供技术参考。
由于云南地区云量较多,遮挡现象比较严重,对提取造成了一定的影响,因此获得清晰且长时间序列的影像是后续农作物提取的研究重点。除此之外,研究区地处滇东高原山区,部分地区地势起伏较大,农作物类型复杂且某些地方存在间作套种,与平原地区成片平坦的农田不同,很多耕地处在陡峭的斜坡上呈阶梯状(梯田),有些耕地会被斜坡阴影所遮盖,给分类的精度带来了一定的影响,虽然使用了10 m分辨率的哨兵数据,但仍存在一定的混合像元现象,因此今后需要借助更高精度的影像来提升提取精度,实现对农作物的精细化提取,进行农作物面积变化、产量估算以及驱动力因素等研究。
参考文献
[1]DONG J W,XIAO X M,MENARGUEZ M A,et al.Mapping paddy rice planting area in northeastern Asia with Landsat 8 images,phenology-based algorithm and Google Earth Engine[J].Remote sensing of environment,2016,185:142-154.
[2]柳文杰,曾永年,张猛.融合时间序列环境卫星数据与物候特征的水稻种植区提取[J].遥感学报,2018,22(3):381-391.
[3]VAN ZYL J J.The Shuttle Radar Topography Mission (SRTM):A breakthrough in remote sensing of topography[J].Acta astronautica,2001,48(5/6/7/8/9/10/11/12):559-565.
[4]PETERS A J,WALTER-SHEA E A,JI L,et al.Drought monitoring with NDVI-based standardized vegetation index[J].Photogrammetric engineering and remote sensing,2002,68(1):71-75.
[5]王正兴,刘闯,陈文波,等.MODIS增强型植被指数EVI与NDVI初步比较[J].武汉大学学报(信息科学版),2006,31(5):407-410,427.
[6]蔡宗磊,包妮沙,刘善军.国产高分一号数据估算草地植被覆盖度方法研究:以呼伦贝尔草原露天煤矿区为例[J].地理与地理信息科学,2017,33(22):32-38,44.
[7]YANG X C,ZHAO S S,QIN X B,et al.Mapping of urban surface water bodies from sentinel-2 MSI imagery at 10 m resolution via NDWI-based image sharpening[J].Remote sensing,2017,9(6):1-18.
[8]LI K N,CHEN Y H.A Genetic algorithm-based urban cluster automatic threshold method by combining VIIRS DNB,NDVI,and NDBI to monitor urbanization[J].Remote sensing,2018,10(2):1-21.
[9]宋荣杰,宁纪锋,刘秀英,等.基于纹理特征和SVM的QuickBird影像苹果园提取[J].农业机械学报,2017,48(3):188-197.
[10]PUISSANT A,HIRSCH J,WEBER W.The utility of texture analysis to improve per-pixel classification for high to very high spatial resolution imagery[J].Znternational journal of remote sensing,2005,26(4):733-745.
[11]CRIST E P.A TM Tasseled Cap equivalent transformation for reflectance factor data[J].Remote sensing of environment,1985,17(3):301-306.
[12]NEDKOV R.Orthogonal transformation of segmented images from the satellite sentinel-2[J].Comptes rendus de l'Academie bulgare des ences:Sciences mathematiques et naturelles,2017,70(5):687-692.
[13]NUSSBAUM S,NIEMEYER I,CANTY M J.SEaTH-A new tool for automated feature extraction in the context of object-based image analysis[C]//Proceedings of the 1st international conference on object-based image analysis(OBIA 2006).Salzburg:[s.n.],2006.
[14]余晓敏,湛飞并,廖明生,等.利用改进SEaTH算法的面向对象分类特征选择方法[J].武汉大学学报(信息科学版),2012,37(8):921-924.
[15]陈安旭,李月臣.基于Sentinel-2影像的西南山区不同生长期水稻识别[J].农业工程学报,2020,36(7):192-199.
[16]蒋丹丹,卢刚,陈成.基于单极化TerraSAR-X影像提取建筑区研究[J].地理与地理信息科学,2016,32(1):60-65,127.
[17]BREIMAN L.Random forests[J].Machine learning,2001,45(1):5-32.
[18]HUANG D M,XU S J,SUN J Q,et al.Accuracy assessment model for classification result of remote sensing image based on spatial sampling[J/OL].Journal of applied remote sensing,2017,11(4)[2020-07-21].https://doi.org/10.1117/1.JRS.11.046023.
[19]鐘仕全,莫建飞,陈燕丽,等.基于HJ-1B卫星遥感数据的水稻识别技术研究[J].遥感技术与应用,2010,25(4):464-468.