梁志国 隋傲 于颖 赵戈榕 谢秋 刘代超
(东北林业大学,哈尔滨,150040) (中国科学院空天信息创新研究院)
在土地利用信息获取中,遥感影像的分类技术作为一种重要的手段被广泛利用,也是遥感研究领域中的热点。“同谱异物”与“同物异谱”现象一直是遥感分类研究需要克服的难题。由于遥感影像的数据量庞大,因此,依靠传统的分类很难挖掘出遥感图像中蕴含的复杂信息。随着计算机技术的发展,基于机器的深度学习方法被广泛用于遥感分类。郭燕等[1]利用高分二号数据,借助支持向量机、人工神经网络、最大似然法等对小麦进行快速识别。决策树算法由于其普适性良好、逻辑性强等优点成为常用的遥感图像监督分类方法。CART算法有很强的利用空间辅助信息的能力,可以深度挖掘训练样本的特征信息,是一种良好的基于决策树的分类算法。王凯等[2]使用高分一号数据,利用决策树方法与像元分解模型对冬小麦种植面积进行快速监测;胡茂莹等[3]使用高分二号数据,基于面向对象的方法和CART决策树算法提取了城市房屋的信息。然而,传统的遥感数据由于波段数较少,导致训练样本的可挖掘性不够深,而在可见光波段与红外波段中加入红边、黄边、紫边波段,是当前高分辨率卫星传感器的研究热点。刘佳等[4]研究表明,在RapidEye卫星数据中引入红边波段有效的提高了对农作物面积提取的精度。因此,本文运用我国农业卫星“高分六号”的遥感数据,以本溪地区有林地为研究对象,建立有林地快速识别系统,并与传统高分数据识别有林地对比分析,探究国产GF-6新卫星在有林地快速识别上的优势,为国产GF-6卫星的应用提供参考。
本溪位于辽宁省东南部地区,地处E123°34′~125°46′,N40°49′~41°35′。本溪市林业用地6 666.67 km2。共有木本植物47科100属251种,珍贵树种有红松(PinuskoraiensisSieb. et Zucc.)、油松(PinustabulaeformisCarr.)、落叶松(LarixoigensisA. Herry.)等,林木蓄积量4 860万m3,林地覆盖率74%。
高分六号是国家高分辨率重大专项卫星,又称为“高分陆地应急监测卫星”,服务于农业农村、自然资源、应急管理、生态环境等行业。GF-6具有高分辨率、宽覆盖、高质量成像、高效能成像、国产化率高等特点。配置一台2 m全色/8 m多光谱高分辨率相机和一台16 m多光谱中分辨率宽幅相机,2 m全色/8 m多光谱相机观测幅宽90 km, 16 m多光谱相机观测幅宽800 km。增加了两个能够有效反映作物特有光谱特性的“红边”波段,可以为植被应用提供更加详细的光谱信息。高分六号卫星与高分一号卫星的分辨率设置基本相同,在谱段上增加了紫谱段(0.40~0.45 μm)、黄谱段(0.59~0.63 μm)、红边谱段1(0.69~0.73 μm)和红边谱段2(0.73~0.77 μm)。
首先,对本溪GF-6数据进行辐射定标、几何精校正和镶嵌预处理;其次,选择差值植被指数(DVI)、归一化植被指数(NDVI)以及遥感图像的纹理等因子作为决策树分类的特征变量。然后,使用传统人工决策树和基于CART算法的自适应特征和阈值决策树方法进行分类,比较分类精度。最后,对分类结果进行比较。分类方案见表1。
表1 分类方案
分类系统是遥感分类的基础和目标,是地表覆盖类型从粗到细以信息树表示的分级结构的分类形式,表示各类别等级的详细程度。根据我国《土地利用现状分类》标准,土地一级类型包括耕地、园地、林地、草地、商服用地、工矿仓储用地、住宅用地、公共管理与公共服务用地、特殊用地、交通运输用地、水域及水利设施用地以及其他用地。
本次研究的目的是实现研究地区有林地的快速分类。目视解译结合Google地图发现研究地区地物类型包括林地、农田、草地、建筑、道路、水等;其中建筑、道路、水等非植被可以和林地、农田、草地等植被区分开;而农田、草地等非林地和林地可区分开。林地包括有林地、疏林地、灌木林地、未成林地、苗圃地、无立木林地、宜林地和林业辅助生产用地。本研究只区分有林地,分类系统第一层分为植被和非植被,第二层将植被分为有林地和其他。
决策树是通过一系列规则对数据进行分类的过程。这种分类方式是通过条件得到规则。决策树一般分为分类树和回归树,离散变量需要使用分类树,连续变量使用回归树。决策树是根据数据的本质特征将数据集分类的过程。本研究基于GF6数据,利用ENVI5.3平台,对本溪地区进行人工决策树分类,并使用无新增波段的高光谱数据进行对比。
CART算法对于特征属性时进行二元分裂。样本满足条件则分裂给左子树,否则分裂到右子树。所以,这种方法生成的决策树为简单的二叉树。此方法基于基尼指数[5-6]选择最优特征,并决定特征的最优切分点。
二分类问题是对给定样品集合D以及特征A,样本集合D会被分裂成D1和D2两部分,则有特征A下的集合D的基尼指数(Gn)为:Gn(D,A)=(D1/D)·Gn(D1)+ (D2/D)·Gn(D2) 。基尼指数表示集合的不确定性,基尼指数越大,样本集合的不确定性越大。
在决策树的构造的过程中,由于数据存在噪声等不确定因素,造成了数据过度拟合,导致分类精度降低,因此,算法加入了剪枝过程,以提高决策树的精度。剪枝技术有预剪枝和后剪枝的方法。CART算法一般使用后剪枝的方法,也就是说通过删除节点的分支来剪去树的节点,则最底层的节点成为树叶部分。
本研究使用同一套ROI并使用CART算法,对原始GF6数据的8个波段和纹理特征[7-8]及植被指数进行自适应滤波的计算,得出的自适应特征及阈值构建决策树。为了体现新波段带来的优势再加入一组对比实验,对原GF6图像的B1(蓝光波段)、B2(绿光波段),B3(红光波段)、B4(近红外波段)[9-11]和纹理特征及植被指数进行CART自适应滤波的计算,得出的自适应特征及阈值构建决策树。
在决策树的构建中,仅使用地物的辐射亮度均值以及植被指数很难将植被之中的有林地与其他类型地物高精度分开。因此,使用纹理来区分其他类型地物(人为的、具有规则形状的农田),通过灰度共生矩阵提取纹理特征是遥感常用的提取方法。本文采用二阶概率统计的方法,利用协同性、平均值、方差、熵等8类滤波,用一个灰色空间相关性矩阵计算纹理值,显示一个像元和它特定邻域之间关系的发生数。
随机选取研究区域有林地与其他类型地物各500个左右作为检验样本,以Kappa系数[12]和总体分类精度为标准对比分析分类精度。总体分类精度指正确分类的类别像元数与总的类别个数的比值。Kappa系数表示分类与完全随机的分类产生错误减少的比例,计算公式k=(p0-pe)/(1-pe),p0为实际一致率,pe为理论一致率。若每一类的真实样本个数分别为a1、a2、…、ac,而预测出来的每一类样本的个数分别为b1、b2、…、bc,总样本个数为n,pe=(a1×b1+a2×b2+…+ac×bc)/(n×n)。
3.1.1 GF数据原始波段对有林地识别精度
研究选取归一化植被指数(NDVI)[13]、差值植被指数(DVI)以及影像的纹理信息这一系列特征构建决策树,并通过选取特定的波段再一次放大影像的信息量。首先,选取的植被与非植被ROI(感兴趣区)来统计辐射亮度均值,以此选择出植被指数所需要的具有明显特征的波段来分类的第一层[14](植被与非植被)。植被的B4波段的辐射亮度均值高于非植被,是植被非植被的主要区分波段。在植被中,B4波段要明显高于B3波段,而非植被中B4波段和B3波段相差不大可以利用B4波段和B3波段区分植被/非植被。统计植被、非植被训练样本ROI在B4波段和B3波段组成的归一化植被指数的概率密度曲线(见图1)。
从图1中可以看出植被/非植被归一化植被指数中,非植被的指数范围为(-0.335 656,0.390 545),植被的指数范围为(0.369 73,0.589 868);在(0.369 73,0.589 868)范围内两种地类没有交叉,即为植被/非植被分类阈值,可引入决策树快速分类第一层中作为分类规则。
利用选取的有林地/其他类型地物的ROI,确定第二层决策树分类所需要的特征波段,发现有林地/其他类型地物在B4(近红外)波段上辐射亮度均值都是最大的,利用差值植被指数(近红外波段-红光波段)作为有林地与其他类型地物的分类规则,统计差值植被指数概率密度曲线(见图2)。
从图2中可以得到,有林地在差值植被指数的阈值(3.179 785,8.099 041),其他类型地物的阈值是(3.987 723,7.762 255);有林地与其他类型地物在(6.530 532,8.099 041)上有部分混淆,但在(3.199 152,6.355 997)上可以区分开,因此,将(3.199 152,6.355 997)作为有林地分类阈值。将归一化植被指数和差值植被指数输入决策树中,得到决策树规则(见图3)和分类结果(见图4)。
3.1.2 GF6新增波段对有林地识别精度
为了分析GF6新增特殊波段对于快速识别有林地特征的优势,增加了GF6新增特殊波段(紫光、红边1、红边2和黄边)建立规则,制作人工决策树进行对比。为了更客观的评价,分类对比实验使用同一套植被/非植被ROI,有林地/其他类型地物ROI。植被/非植被的分类仍然沿用NDVI作为分类规则,统计有林地/其他类型地物的训练样本在GF6各个波段上的辐射亮度均值,可以发现其他类型地物在B4(近红外)波段上辐射亮度均值均高于有林地,所以可以利用B4波段分别与其他波段做差,得到植被/非植被差异性相对较大的波段组合,经计算可知,近红外与红边1的差值在有林地/其他类型地物差异相对较高,因此,利用这两个波段的差作为差值植被指数,并统计有林地/其他类型地物的概率密度曲线(见图5)。
由图5可知,其他类型地物的DVI阈值为(3.583 323,7.697 885),有林地DVI阈值为(3.219 367,7.182 94)为有林地;DVI在(3.654 583,6.001 639)范围内有林地/其他类型地物混淆相对较少,可作为有林地/其他类型地物DVI分类阈值。
将DVI加入植被/非植被分类中,得到决策树分类规则(见图6)和分类结果(见图7)。
3.2.1 GF数据原始波段对有林地识别的精度
研究对辽宁本溪市2018年7月22日的高分六号影像的传统四个波段基于CART算法选取自适应特征及阈值构造决策树。自适应特征选择的变量为GF数据传统波段、NDVI、DVI、8种纹理信息(平均值、方差、二阶矩、同质性、对比度、熵、相关性、相异性)。总体分类精度为94.31%,Kappa系数达到0.87,分类结果见图8。
3.2.2 GF6新增波段对有林地识别精度
为了进一步比较GF6数据新增波段在有林地识别上的优越性,研究基于CART自适应特征与阈值算法,加入新增4个波段(紫光、红边1、红边2和黄边)构建决策树。自适应特征选择的变量为GF数据新增波段、传统波段、NDVI、DVI、7种纹理信息(平均值、方差、二阶矩、同质性、对比度、熵、相关性)。总体分类精度为97.67%,Kappa系数达到0.95,分类结果见图9。
本研究构造了有无新增特殊波段、人工决策树与CART自适应特征自适应阈值的4组决策树。从分类结果中可以发现没有新增波段的人工决策树分类结果椒盐现象及错分现象最为严重;有新增波段的人工决策树分类结果较上一种稍好一些,但椒盐现象及错分现象依然严重;使用CART算法构造的无新增波段的决策树解决了椒盐现象但依然存在错分现象;具有新增波段并使用CART算法构造的决策树从分类结果来看效果最好,说明高分六号的特殊波段对于林地有很强的辨识能力。
波段选择的目的是更加有效的识别地物类型,通过上述方法,分别组合了有无新增特殊波段的有林地与其他类型地物的可分性测度。无新增特殊波段对可分性测度[15]为1.32,有新增特殊波段对可分性测度为1.88,因此,具有特殊波段的高分六号遥感图像的有林地识别能力更高,可分离程度更高。
由表2可知,人工4波段的总体分类精度和Kappa系数均小于人工8波段;CART 4波段的总体分类精度和Kappa系数均小于CART 8波段。通过对比发现无论是从可分离性测度、生成的结果图像或是精度检验结果,都可以表明具有特殊波段的高分六号数据对有林地具有很强的识别能力。
表2 有无新增特殊波段的有林地识别总体分类精度比较
本文基于高分六号的数据,通过人工和CART算法构建决策树,对辽宁本溪地区进行有林地的快速识别。结果如下:通过比较有无新增特殊波段的高分六号图像样本点可分离度发现,具有特殊波段的样本点可分离性明显高于无特殊波段的样本点,可分离性由1.32提高到1.88;使用人工和CART算法构造决策树,通过两种图像对比,在没有特殊波段的图像分类结果中有更多的错分现象,其中多数错分为农田与有林地的混淆;加入了特殊波段的高分六号数据对于有林地有更强的识别能力,图像分类总精度比无特殊波段的图像高出3%以上。且使用CART算法能更好的挖掘出图像本身的特征及自适应阈值达到快速分类的效果。
因此,增加了特殊波段的高分六号数据具有更好的有林地识别能力,相比于一般的卫星传感器,高分六号的传感器更有利于有林地的识别以及分类。另外,在使用CART算法构建决策树时存在过度拟合的问题,在以后的研究中应优化剪枝程序或更新算法,提高分类的实际精度。