基于高分一号特征优选的CART决策树面向对象分类研究

2019-06-21 06:06赵英俊
资源环境与工程 2019年2期
关键词:训练样本决策树纹理

李 明, 赵英俊

(核工业北京地质研究院,北京 100029)

随着高分辨率卫星影像应用愈加广泛,如何利用高分辨率遥感影像丰富的光谱信息、纹理信息、几何及语义信息进行计算机自动快速提取信息成为遥感技术领域的一项重要研究。

面向对象影像分析方法使得对地物不同特征的分析上升到了一个新的高度,在利用高分辨率遥感影像对自然资源及土地资源的研究中,如何利用一个个同质“对象”丰富各项信息、准确快速地区别较难区分的地物类型是一个难点。单纯地利用光谱信息而忽略纹理信息会导致“错分、漏分”等现象,但是传统的监督分类如果加入纹理信息又会导致计算量过大、分类效率降低、分类精度有限等问题,因此在面向对象影像分析的基础上,出现了模糊分类法、SVM支持向量机分类法、C45决策树分类法、人工神经网络分类法等众多影像分类方法。 这些方法相比于传统的基于像元的分类方法分类精度有了明显提高。

本文所研究的CART决策树分类方法具有自动选择分类特征、自动确定阈值、运算速度快、分类精度高等诸多优点[1],因此非常适合在自然资源及土地覆盖的计算机自动提取工作中得到应用,能够大大加快工作效率,提高分类精度。

1 研究区及数据预处理

研究区位于陕西省榆林市北部神木县,东经109°44′53″~109°52′10″,北纬39°5′49″~39°5′57″,面积71.15 km2,地处毛乌素沙漠东南缘,陕、晋、蒙接壤地带,典型的黄土地貌,地处丘陵、森林草原向沙漠、干草原的过渡地带,基本土壤为风沙土和黄土,石多土薄,水土流失严重。气候属中温带半干旱大陆性季风气候,四季分明,春季多风,夏季炎热,多雷阵雨,秋季多雨,冬季寒冷干燥,多西北风。年平均气温7.5~8.0℃,最热为 7月,平均23.9℃,极端最高气温38.9℃,最冷为一月,平均-8.4℃,极端最低气温-24℃;年平均降雨量460 mm,年蒸发量1 200 mm,最大年降雨量849.6 mm,最少199.6 mm。

研究所用影像数据为2015年6月8日高分一号卫星PMS2全色/多光谱相机影像。高分一号卫星是中国“高分专项”计划的第一颗卫星,突破了高空间分辨率、多光谱与宽覆盖相结合的光学遥感技术,搭载了两台2 m分辨率全色/8 m分辨率多光谱PMS相机与四台16 m分辨率多光谱WFV相机,全色波段光谱范围为0.45~0.9 μm,多光谱四个波段光谱范围分别为Band1(0.45~0.52 μm)、Band2(0.52~0.59 μm)、Band3(0.63~0.69 μm)、Band4(0.77~0.89 μm)。其中作为精度验证的人工目视解译所用影像为高分二号2 m分辨率影像。本文所用影像经过辐射校正—大气校正—几何校正—影像融合四个阶段的预处理达到了研究所需。

2 CART决策树

决策树常用的算法有CART、C4.5和D3等[2],CART(Classification And Regression Tree)决策树算法1984年由Breiman提出,采用经济学中的基尼系数来作为选择最佳测试变量(分类特征)和分割阈值(特征阈值)的标准,其定义如下所示:

(1)

(2)

(3)

式中:p(j/h)是从训练样本集中随机抽取一个样本,当某一测试变量值为h时属于第j类的概率;nj(h)为训练样本中测试变量值为h时属于第j类的样本个数;n(h)为训练样本中该测试变量值为h的样本个数;j为类别个数[3]。CART也属于监督分类方法之一,在执行分类前,需要提供指定的训练样本对其进行构建与评价。训练样本结构如下:

L=X1,X2,…Xm,YX2=x11,x12,…x1t1

(4)

Xm=xm1,xm2,…xmtnY=Y1,Y2,…Yk

(5)

式中:X1,X2,…,Xm称为属性向量(Attribute Vectors)。其属性可以是有序的,也可以是离散的;Y称为标签向量(Label Vectors),其属性可以是有序的,也可以是离散的。由训练样本公式可以看出,该算法既可用于分类,又可用于连续变量的预测,它的基本原理是:将训练数据集(训练样本)划分为测试变量和目标变量,通过对这两变量的循环分析形成二叉决策树。分类算法公式如下:

(6)

训练数据集D={(x1,y1),(x2,y2)…(xn,yn)},利用特征A的取值a将数据分为两部分,计算A=a时的基尼系数,对整个数据集中所有的可能特征A以及其可能取值a选取基尼系数最小的特征A*与特征下的取值a*,将数据集切分,数据D1、D2分到两个子节点中去,对子节点递归的重复迭代直至满足所有条件。回归算法公式如下:

(7)

(8)

(9)

预剪枝算法如下:

(10)

a=mina,gt

(11)

设T=T0,k=0,a=+,自上而下地访问内部节点t,对最小的g(t)=ag(t)=a进行剪枝,并对叶节点t以多数表决形式决定其类别,得到树T。令k=k+1,ak=a,Tk=T,对于产生的子树序列{T0,T1,…,Tn}分别计算损失,得到最优子树T*并返回[4]。

相对于其他的决策树模型,CART决策树模型CART算法具有如下特点:严格无参数,对输入数据没有任何统计分布的假设要求;能够清楚地指出变量对于分类的重要性,选择与分类相关的变量;方法实现简单,运行速度较快;结构清晰,容易理解。

3 面向对象分类

BaatzM和SchäpeA针对高分辨率遥感影像的特点,提出了面向对象的遥感影像分类方法[5]。分析单元是由分割形成的具有相同特征的像元组成的同质对象[6],分析目标对象的相关特征属性,包括光谱、形状、纹理、阴影、空间位置等,随后应用不同的分类方法建立相应的规则对分割得到的同质性对象进行影像分类和信息提取。相对于传统的基于像元的分析方法,面向对象的影像分析方法能够充分考虑对象之间的语义信息[7],根据所提取的目标可以调整不同的尺度,从较高层次对影像进行分类,因此解决了由于单个像元光谱异质性大而导致的高光谱遥感分类“胡椒盐”噪声问题,以及基于像元方法中存在的“同物异谱,同谱异物”现象。

3.1 多尺度分割

依据分割时使用的灰度特征和纹理特征,影像分割方法可分为直方图阈值、特征空间聚类、区域增长与合并、边缘检测4种类型[8],其中应用最为广泛、最为成功的面向对象影像分割技术是基于分形网络演化算法(Fractal Net Evolution Approach,FNEA)的多尺度分割(multi-scalesegmentation)方法,该方法是基于邻域异质性最小的原则以随机单个像元作为起始点,形成对象自下而上的区域合并。

如何确定最优分割尺度是目前研究的一个重要方向,王志华等以利用分型网络演化分割算法为例,开展尺度参数选择研究[9];明冬萍等提出了基于谱空间统计的高分辨率影像分割尺度估计方法[10];殷瑞娟等利用主成分变换后的特征值作为各个主成分图像的权重,改进了原分割质量评价值(GS),并利用GS值确定最优分割指数[11]。本文使用eCognition9.0实现影像分割,分割参数主要包括波段的权重、均质性因子和分割尺度。影像对象的异质性阈值由分割尺度决定。本文采取建立多个分割层、利用光谱差异分割的方法进行影像分割,并利用OIF最佳指数法选取432波段组合,经过反复对比实验(图1),最终针对研究区建立了较为合适的分割参数设置,如图2所示。

图1 分割尺度研究Fig.1 The research of the segmentation scale

3.2 样本选择及特征选取

根据实际项目解译要求,将训练区分为草地、林地、耕地、水体、其它土地五类。辅以2016年人工目视解译结果作为参考,进行训练样本的选择并分析所选样本的光谱特征及纹理特征,依据地类区分难易程度进行样本由多到少的选取。

根据样本统计结果,初步选择光谱特征:432波段的均值、标准差、比率、亮度、NDVI(植被指数)、NDWI(水体指数)、MSAVI(修正土壤调整植被指数);形状特征:长宽比、形状指数。纹理特征计算方法应用Haralick等人提出的灰度共生矩阵方法[12]。用两个位置象素的联合概率密度来定义共生矩阵,它不仅能够反映亮度的分布特性,也反映具有同样亮度或接近亮度的象素之间的位置分布特性,是有关图像亮度变化的二阶统计特征。从共生矩阵导出一些反映矩阵状况的参数,如对比度、相关度、熵、均值、差异性、均匀度[13]。

图2 分割参数设置Fig.2 The settings of the segmentation parameter

本文主要针对较难区分的草地、耕地等地类引入纹理特征进行提取,这些地类在近红外波段反射值较高、可区分性最大,因此针对近红外波段进行上述纹理特征的全方向提取。个别特征计算方法介绍如下:

(12)

(13)

(14)

本文运用eCognition9.0针对分割后的对象进行纹理特征的提取,不需要通过计算J-M距离来调整窗口大小而可以直接计算各纹理特征。初步选取纹理特征如下:con-对比度、cor-相关度、ent-熵、mean-均值、dis-差异性、hom-均匀度。

(15)

(16)

(17)

(18)

(19)

(20)

初步选取光谱形状及纹理特征共计21个,运用CART决策树分类时,考虑到运算速度及较难区分地物比如耕地、草地等能更加充分利用所选特征来进行判断,较容易区分的水体应用NDWI指数通过设定阈值单独提取。

3.3 优化特征空间及分类结果对比

特征的选择并不是越多越好,相反盲目地使用多种特征所导致的计算量急剧增大、分类精度降低、分类特征冗余问题是会大大影响整个分类过程的[14],因此如何找到类别之间区分最大平均、最小距离的特征组合,优化特征空间是一个值得研究的问题。丛佃敏等选取研究区分割对象的48个特征,利用OOB误分率对各个特征的重要性排序,从而优化特征空间[15];林鹏等运用遗传算法对初始特征集进行最优特征集提取[16];余晓敏等运用改进的SEaTH算法进行特征优选[17]。本文所用CART决策树分类方法能够自动选择特征,自动确定阈值,利用易康9.0特征优选工具FSO模块优选出的特征构建特征空间进行自动分类,其中,FSO工具优选结果如图3。

图3 FSO工具特征维数与区分距离关系Fig.3 The relationship between feature dimension and distinguish distance

这里可以看到,排除水体单独提取所用到的NDWI指数,初选的20个特征在14个特征组合时样本之间的区分距离达到最大,光谱特征分别是:3波段的比率标准差及均值、NDVI、4波段的比率标准差、形状指数、长宽比,初选的6个纹理特征全部在优选的特征范围内,可见纹理特征在训练样本的区分中起到了较为明显的作用,但由于最邻近分类引入纹理特征分类时会导致计算量过大、运算速度过慢,因此在最邻近分类时采用8个特征进行分类,分别是:形状指数、3波段比率和标准差、NDVI、纹理相关性、纹理差异性、纹理均匀度及4波段比值。基于所选特征,利用FSO工具计算所选训练样本的可分离度,如图4所示。

图4 训练样本在14个特征组合时的可分离度Fig.4 The separable degrees of the training samples combined with 14 features

可以看出所选训练样本林地与草地的可分离度较差(只有1.18),草地与耕地的可分离度最差为1.15,在所选特征保持不变的前提下,通过进一步调整所选样本,最终使得林地、草地分离度达到1.35,草地与耕地分离度达到1.26。

由于训练样本相同,为了加快运算速度、提高分类精度,CART分类利用FSO工具进行特征优选后的14个特征进行特征空间的构建,其中水体用NDWI指数单独提取,建树如下。

在训练样本相同的条件下,最邻近分类、CART决策树分类结果如图5、图6所示。

图5 基于光谱及纹理特征执行的CART决策树Fig.5 The process of CART decision tree based on spectrum and texture features

图6 最邻近分类(左)与CART分类(右)结果图Fig.6 The results of the classification between nearest neighbor(left) and CART decision tree(right)

3.4 精度评价

为了客观地评价研究区不同分类方法的结果精度,采用野外实地验证的110个控制点建立混淆矩阵进行分类结果精度评价,最邻近分类、CART分类精度及各项指标如表1、表2所示。

总体来看,最邻近分类方法在总体分类精度上略高于CART决策树分类,但是在数据处理运算速度上,两者相差过大,这是由于两者不同的分类原理导致的。即使CART分类所选用的特征比最邻近的多了6个,但是运算速度相差60倍。两种分类方法在草地的分类上都不是很理想,尤其是CART决策树分类,在草地与其它土地的错分率和漏分率均高于最邻近分类,而在耕地的分类上精度明显高于最邻近分类。结合原始影像分析,最邻近分类是通过某个样本在特征空间中最相邻的几个样本特征来归类,这种判断方法更加适合研究区林草地混杂的情况,而CART决策树分类可能在草地的分类中产生了过拟合现象。对于CART决策树而言,通过选取更多更精确的训练样本,对于较难区分的地类其错分率和误分率可以得到有效降低。而在耕地分类中,最邻近分类将少数耕地分为了水体是错误的,CART分类将少数其它土地(实际为废弃的水坑)分为了水体,结合影像来看是可以理解的。

表1 最邻近分类结果精度评价表Table 1 The accuracy evaluation of the nearest neighbor

表2 CART分类结果精度评价表Table 2 The accuracy evaluation of the CART decision tree

4 结论

目前面向对象分类方法中,CART决策树是一种高效准确的分类方法。在保证精确训练样本和有效特征空间构建的前提下,该方法能够准确高速对影像数据进行自动分类,并且取得较高的精度。尤其是在处理大数据量的影像数据中,该方法具有很大的应用价值。虽然CART算法能够自动选取特征及确定阈值,但是如何选取这种特征并没有详细的算法,而且过量的特征也会导致信息的冗余和分类速度的减慢,会出现过拟合导致分类精度的降低。本文经过其与最邻近方法的对比,利用其优化特征空间工具FSO,对分类特征进行初步优选,在保证分类精度的前提下,加快了运算速度,提高了工作效率。

猜你喜欢
训练样本决策树纹理
基于决策树和神经网络的高血压病危险因素研究
基于BM3D的复杂纹理区域图像去噪
人工智能
使用纹理叠加添加艺术画特效
决策树和随机森林方法在管理决策中的应用
TEXTURE ON TEXTURE质地上的纹理
决策树多元分类模型预测森林植被覆盖
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究
基于决策树的出租车乘客出行目的识别