基于规则的遥感影像分类方法研究

2015-04-20 17:27陈丽萍黄森旺
关键词:编辑器训练样本决策树

陈丽萍 黄森旺

摘要:介绍了决策树C4.5算法,并利用该算法实现了对遥感数据规则的挖掘,在此基础上设计并实现了针对于C4.5规则的编辑器,通过该编辑器能够实现对规则的编辑与管理。规则编辑器的设计与实现,为在分类过程中人工的干预提供了可能。将人工干预与基于数学理论规则的自动提取相结合,尤其是在地形较复杂的地区,将有利于分类精度的提高。利用黄山市LandSat TM影像,进行了基于C4.5算法自动提取规则的遥感影像分类实验。实验结果表明,利用C4.5算法提取的分类规则准确率高,利用提取的分类规则进行的遥感影像分类效果较好。

关键词:遥感; C4.5算法;规则;分类

中图分类号:TP75文献标志码:A文章编号:1672-1098(2014)04-0046-05

遥感图像包含了大量丰富的信息资源,它是探测地物目标最丰富、最直观的信息载体[1-2]。随着遥感技术的发展,遥感信息在国民经济及科学研究中的作用越来越受到各个行业的重视。而利用遥感图像获得遥感信息的一个重要的中间环节就是遥感图像分类。遥感图像分类是指按照一定的规则或算法,根据光谱亮度、空间结构等特征将象元划分为不同的类别[3]。遥感图像分类是专题制图的基础也是遥感应用研究的基础,在遥感影像的处理过程中处于重要的地位。它的精度直接影响到生产遥感影像各种产品的质量。而在进行分类的过程中,遥感图像处理的各个环节中,分类规则的建立至关重要。分类质量好坏的关键在于是否有高质量的分类规则。好的分类规则,能提高分类精度,反之建立的分类规则不合理,将会影响分类的精度[4-6]。

基于以上原因,本文主要是针对在分类过程中建立分类规则的方法进行研究。通过利用研究区影像提取的分类规则,对其进行分类,通过分类精度来对提取的分类规则的准确度进行评价。并设计出规则编辑器,通过该编辑器能够实现对规则的编辑,以达到人工干预的目的。将分析者的分类经验与基于规则的自动提取相结合,进而达到提高规则准确率,提高分类精度的目的。

1分类规则的提取方法

基于规则的遥感影像分类方法主要包括:训练样本的选择、分类规则的建立、影像分类。其中最关键的是分类规则的提取。分类规则制定的准确程度严重影响到后续分类的精度。规则的定义是将知识用数学语言表达的过程,可以通过经验总结获得,但这对分析者的分类经验及地学知识有较高的要求;也可以通过一定的算法获取。通过算法提取的分类规则,具有一定的数学理论基础,相较于经验获取的规则,具有一定的严谨性。但是在地形较复杂的地区,如若将基于数学基础自动建立的规则与人为经验相结合,制定的规则将更具有准确性。本文将基于决策树C4.5算法开发规则编辑器,实现了规则提取过程中人工干预与自动提取的结合。

1.1C4.5算法

C4.5(classification 4.5)算法[7-16]是Quinlan在1993年提出的,它是模式识别中十分经典的算法。它是在ID3算法的基础上发展而来的。C4.5算法对ID3算法进行了改进,之后它成为了诸多算法的基础。C4.5算法在单机应用中,不仅分类准确率高而且速度快。

在C4.5算法中,它的分裂指标采用的是信息增益率(information gain ratio)而非ID3算法中采用的信息增益。用信息增益率作为分裂指标,克服了用信息增益来选择属性时偏向选择值多的属性的不足。在ID3算法的基础上,C4.5算法不仅增加了了对连续型属性和属性值空缺情况的处理,对树剪枝也有了较成熟的方法。

1) 用信息增益率来选择属性。生成决策树过程中的关键是确定分裂指标。C4.5算法中分裂指标确定的基本思想是比较各训练样本数据中属性信息增益率的大小,取其中信息增益率最大的但又不低于所有属性平均值的属性作为的一个分支节点,然后再将每一个可能的取值作为这个节点的一个分支,递归地形成决策树。

在C4.5算法中作为属性分裂指标的信息增益率定义为

GainRatio(S,A)=Gain(S,A)SplitInformation(S,A)

式中:Gain(S,A)与ID3算法中的信息增益相同,而分裂信息SplitInformation(S,A)代表了按照属性A分裂样本集S的广度和均匀性。

SplitInformation(S,A)=-∑ci=1|Si||S|log2|Si||S|

式中:S1到Sc是c个不同值的属性A分割S而形成的c个样本子集。

2) 可以处理连续数值型属性。若存在连续的描述性属性,首先必须将该连续性属性分割为离散的区间集合,对其进行离散化处理。

C4.5既可以处理离散型属性,也可以处理连续性属性。在选择某节点上的分枝属性时,对于离散型描述属性,C4.5的处理方法与ID3相同,按照该属性本身的取值个数进行计算;对于某个连续性属性Ac,假设在某个结点上的数据集的样本数量为total,C4.5将作以下处理:

a) 将该结点上的所有数据样本按照连续型描述属性的具体数值,由小到大进行排序,得到属性值的取值序列{A1c,A2c,……Atotal}。

b) 在取值序列中生成total-1个分割点。第i(0

c) 从total-1个分割点中选择最佳分割点。对于每一个分割点划分数据集的方式,C4.5计算它的信息增益比,并且从中选择信息增益比最大的分割点来划分数据集。

3) 采用了一种后剪枝方法。为了避免树的高度无节制的增长,避免过度拟合数据,C4.5采用了一种后剪枝方法。该方法使用训练样本集本身来估计剪枝前后的误差,从而决定是否真正剪枝。方法中使用的公式如下

pr[f-qq(1-q)/N>Z]=C(3)

其中:N是实例的数量; f=E/N为观察到的误差率(其中E为N个实例中分类错误的个数);q为真实的误差率;c为置信度;z为对应于置信度c的标准差,其值可根据c的设定值通过查正态分布表得到。

通过该公式即可计算出真实误差率q的一个置信度上限,用此上限为该节点误差率e做一个悲观的估计

e=f+z22N+ZfN-f2N+z24N21+z2N(4)

通过判断剪枝前后e的大小,从而决定是否需要剪枝。

4) 对于缺失值的处理。在某些情况下,样本中可供使用的数据可能缺少某些属性的值。处理缺少属性值的一种策略是赋给它结点n所对应的训练实例中该属性的最常见值;另外一种更复杂的策略是为A的每个可能值赋予一个概率,通过它分配到某个类别的概率值来进行类别的分配。例如,实例S,给定一个布尔属性A,如果结点n包含6个已知A=1和4个A=0的实例,那么A(x)=1的概率是0.6,而A(x)=0的概率是0.4。于是,实例S的60%被分配到A=1的分支,40%被分配到另一个分支。这些片断样例的目的是计算信息增益,另外,如果有第二个缺少值的属性必须被测试,这些样例可以在后继的树分支中被进一步细分。C4.5就是使用这种方法处理缺少的属性值。

1.2规则编辑器的设计与实现

在基于规则的遥感影像分类方法中,对规则的组织与管理十分重要。本文依据决策树C4.5算法,以VS2008和C#为开发环境,设计并实现规则管理系统,规则编辑器中的规则是以树结构的形式来表示的,在分类规则建立的过程中,为人工干预提供了方式和途径。

1) 系统设计。规则管理系统主要包括对规则的一些常规管理操作(打开、新建、撤销、重做、保存)和对规则的编辑操作(添加分支节点、添加叶子节点、对分支进行编辑)两大部分。

2) 系统模块介绍。规则编辑器系统界面如图1所示。通过该系统,可以实现对规则的各种操作与管理。可以重新建立与制定新的规则集,也可以对规则集进行修改。利用此编辑器可以对利用C4.5算法提取的规则进行人工干预,以求得到最优的分类质量。

3) 系统功能介绍。①常规编辑管理,主要包括对规则集的一些最基本的操作,包括新建、打开、撤销、重做、删除、保存等操作。通过这些操作,可以实现对规则的管理;②规则编辑功能,主要包括添加分支节点、添加叶子节点、编辑等操作。通过这几个功能可实现对规则的修改等操作,进而实现人工干预。规则编辑功能界面如图2所示。

图1规则管理系统界面图2规则编辑操作界面

2实验数据

为了验证C4.5算法提取的规则的准确度,本文利用其对遥感影像提取的规则进行了分类实验。采用黄山市LandSat TM影像作为数据源,影像获取日期为2009年11月4日,该影像共7个波段(B1、B2、B3、B4、B5、B6、B7),其中B6波段空间分辨率为120 m,其余波段空间分辨率为30 m。并对影像进行了几何校正,误差在一个像元以内。然后利用感兴趣区域对影像进行裁剪,获得试验区影像,图4(左)为试验区第4、3、2波段的RGB彩色合成影像。

图3分类规则

3实验结果与分析

3.1训练样本的选择

C4.5算法对训练样本的质量要求很高,只有应用高质量的训练样本进行训练才能得出可信度很高的分类规则。本试验是在ENVI中调入试验区LandSat TM影像(见图4(左)),同时参考研究区的SPOT影像,人机交互的选择训练样本。对于截取的试验区按照森林(Class 1),裸地(Class2),水体(Class 3),其它水面(Class 4),其它用地(Class 5)划分为5个地物类别,共选取813个训练样本。

3.2规则的提取

在利用C4.5算法对遥感影像进行归纳学习之前,首先要确定学习的测试变量和目标变量。用试验区TM影像的7个波段的灰度值(B1、B2、B3、B4、B5、B6、B7)为测试变量,森林、裸地、水体、其它水面和其它用地为目标变量。

首先将选择的训练样本文件转换为ASCII格式, 再利用excel处理ASCII数据文件, 使之满足C4.5归纳学习所要求的数据结构格式。利用C4.5算法自动建立决策树必须建立两个后缀分别为data和names的文件, 这两个文件必须同名, 且必须保存在同一个文件夹中。 其中data文件是训练区样本点的条件属性及所属类别构成的数据文件, 而names文件主要是对属性的名称和类型的定义。 本文在基于C4.5算法对试验区遥感影像进行知识挖掘后, 挖掘出的本试验区所有规则如图3所示。 将C4.5提取的规则应用到分类模型中, 实现对研究区TM影像的分类,其分类结果如图4(右)所示。

图4待分类图像(左)及分类结果图(右)3.3分类精度评价

为了更好地分析基于C4.5算法提取的分类规则的准确度,本文对分类结果进行了精度评价精度。本文采用的是基于混淆矩阵的方法[17]对遥感影像进行分类结果的评价,精度评价结果如表1所示。其中检验数据是综合参考同一地区高分辨率遥感影像与目视解译相结合,随机选取的检测样本。

从分类结果以及精度评价表可以看出,利用C4.5算法提取的规则进行的分类,其结果是令人满意的。其中对水体和其它水面的分类精度最高,达到了100%。对其它用地的分类精度最低,只有70.19%,分析原因可能是因为地形因素的影响。如若在这些地形较复杂的区域,对分类规则加入集合了人为分类经验的人工干预,在此基础上可能会使分类精度得到提高。表1试验区基于C4.5算法分类精度评价结果

类型森林裸地其它水面水体其它用地总和森林1288001137裸地91130041163其它水面5016006171水体0001490149其它用地101500113138总和152136160149161758生产者精度/%84.2183.08 100.00 100.00 70.19 用户精度/%87.0279.60 95.81100.00 89.68总精度:87.496 0%kappa系数:0.862 3注:表中“森林、裸地、其它水面、水体、其它用地、总和”表示象元的个数

4结论

本文在研究C4.5算法的基础上,利用其对遥感数据进行了规则挖掘,并根据其生成的规则形式,设计与实验了规则编辑器,为人工干预与理论规则的结合提供了方式和途径。在利用C4.5算法自动提取规则的分类实验中,实验结果验证了利用该算法挖掘出的规则正确率高而且运行速度快,利用提取的规则进行的遥感影像分类结果令人满意。虽然基于C4.5算法提取的规则在遥感影像分类中显示出了巨大的潜力,但以下问题需要进一步研究:(1)当某一类别产生多条规则时,如何判别出最优规则。(2)在地形较复杂的地区,如若将C4.5算法自动提取的规则与人工干预相结合,能否得到较高、较理想的分类精度。这些都将是后续所要进行实验研究的内容。

参考文献:

[1]杨桄,刘湘南,张柏,等. 基于多特征空间的遥感信息自动提取方法[J]. 吉林大学学报:地球科学版, 2005,35 (2) : 257-260.

[2]潘琛,杜培军,罗艳,等.一种基于植被指数的遥感影像决策树分类方法[J].计算机应用,2009,29(3):777-798.

[3]赵英时.遥感应用分析原理与方法[M].北京:科学出版社,2003:10-200.

[4]术洪磊,毛赞猷.GIS 辅助下的基于知识的遥感影像分类方法研究—以土地覆盖/土地利用类型为例[J].测绘学报,1997,26(4) :328-332.

[5]张健康,程彦培,张发旺,等.基于多时相遥感影像的作物种植信息提取[J].农业工程学报,2012,28(2):134-141.

[6]吴健生,潘况一,彭建,等.基于QUEST决策树的遥感影像土地利用分类-以云南省丽江市为例[J].地理研究,2012,31(11):1 973-1 980.

[7]QUINLAN J R.C4.5:Programs for Machine Learning[M].San Mateo, CA: Morgan Kaufmann,1993:1-25.

[8]张桂杰.数据挖掘决策树分类算法的研究与应用[D].长春理工大学硕士论文,2005.

[9]HAN JIAWEI,KAMBER M. Data mining: Concepts and Techniques[M]. Beijing:Beijing Higher Education Press, 2001:285-358.

[10]刘莺迎.决策树分类算法的分析和比较[J].科技情报开发与经济,2008(2):65-67.

[11]吉根林.决策树分类技术研究[J].计算机工程,2004,9(30):94-98.

[12]唐华松,姚耀文.数据挖掘中决策树算法的探讨[J].计算机应用研究,2001(8):18-22.

[13]姜丽华,杨晓蓉.基于决策树分类技术的遥感影像分类方法研究[J].农业网络信息,2009(10):34-42.

[14]刘勇洪,牛铮,王长耀.基于MODIS数据的决策树分类方法研究与应用[J].遥感学报,2005,9(4):405-412.

[15]吴寒.基于粗糙集的决策树算法研究与改进[D].哈尔滨工程大学硕士论文,2008.

[16]夏琰.数据挖掘决策树分类算法的研究与应用[D].吉林大学硕士论文,2008.

[17]CONGALTON R G.A review of assessing the accuracy of classifications of remotely sensed data[J].Remote Sensing of Enviroment,1991,37(1):35-46.

(责任编辑:李丽,范君)

猜你喜欢
编辑器训练样本决策树
人工智能
一种针对不均衡数据集的SVM决策树算法
你距离微信创作达人还有多远?
决策树和随机森林方法在管理决策中的应用
车辆段收发车运行图编辑器的设计与实现
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用