万曙静,张承明,刘俊华
(1.中国测绘科学研究院政府地理信息中心,北京100083;2.山东农业大学信息科学与工程学院,山东泰安271018;3.山东省农科院,山东 济南250100)
多光谱遥感图像是土地利用应用中主要的数据源,针对多光谱遥感图像的根本特点研究适宜的分类算法,是获取高精度土地利用信息主要手段。
20世纪80年代,主要是利用统计模式识别方法进行遥感图像的计算机分类[1]。20世纪90年代期间至今,涌现出了大量的遥感图像分类方法,如人工智能分类法、遥感与GIS结合法、面向对象的分类法、复合分类法等都取得较好的效果[2]。Dixon等将支持向量机法用于TM影像土地利用分类取得了最好的分类精度。Wardlow等在美国中央大平原采用决策树分类方法进行农作物分类,取得了优于80%的总体分类精度。陶超等[3]针对高分辨率遥感影像中“同谱异物”现象提出一种基于概率潜在语义模型的高分辨率遥感影像分类方法。李刚提出了基于高维云模型和改进RBF神经网络的不确定性分类技术[4]。传统的遥感图像分类方法在自动化、智能化和分类精度方面不能令人满意[5];基于神经网络的遥感分类技术尽管具有容错能力好、自适应性强等优点,但在实际应用中存在着结构选取困难、局部收敛过快、学习过程难以控制等问题,导致其并不完全优于传统的分类技术;基于决策树的分类方法对边界处理不太理想[6-7]。
本文根据多光谱遥感图像的根本特点,综合考虑土地利用分类的速度和精度,提出一种引入自适应最小距离调整的分类方法,以期更好地满足实际生产的需要。
现有遥感分类方法对如何提高聚类中心的生成研究较多,而在判定待分类像元的归属问题上,多采用先计算待分类像元与所有聚类中心的距离,再将其归入距离最小的一类的方式,从而导致分类精度难以提高。
理想条件下,遥感图像上代表同类地物的像元特征向量将分布在同一特征空间区域;而不同的地物由于特征向量不同,应分布在不同的特征空间区域上,则对一个有b个波段待分类遥感图像,图像中任何一类地物在任一个波段中只有一个灰度值范围,对于某个地物类c,可以获取该类的像元在各个波段上的取值集合,如图1所示。
图1 理想条件下光谱范围示意图
对于类别c的某一波段i,以li表示其灰度值的下界,以hi表示其灰度值的上界,则在第i波段上,灰度值的中心mi值为:,以此为基础,可以定义为该类的中心特征向量,利用中心特征向量来更好地描述聚类中心的自适性变动情况。以ri表示波段i相应的允许误差半径,根据上述分析,ri的值为可以将所有的波段最大允许误差构成的向量称为有效半径向量。对于一个欲分入c类的像元x,逐一比较每个波段上的灰度值与中心特征向量相应分量的距离,如果距离都不超过相应允许的半径,则将其归为c类。
“同物异谱”现象是由于同类地物由于种种原因,在某些波段或全部波段上的值偏差过大,从而导致该类的特征向量在特征空间上分布过于分散,难以像期望的归于同一个集群中。为了更好地说明这个问题,现在以一个二波段图像的分类为例进行解释,假设该图像将被分为A、B两个类,每个类的像元分布如图2所示。
图2 “同物异谱”导致分类错误的示意图
在图2中,由于类B的像元分布在两个区域,生成的聚类中心与两个区域的距离过大,从而导致识别的范围(即大椭圆)过大。作为一种较为极端的情况,另一类别A的区域反而被包围在了B的识别范围,矩形包围的一部本应分为A类的像元,被错误地分为B类。
从以上分析可以看出,聚类中心及识别半径过大导致两个聚类中心的识别范围相交,是分类精度降低的根本原因。为此,可以通过自适应最小距离调整,对聚类中心进行分裂,消除识别范围相交,则可以有效地提高分类精度。
基于第2节中的方析,给出自适应最小距离调整的方法为:在样本学习结束后,对聚类中心进行相交性判断,如果根据两个聚类中心的识别半径生成的范围相交的部分,则说明需要对聚类中心进行分裂。具体的分裂步骤是:
1)对生成的聚类中心两两计算,判断两个聚类中心是否相交,如果相交,则按下一步处理。
2)对于两个聚类中心中识别范围过大的一个进行分裂。从待分裂的类的样本中任选一个样本,随机选取一个小于原来最大识别距离的值作为阈值,将样本分为不同的子集,对每一个分别进行学习,产生各自的聚类中心,并与未分裂的类进行相交性判断,如果仍存在某个子集的聚类中心与其有相交的情况,则再选一个更小的阈值进行,重新进行分裂。
算法使用k-means算法对聚类中心进行分裂,每次分解为两个子集,并以二叉树方式进行样本集合分裂。每一类生成一棵二叉树,称为该类的子集树。二叉树的一个节点对应一个球体,记录每个球体的球心半径,以及对应的样本子集。球体的中心定义为该节点上样本子集的中心,半径是该节点上的样本点到球心欧氏距离的最大值。由一个节点的子集细分得到的球体则表示为该节点的两个子节点。
自适应最小距离分类器对待分类点i的分类步骤如图3所示。
图3 自适应最小距离分类算法流程图
1)求出该点到各类对应的子集树的距离D。待分类点P到子集树T的距离D(T,P)定义为:①如果P到T的根节点对应的球心欧氏距离d大于该节点球体的半径的两倍,则忽略该节点细分得到的所有小球,并令D=d;②如果T的根节点已经是叶节点,则令D=d;③ 若A、B均不满足,则D递归定义为P到T的左右子树T1,T2的距离D1,D2的最小者。
2)将距离D最小的一子集树的类号赋予待分类点。
距离计算中使用了二叉树查找,使得只有一部分节点参与距离D的求取,可以有效降低实际参加计算d的数并不多,保证了在样本数量增大或者细分得到球体增多的情况下计算量不会增加很多。
本文选取山东省莱芜市雪野流域作为研究区。选取水体、林地和裸露土壤3种差异较大的土地利用类别进行分类比较。
试验所用的数据源为分辨率为30m的ETM+影像,共8个波段,大小为1500像素×1200像素,获取时间为2007年5月31日。
从图4分类结果来看,采用最小距离法分类时,待分类像元数目明显增多,待分类和林地混分的现象较为严重,水体受阴影影响存在错分现象。K近邻法可以很好地区分水体和祼露土地,但是对于林地却不能很好地识别,有一部分林地被错分成水体。最大似然法虽然对水体的分类效果较好,但林地、裸露土壤错分为待分类现象严重。K近邻法可以很好地区分水体和祼露土地,但是对于林地却不能很好地识别,有一部分林地被错分成水体。BP神经网络法对各类分类都有较好的效果,但是仍然有一部分植被类别未被区分出来。分类精度如表1所示。
图4 雪野水库分类结果
表1 常用分类方法分类精度
使用自适应最小距离分类方法分类时,其试验结果如图5所示。
图5 雪野水库分类结果图
不同训练样本及类别模式的分类精度如表2所示。
表2 不同训练样本及类别模式的分类精度
对比不同方法的分类结果,可以看出,利用本文方法进行分类,结果中的待分类像元明显减少,精度平均提高1.06%。
本文在建模分析分类问题的基础上,提出了一种基于最小距离自适应调整实现聚类中心分裂的方法。通过试验与传统分类方法作比较,该方法能够有效提高分类精度,解决了分类方法中识别范围相交导致分类精度难以提高的问题。结果证明了本方法的有效性和可靠性。
[1]罗来平.遥感图像分类中模糊模式识别和决策树方法的应用研究[D].北京:首都师范大学,2006.
[2]史泽鹏,马友华,王玉佳.遥感影像土地利用/覆盖分类方法研究进展[J].中国农学通报,2012,28(12):273-278.
[3]陶超,谭毅华,彭碧发.一种基于概率潜在语义模型的高分辨率遥感影像分类方法[J].测绘学报,2011,40(2):155-161.
[4]李刚,万幼川.基于高维云模型和RBF神经网络的遥感影像不确定性分类方法[J].测绘科学,2012,37(1):115-118.
[5]钱茹茹.遥感影像分类方法比较研究[D].西安:长安大学,2007.
[6]贾坤,李强子,田亦陈.遥感影像分类方法研究进展[J].光谱学与光谱分析,2011,31(10):2618-2623.
[7]郭亚琴,王正群,乐晓容.基于自适应距离度量的最小距离分类器集成[J].计算机应用,2006,26(7):1703-1706.