王肖霞, 杨风暴, 梁若飞, 冯裴裴
(中北大学信息与通信工程学院,山西 太原 030051)
基于分割区域及特征相似度的玉米田遥感图像分类方法
王肖霞, 杨风暴, 梁若飞, 冯裴裴
(中北大学信息与通信工程学院,山西 太原 030051)
针对遥感图像中玉米田目标光谱复杂,同物异谱现象严重导致分类结果差的问题,提出一种基于分割区域及特征相似度的玉米田遥感图像分类方法。首先利用主成分分析法(PCA)对多光谱和高分辨全色融合图像进行第一主成分提取,以获得包含丰富图像信息的单色图像I;对I进行分水岭分割,得到一幅过分割目标区域图;构建由纹理、亮度及轮廓特征相似度组成的特征组;最后基于随机森林原理,利用构建的特征组对玉米目标进行提取。用高分一号卫星数据进行实验,并与支持向量机方法(SVM)、神经网络算法和最大似然算法进行了比较分析,实验表明,该方法的分类精度优于其他算法。
同物异谱;分割区域;特征相似度
遥感技术由于具有宏观、迅速的大范围监测能力,成为农作物种植面积监测不可或缺的技术手段,受到各国政府和专家学者的重视。但由于农作物类别的复杂性以及遥感信息的综合性,利用遥感进行农作物分类的精度仍难以达到运行化所需精度,兼顾精度和运算速度更加困难,且在没有地面数据支持的情况下,精度更难保证。因此,结合实际,深入研究农作物遥感分类方法中的一些关键技术,对于促进农业遥感监测技术的发展具有重要意义。
伴随着空间分辨率的提高,地物的几何信息得到加强,“同物异谱”现象严重,不解决该问题,可能降低分类精度。为了更加有效利用高分辨率卫星遥感数据的空间特征,结合纹理与光谱等信息的面向对象的分类方法得广泛应用。在现有研究中,Franklin和Peddle[1]发现SPOT-HRV数据的光谱特征与纹理特征相结合的方法大大改善了总体分类精度。Shaban和Dikshit[2]比较了GLCM、灰度差异直方图(grey-level difference histogram,GLDH)和总和与差异直方图(sum and difference histogram,SADH)提取纹理信息的方法,发现纹理和光谱特征的结合使用可以对分类精度有效的提高。Ren和Malik[3]提出基于分割对象的纹理特征进行分析来进行面向对象的分类,并取得了优于传统基于像元的分类精度。但是,对于一个特定的研究,确定合适的纹理、光谱等特征通常是困难,因为其随着研究地物和遥感影像的变化而变化。
本文通过分析高分一号卫星数据,结合实际地物分布特征,构建了包含相似度的纹理、光谱和轮廓特征,在面向对象分类技术的基础上,结合随机森林原理,针对玉米田遥感目标提出了一种基于分割区域及特征相似度的玉米田遥感图像分类方法,用以进行遥感图像玉米田的提取。经实验比较,本文方法在进行大面积玉米种植区的目标分类时,不仅能够有效区分不同地物,同时减少了玉米田复杂光谱信息对分类的影响,有效提高了玉米目标提取精度。
本文算法的具体实施步骤:①将GF-1遥感图像的8 m多光谱与2 m全色数据进行融合处理;②利用主成分分析法(principal component analysis,PCA)对①的结果图像处理获得第一主成分单色图I;③利用分水岭[4]方法对I作分割处理,获得超像素对象;④构建由纹理、亮度及轮廓特征相似度组成的特征组;⑤基于随机森林原理,利用构建的特征组对玉米目标进行提取;⑥实验分析。算法流程如图1所示。
图1 本文方法流程图
1.1 图像分割处理
引入“超像素”的概念,即分割出的每个图像块对象是由若干个像素组合而成。这些小区域对象内部各像元的亮度、纹理等信息有较好的一致性,且较好地保留了目标的边缘信息。
利用以数学形态学为基础的分水岭分割算法来获取超像素对象。此分割方法能很好地获得连续且封闭的目标边缘信息,并对微弱边缘也有较好的响应。
为了量化分割近似的程度,本文用基于轮廓的测量来证明超像素与人工分割结果的一致性,计算人工标记的边界有多少像素被超像素边界覆盖。通过设定分割参数得到,当阈值T=3,结果最佳。
如图 2所示,人工分割边界与超像素边界比为240:160,此时结果最佳。显而易见,随着超像素数目k的增多,这个比率在增大,但处理数据也会增多,影响处理效率。本文实验图像在k=1273时最有效。
图2 超像素个数与边缘比例间的关系曲线
1.2 构建特征集
对人工分割结果的样本区域构建特征集并评估这些特征的有效性,对每一个人工分割区域定义特征集Fj(j表示人工分割结果中的分割区域),特征包括:
(1) 纹理相似度。计算分割出的两个超像素区域的直方图的卡方距离(Chi-square measure,2χ距离)来表示区域间的纹理相似度,即:
其中,s表示人工分割结果的区域;q表示每个超像素对象;dT(q, s)为超像素q和人工分割结果s二者纹理直方图的 χ2距离;Psame(·)表示超像素在人工分割的玉米类区域内; Pdiff(·)表示超像素不在人工分割的玉米类区域内。
定义.①所有包含在人工分割出的玉米目标区域的超像素的纹理相似度和为:T内(s)=;②所有不包含在人工分割目标但和目标边缘有重合的超像素与人工分割目标的纹理相似度为:。如果某个超像素有多个外邻近的分割目标,取相似度的均值。
(2) 亮度相似度。每个区域的亮度描述算子是其亮度值的直方图。求区域直方图的 χ2距离,并取对数将其归一化。同样与(1)中纹理相似度计算一样,获得:①所有包含在人工分割出的玉米目标区域的超像素的亮度相似度和为B内(s);②所有不包含在人工分割目标但和目标边缘有重合的超像素与人工分割目标的纹理相似度为B外邻(s)。
(3) 轮廓能量。其计算在像素级进行。为了减少阴影渐变图像区域对区域边界的界定影响,本文利用方向能量来更准确地检测和确定这种复杂的边界。
可计算每个像素的方向能量OEθ:
其中,*表示卷积运算。θ =0°的时候,轮廓下最大响应为OE0º。通过旋转两个滤波核f1和f2可以在多个方向上筛选出复杂边缘对比度。本文的f1为高斯求导[5-6], f2为 f1的Hilbert变换。
如果OEθ大于或等于相邻所有像素在同一方向尺度下的值,则其最大值作为该像素的方向能量,否则用OE0º来表示。
经过非线性变换,转变为0到1之间的一个可能性数值:
σ与噪声带来的图像能量响应有关,本文根据图像目标及噪声类型选取 σ= 0.02。
与(1)、(2)类似,定义:①人工分割的目标区域边缘上所有像素的Pcon(x)的和为E外边缘;②人工分割的目标区域内所有超像素边界像素的Pcon(x)的和为E内。
1.3 目标分类方法
本文将玉米作物的提取问题归结为两类目标分类的问题(即玉米目标与非玉米目标)。这在统计学习中是最好的解决问题的方法。本文基于随机森林原理对GF-1号卫星图像中的玉米田进行样本训练与提取处理。
随机森林分类[7]是通过构建多棵决策树来完成目标分类的方法,其主要的思想是用拔靴法(bagging)从原始数据集中生成多个有差异的训练样本集,并在特征值随机选择的基础上完成对分类树的构建,最后对每棵树的决策结果进行投票得出最终的类别判定。本文的训练与分类过程如下:
步骤1. 利用bagging从超像素集合中有放回的每次取一个,本文根据超像素个数k抽取N= 800次,得到一个包含800个超像素的训练集;重复以上过程生成ntree个训练集(训练集中每个超像素是否属于玉米类时确定的)。
从理论上讲分类结果的准确率会随着ntree的个数增多而增加,但相应的处理数据量也随之增加,根据图像的大小本文选取ntree=100以平衡二者关系。
步骤2. 每个训练集会生成一个决策树。
(2) 分裂节点特征属性的选取原则:分裂成的两类数据集合的基尼不纯度[8]最小则利用该特征分裂节点。
步骤3. 对所有的ntree个训练集重复步骤1~2,生成ntree棵分类树,构成分类森林。
步骤4. 在对未知类别的超像素进行分类时,其输出的类别标签通是过对分类森林中树进行多数投票完成的。
在利用bagging从原始数据集中生成多个有差异的训练样本时,每次大约抽取 62%的原样本数据,其余的称之为袋外样本(out of bag,OOB)。通过对OOB样本进行相关分析来对分类精度及特征重要性进行评估。
通过对OOB样本分类,分析去除某一单个特征f前后随机森林的分类准确性,对某一特征f的重要性进行评估。特征f对每棵决策树t的重要程度表示为:
其中,ΦB表示OOB数据集合,, (xi, li)表示样本与样本所对应的类别,表示特征f去除前后对样本xi类别的判定,N(·)为计数函数。特征分类测度由式(5)对所有决策树的重要性程度求平均可得:
对特征重要性的计算既可以表示特征对分类精度的影响,同时可以表示和其他特征的相关性程度,某一特征的重要性计算结果越大,则表示此特征对分类精度的影响越大,且与其他特征的相关性较弱。
1.4 特征相关性分析
为了验证构建的特征内两相似度值对分类结果的重要性,本文利用每个特征内的不同特征值分别对分割目标进行提取,并与单个特征内两特征值联合结果进行精度比较,如表1~2所示。
表1 单个特征值玉米目标提取结果
表2 每个特征类别两特征值联合应用的目标提取结果
2.1 实验数据
本文对GF-1图像数据进行实验,研究区域为陕西省蓝田县影像数据。该图像包括 4个多光谱波段:蓝(0.45~0.52 μm)、绿(0.52~0.59 μm)、红(0.63~0.69 μm)和近红外(0.77~0.89 μm)波段,分辨率均为8 m(图3(a));1个全色波段(0.45~0.90 μm),分辨率为2 m(图3(b))。该区域地势平整,为玉米种植区,对进行玉米与其他背景目标的分类较适宜。
图3(c)是本文GF-1卫星遥感影像实验数据,其是由分辨率 2 m的全色图像(图 3(b))和分辨率8 m的多光谱图像(图3(a))融合[9]得到的,可见融合后的图像为更清晰的多光谱信息。图 4为融合结果经过PCA法获得的第一主成分单色图显示。提取的第一主成分包含了目标的主要信息,后期对其单色图处理,减少了处理的数据,提高了分类的效率。
图3 2 m全色与8 m多光谱图像融合结果
图4 PCA法获得的第一主成分单色图
2.2 实验与分析
通过选择与目标图中最小目标尺寸的分水岭分割阈值T=3,得到图5的过分割结果,包含超像素个数k=1273。从图中可以观察到,“超像素”在尺寸和形状上大致保持内部一致性。一些人工分割中考虑的结构特征会丢失,但是这些信息是次要的,比起目标信息还是占少量的。
图5 分水岭分割结果
图 6(a)为本文方法的玉米提取结果(白色代表玉米作物,黑色代表非玉类),通过与人工解译的目标区域样本图 6(c)(人工解译目标图像中标记区域代表玉米区域)进行比较,可以看出二者主观评价结果较好,并与人工分割的边界图6(b)进行比对分析,本文玉米提取结果较好。
图6 玉米提取结果
人工分割玉米标记数据是由专业人员结合影像目视解译与光谱特征分析获取的。首先利用GPS对部分样本玉米田进行边界打点,将坐标信息投射到GF-1号卫星图像上作为解译参考;再对整个样本区域进行人工解译;最后对解译结果进行野外调查,获得最终的参考样本数据。经表 3比较可以看出,本文玉米提取结果,面积误差率为5.95%,比较符合实际玉米田的面积统计。
表3 分类结果面积统计对比
将本文方法的实验玉米提取精度结果与支持向量机[10](support vector machine,SVM)方法、神经网络[11]方法和最大似然[12-13]方法精度对比,对比结果见表4,可以看出,本文方法在玉米提取精度上优于SVM、神经网络和最大似然3种方法。
表4 不同分类方法结果对比(%)
本文提出的基于分割区域及特征相似度的玉米田遥感图像分类方法,在对大面积玉米种植区目标进行分类时,不仅可有效区分不同地物,而且减少了“同物异谱”现象对分类结果的影响,对玉米目标的提取有较好的结果。为玉米田面积统计提供了有效帮助。
(1) 本文将目标图像进行过分割,过分割得到的超像素具有区域一致性,同时保持分割目标的结构特征。对获得的超像素进行处理,减少了处理的数据量,为快速、有效的进行目标提取提供了基础。
(2) 通过对玉米目标构建有效的纹理、亮度及轮廓的相似度特征,能有效对边缘相似区域进行判别,减少了“同物异谱”现象对分类的影响,使玉米提取更加准确。
(致谢:山西省农业遥感研究中心为本文提供了遥感图像,并在样本采集和人工解译方面给予了大力支持,在此表示衷心的感谢!)
[1] Franklin S E, Peddle D R. Classification of SPOT HRV imagery and texture features [J]. International Journal of Remote Sensing, 1990, 11(3): 551-556.
[2] Shaban M A, Dikshit O. Land use classification for urban areas using spatial properties [J]. Geoscience and Remote Sensing Symposium, 1999, (2): 1140-1142.
[3] Ren X F, Malik J. Learning a classification model for segmentation [J]. Computer Science Division, 2003, (1): 10-17.
[4] 郭 洪, 张清志. 增强图像细节和去噪能力的改进形态学分水岭算法[J]. 图学学报, 2013, 34(3): 7-13.
[5] Malik J, Belongie S, Leung T, et al. Contour and texture analysis for image segmentation [J]. International Journal of Computer Vision, 2001, 43(1): 7-27.
[6] Makkeasorn A, Chang N B, Li J H. Seasonal change detection of riparian zones with remote sensing images and genetic programm ing in a sem i-arid watershed [J], Journal of Environmental Management, 2009, 90(2): 1069-1080.
[7] 孙 杰, 赖祖龙. 利用随机森林的城区机载LIDAR数据特征选择与分类[J]. 武汉大学学报: 信息科学版, 2014, 39(11): 1310-1313.
[8] Ren X F, Malik J. A probabilistic multi-scale model for contour completion based on image statistics [C]//Computer Science Division Conferenceon. London: Springer-Verlag, 2002: 312-327.
[9] 杨风暴. 红外物理与技术[M]. 北京: 电子工业出版社, 2014: 180-245.
[10] 吴 军, 刘 荣, 郭 宁, 等. SVM 加权学习下的机载LIDAR数据多元分类研究[J]. 武汉大学学报: 科学信息版, 2013, 38(1): 1-5.
[11] Sziranyi T, Shadaydeh M. Improved segmentation of a series of remote sensing images by using a fusion MRF model [J]. Content-Based Multimedia Indexing (CBM I), 2013, (11): 137-142.
[12] Bencherif M A, Bazi Y, Guessoum A, et al. Fusion of extreme learning machine and graph-based optim ization methods for active classification of remote sensing images [J]. Geoscience and Romeote Sensing Letters, 2015, 12(3): 527-532.
[13] 宋瑞霞, 王也娜, 孙红磊, 等. 基于 V-矩的图像分类算法[J]. 图学学报, 2015, 27(3): 52-58.
A Corn Field of Remote Sensing Image Classification Method Based on Segmentation-Derived Regions and Feature Likeness
Wang Xiaoxia, Yang Fengbao, Liang Ruofei, Feng Peipei
(Information and Communication Engineering College, North University of China, Taiyuan Shanxi 030051, China)
Corn field remote sensing images have a mass of endmember spectral variability and complexity, that results in the bad classification of planting area. A corn field of remote sensing image classification method based on segmentation-derived regions and feature likeness is proposed. First, principal component analysis (PCA) is used to extract the first principal component from the fusion image which is fused by the panchromatic and multi-spectral image, to acquire the monochromatic image I which contains rich information. Then, do a Watershed segmentation to I, we can get a graph of a split target area. Then build characteristic group which is composed of texture, brightness and contour feature likeness. At last Based on the principle of random forests, extract the corn target using the characteristic group. With the testing using GF-1 satellite remote sensing data and the results comparison analysis of the support vector machine (SVM), neural network algorithm and maximum likelihood algorithm, it shows that the classification accuracy of this method is superior to other algorithms.
endmember spectral; segmentation-derived regions; feature likeness
TP 751.1
10.11996/JG.j.2095-302X.2016030428
A
2095-302X(2016)03-0428-06
2016-02-25;定稿日期:2016-03-28
王肖霞(1980–),女,河北石家庄人,讲师,博士。主要研究方向为不确定性信息处理、遥感图像处理、系统的可靠性分析等。
E-mail:wangxiaoxia@nuc.edu.cn