陈军丽,黄睿
(上海大学 通信与信息工程学院,上海 200444)
高光谱影像因能提供精细的地物光谱曲线和空间特征,在精准农业、城市规划、目标检测等方面有极大的应用能力。
高光谱影像分类是高光谱数据分析的基础应用,目前已经提出多种分类方法,如:支持向量机(support vector machine,SVM)[1]、多项逻辑蒂斯回归(multinomial logistic regression,MLR)[2]、随机森林[3]、神经网络[4]和主动学习[5]等。然而,随着成像仪空间分辨率的提高,“同物异谱”和“同谱异物”现象凸显,仅利用地物光谱特征的分类方法已无法满足需求。因此,结合光谱与空间特征的分类方法近年来成为研究热点[6-7],出现了基于灰度共生矩阵、马尔可夫随机场、小波变换、形态学理论等多种空间特征提取方法。其中,形态学属性剖面(attribute profiles,AP)特征因能有效反映目标的尺寸、纹理、光谱等信息,在使用过程中体现出较好的分类性能,被广泛应用于高光谱影像分类[8-10]。
依据属性滤波的不同,形态学属性剖面可以提取4种属性特征(即面积、外接矩形对角线长度、惯性矩和标准差),但单一的属性特征难以全面反映地物特性,需要考虑多种属性特征的融合。当前,特征的融合主要发生在特征级和决策级。将不同特征经归一化后直接连接为一个长特征,是最直接简单的特征级融合方法[9]。另一种方法是对产生的长特征进行特征提取,获得具有更好判别性的低维特征[11-12]。在决策级融合中,首先根据单一特征进行分类,接着将不同分类结果按一定准则进行融合。Huang Xin等[13]提出p-fusion方法,利用后验概率估计对不同分类结果的可靠性进行评估,但其方法在融合的过程中未考虑特征的适应性。在此基础上,张春森等[14]改进了可靠性评估方法,并基于训练样本分类精度引入特征权重,但其可靠性评估的过程计算存在意义不明确的问题。
鉴于此,本文提出的基于属性剖面多特征概率融合的方法定义了新的可靠性度量准则,并基于样本分类精度估计每种特征的重要度权值,两者结合建立概率融合模型,获得最终分类结果。方法通过决策融合将不同的形态学属性特征有效结合起来,高光谱影像分类实验表明,与已有决策融合方法相比,所提方法具有更好的性能。
本文所提算法主要由3个部分构成。首先通过主成分分析(principal component analysis,PCA)获得高光谱数据的降维影像,并在降维影像上提取面积、外接矩形对角线长度、惯性矩和标准差等4种特征;然后基于单个特征实现分类,获得样本分类结果以及后验概率;最后通过后验概率计算每种特征的分类结果可靠性,并基于样本分类精度估计每种特征的重要度权值,结合可靠性和重要度权值建立概率融合模型,获得最终分类结果。总体的流程如图1所示。下面将主要对AP特征提取以及概率融合模型进行介绍。
图1 所提算法流程
属性剖面滤波是形态学滤波的扩展,它把传统形态学运算的结构元素替换为一般性的属性准则,能更有效地反映地物的结构特性。属性剖面滤波操作基于给定参考阈值λ,评估灰度图像I中相连成分的属性值。例如,记图像的相连成分为Ci,I(Ci)为图像I中连接部分Ci(连接的像素区域)的值,如果属性值AP(I(Ci))大于阈值λ,(即AP(I(Ci))>λ),则这一区域将被保留;反之,把该区域值Ci设置为最近邻灰度区域的灰度值,从而将Ci合并到周边子块[10]。如果被合并到的区域灰度值较低,则这一过程称为图像的变薄变换,反之称为增厚变换。
设高光谱影像经PCA降维,保留M个主成分。对于第m个主成分影像Im,提取的形态学属性剖面特征为:
AP(Im)=φn(Im),…,φ1(Im),fm,γ1(Im),…,γn(Im)
(1)
式中:φi和γi分别代表属性增厚和变薄转换操作(i=1,…n)。由此可得到M个主成分影像的形态学属性剖面特征(即扩展形态学属性剖面特征,Extend AP):
EAP=AP(I1),AP(I2),…,AP(IM)
(2)
图2为对高光谱影像的第一主成分提取4种属性特征的示意。参考文献[10],阈值选取为λa=100、λd=10、λs=20以及λi=0.2。
图2 AP特征提取举例
定义基于第f组特征将测试样本xi分到第c类的可靠性为:
(3)
同时,考虑到不同的属性特征对高光谱影像分类性能的影响不同,借鉴文献[13],定义第f组特征对第c类的重要度权重为:
(4)
基于分类可靠性和特征重要度权重,样本xi的最终所属类别由以下融合模型确定:
(5)
实验采用Indian Pine和Pavia University 2个广泛使用的高光谱数据集。Indian Pine数据集是由机载可见近红成像光谱仪(airborne visible infra-red imaging spectrometer,AVIRIS)在美国印第安纳州西北农业种植区获取的。该图像包含220个波段,空间分辨率为20 m,光谱范围为0.4~2.5 μm,图像大小为145像素×145像素,共有16种地物类别,标记样本个数为10 366。为消除噪声的影响,去除被水体吸收的20个波段,只留下200个光谱波段的数据用于实验。数据集Pavia University是由反射光学系统成像光谱仪(reflective optics system imaging spectrometer,ROSIS)在意大利Pavia市的Pavia大学获取的。此数据集包含115个波段,光谱范围为0.43~0.86 μm,空间分辨率为1.3 m,图像大小610像素×340像素,包含9种地物类别,标记样本个数为42 776。图3和图4分别给出了2个高光谱数据集的伪彩色图、以及标记样本类别和分布状况。
图3 Indian Pine高光谱数据集
图4 Pavia University高光谱数据集
实验对比了所提算法与p-fusion[13]和文献[14]方法的性能。在融合前均采用形态学属性滤波,提取4种AP特征,其阈值选取与文献[10]相同,有:
(1)像素标准差准则(std):
λs=[20304050];
(2)面积准则(area):
λa=[1005001 0005 000];
(3)惯性矩准则(inertia):
λi=[0.20.30.40.5];
(4)外接形状准则(diagonal):
λd=[102050100]。
为减少计算量,在提取AP特征前采用PCA对高光谱影像进行降维,要求保留的主成分分量包含的累计特征值比率达到99%。因此,对于Indian Pine和Pavia University数据集分别保留4个和3个主成分分量。
为验证所提算法(记为aps-fusion)的有效性,我们比较了纯光谱分类方法(记为spec)、4种基于单个特征的方法(分别记为std、area、diagonal和inertia)、2种决策级融合方法p-fusion[13]以及文献[14]的方法。由于SVM以统计学习理论为基础,在解决小样本、非线性及高维模式识别问题中表现出了许多特有的优势,是当前高光谱影像分类中的常用分类器。故本实验所有算法均采用SVM分类器。核函数为高斯函数,相关参数采用5倍交叉验证确定。对于2组数据集,从每个类别中随机抽取10个样本作为训练样本,余下样本均作为测试样本。精度评价指标包括总体精度(overall accuracy,OA)、平均精度(average accuracy,AA)和Kappa系数。
表1和表2分别给出了2个数据集在8种算法下的性能比较结果。其中,所有的指标均为10次运行的平均值。对于Indian Pine数据集,特征权重的参数τ设为0.075。从中可以看出,当仅依靠纯光谱波段分类时,精度最低,OA只有18.60%。这说明在训练样本数量很有限时,纯光谱分类难以得到满意结果。当引入AP特征后,分类精度得到显著提升。在4种单一特征中,面积属性特征获得最好的分类精度,OA达到79.70%。而3种融合方法集成了4种属性剖面的特性,均得到更好的分类结果。其中,本文方法获得最高精度,OA、AA和Kappa系数分别达到83.41%、89.05%和0.810。对于Pavia University数据集,特征权重的参数τ设为0.5。从表2中同样可以看出,纯光谱分类的精度最低;当结合AP特征后,精度得到提升;当采用多特征融合方法时,精度进一步提高,其中本文方法获得最佳的分类性能。
图5进一步给出了5种算法对Pavia University数据集的分类结果。可以看到,本文提出的算法aps-fusion取得了最好的分类效果,地物的错分情况最少。
表1 Indian Pine数据集不同算法的精度比较
表2 Pavia University数据集不同算法的精度比较
图5 Pavia University数据集的5种方法分类结果图
基于形态学属性剖面的特征能反映地物的空间结构特性,取得了较好的分类性能。但不同的属性剖面特征对地物特性的描述侧重点又有不同。本文提出一种融合多种属性剖面特征的高光谱影像分类方法。方法在分别提取高光谱影像4种AP特征并进行分类的基础上,利用样本的后验概率估计值和分类精度计算不同特征的分类可靠性以及重要度权值,两者结合建立基于概率的决策融合模型,获得高光谱影像的最终分类结果。2个公共高光谱影像数据集的分类实验表明,多特征融合算法的性能普遍优于使用单特征的算法;其中,所提融合算法与其他融合算法相比,分类精度得到了进一步提升。