基于优势集聚类和马尔科夫随机场的高光谱图像分类算法

2019-06-10 09:25曲海成郭月王媛媛

自然资源遥感 2019年2期

曲海成，郭月，王媛媛

(辽宁工程技术大学软件学院，葫芦岛 125105)

0 引言

随着高光谱遥感技术迅速发展，成像光谱仪能够捕获地表物质精准的光谱响应和空间细节特征。通过有效分析与利用丰富的地表物质信息，可对遥感地物进行更细致的分类[1]。然而，高光谱图像中丰富的光谱信息意味着其波段数量(维数)较多，波段间信息冗余和高度相关不可避免。另外，由于高光谱图像标记样本成本昂贵，分类所用的训练样本数量有限且维数较高，如果直接对高光谱图像数据集进行分类，易发生Huges现象[2-3]。因此，降维处理通常作为高光谱图像分类的预处理环节。高光谱图像降维方法通常分为特征提取和波段选择2大类。特征提取方法是以数据变换的形式实现对光谱数据的降维(如主成分分析、独立成分分析)。而波段选择(也称特征选择)则是直接从原始高光谱数据上百个波段中挑选出有效且有意义的波段子集。与特征提取方法相比，波段选择方法选取的波段子集，保留了原始波段的物理意义与地表物质的原始光谱特性，易于解释[4]。

波段选择方法根据是否需要样本标记信息可分为监督和无监督2大类。监督波段选择方法需要已知的样本标记信息进行训练学习，可明确地选择含有地物重要信息的波段，如光谱角度制图法、光谱混合距离法和光谱相关系数法等。然而在实际应用中，高光谱图像可用的标记样本信息有限，因此，在这种情况下无监督波段选择方法更适用[5-6]。由于不需要样本标记信息，无监督波段选择方法通常基于聚类的方式对高光谱图像进行波段选择。在众多聚类算法中，优势集聚类算法[7-13]是由优势集理论[10]产生的一种基于图论的聚类算法，在各领域应用中展现出良好的聚类性能，如图像分割[11]、目标检测[12]和人类活动分析[13]等。Hou等[8]提出基于优势集的简单特征组合方法，该方法利用优势集聚类对支持向量机分类器中核矩阵进行加权处理，有效提升了分类器泛化能力。而传统的无监督波段选择方法通常根据图像的原始光谱信息来选择最优波段子集，并且以不同的统计方法测量波段的信息量和差异程度。高光谱图像是一个三维立方体，具有丰富的结构信息，有意义的结构信息利用是有效的。为此，Zhu等[9]提出了基于优势集聚类的波段选择方法，该方法先利用局部空间信息和谱间信息(简称空谱)一致性分析图像结构信息，完成对波段信息量和差异程度的度量，再利用优势集聚类完成波段选择，最后与多种分类器相结合对图像进行分类，均获得了较好的结果。因此，本文选择基于优势集聚类的波段选择方法作为高光谱图像分类应用的预处理方法，实现数据特征提取和特征降维。

高光谱图像分类通常分为特征降维和分类器设计2个方面，传统分类器通常基于光谱信息进行分类，如支持向量机、K最近邻和随机森林等。由于受光照等外在因素的影响，成像光谱仪所获取的高光谱遥感影像往往存在“同物异谱”和“异物同谱”现象[14]，仅依靠光谱信息进行分类很容易出现错分，产生“椒盐”现象。为此，基于马尔科夫随机场的分类后处理方法[15-17]利用相邻像元标签的局部空谱一致性将像元分类与图像分割方法统一起来，将光谱与空间信息以组合的形式综合利用图像上下文信息，已被广泛应用于高光谱图像分类。鲍蕊等[18]提出综合聚类和上下文特征的高光谱图像分类方法，该方法将聚类信息与隐马尔科夫随机场模型相结合获取图像的空间信息并对图像进行分类，实验证明该方法有效弥补了单纯基于光谱信息进行图像分类的不足。

综上所述，为有效利用高光谱图像局部空谱一致性分析获取的空间信息，本文将基于优势集聚类波段选择方法与基于马尔科夫随机场的分类后处理方法相结合，提出基于优势集聚类和马尔科夫随机场的高光谱图像分类算法(dominant sets clustering and Markov random fields，DSSM)。

1 基于优势集聚类的波段选择

选取基于优势集聚类的波段选择算法[9]作为高光谱数据的特征降维预处理方法。该算法主要分为2个部分： ①结构感知度量，在结构信息提取的基础上进行波段信息量和差异程度度量； ②图形表示和优化，利用优势集聚类算法将波段选择问题转化为图形表示，选择出特征差异最大的波段子集。

1.1 结构感知度量

高光谱图像波段选择的第一步通常是直接对波段进行信息量和差异程度2方面的度量，忽视了高光谱立方体空间结构信息的利用，而结构上有意义的信息对波段选择度量才是有利的。为此，通过局部空谱一致性分析，利用高光谱图像自身结构信息，完成对波段信息量和差异程度的度量。为简化计算，在对高光谱数据进行局部空谱一致性分析之前需要先进行归一化预处理。具体算法描述如下：

(1)

(2)

(3)

式中：Hl(i,j)表示高光谱图像第l波段对应的图像中坐标为(i,j)的像元样本值；dx(i,j,l)，dy(i,j,l)和dz(i,j,l)分别表示该像元样本的水平，垂直和光谱梯度值。然后，将Hl生成的梯度图进行二值化表示，即

(4)

将二值化后的结果制定一个局部空谱一致性的判别函数，即

(5)

式中⊕和 │ 分别表示布尔运算中异或(XOR)和或(OR)操作。若Dl(i,j)=0，则表示局部空谱一致；否则为局部空谱不一致。

(6)

(7)

式中：dl为Dl的矢量转换；γ为调整参数，一般实验设为0.5。这个定义产生一个对称的差异性矩阵L=(lk)，且lk=kl。由于每个波段都是自相关的，因此L的主对角线上的元素被约束为0。

1.2 图形表示和优化

通过高光谱图像的结构分析完成了对波段信息量和独立程度的度量，下一步则是最优波段子集的筛选，利用优势集聚类方法将波段选择问题转化为图形表示，完成波段选择。

具体来讲，先构造无向加权图G=(V,E,f,g)，其中V={1,…,N}为N个光谱波段的顶点集合，E⊆V×V为边缘集。根据上述波段信息量和差异程度的度量公式，图G的顶点集和边缘集的权重函数分别定义为f(l)=θl和g(l,k)=lk。

假定S⊆V为非空顶点子集，l∈S且k∉S。波段l关于波段k的内部相关性可表示为

(8)

波段l与k的外部相关性定义为

(9)

然后，对于顶点集S，波段l的权值可用递归形式表示为

(10)

式中：S{l}为除去波段l的集合；wS(l)为l与在S{l}中的顶点之间相关整体连接的度量。

顶点集S的内部总权值为

(11)

根据优势集的定理[10]，优势集的求解问题可转化为二次规划问题，即

(12)

式中：关系矩阵A=YLY；Y=diag(Θ)，Θ=(θl,…,θN)；Δ={z∈RN: (z≥0)∧(eTz=1)}。

二次规划问题通常可由复制动态方程来求解，即

(13)

式中t为迭代次数，该方程可保证约束条件Δ在动态下是不变的。

2 基于优势集提取的上下文信息分类方法

由上文可知，基于优势集聚类的波段选择方法通过分析高光谱图像局部空谱一致性，将空间信息引入波段信息量和差异程度的度量，再利用优势集聚类从全局角度完成波段选择，最终获取的最优波段子集保留原始数据有意义的空间信息。为了有效利用波段选择后高光谱图像的空间信息，结合基于马尔科夫随机场分类后处理方法，将获取的波段子集作为概率支持向量机(probabilistic support vector machine，PSVM)的输入特征进行分类，再将获得的分类图应用马尔科夫随机场通过图像局部空谱一致性分析利用空间信息进行优化处理，从而高效完成高光谱图像分类。

2.1 基于马尔科夫随机场分类后处理方法

图像分类的目的实质是对图像进行标记，即在观察x时估计y。根据Bayes准则，即

(14)

式中：P(y)表示在标签上y的先验概率；P(x)为观测x所给定的，即其为一个常量；P(x|y)为给定标签y来观测数据x的条件概率(即似然函数)。因此有

P(y|x)∝P(x|y)P(y)。

(15)

可将式(14)的条件概率求解问题转化成通过最大化后验分布对观测x的估计，即对MAP(maximum a posterior)的估计。

因此，通过最大化后验分布可以给出分类结果，表达式为

(16)

式中：M表示图像中含有像元总个数；P(yi|xi)可以使用PSVM进行建模获取；P(y)通过利用相邻像元局部相关性的马尔可夫随机场建模得到。P(y)的表达式为

(17)

式中：C为归一化参数；W(yi,yj)表示相邻像元i和j之间的空间相关性函数；Me为相邻像元的集合(本文采用8邻域)。为了计算函数W(yi,yj)，采取Potts模型[17]求解，即

W(yi,yj)=β[1-δ(yi,yj)]，

(18)

W(yi,yj)=β[1-δ(yi,yj)]exp[-d(xi,xj)] ，

(19)

(20)

(21)

式中d(xi,xj)表示xi和xj之间的差异。Wij较大，表示xi和xj为不同类别边缘的相邻像元，在模型优化后，yi和yj采用不同的标签; 而Wij较小，表示xi和xj为同类别区域内的相邻像元，模型优化后，yi和yj采用相同的类标签。

然后，基于P(yi|xi)和P(y)，最终给出MAP结果为

(22)

最终，标签结果可以通过最小化式(22)由有效的基于图切割扩展算法[19]求解获得。

2.2 DSSM算法

DSSM算法首先通过基于优势集波段选择算法对归一化处理后的高光谱数据实现特征提取；再将获取的特征应用PSVM进行分类；最后，利用马尔科夫随机场分类后处理方法将分类问题转化为最大后验概率的求解问题，从而实现高光谱图像的分类。DSSM算法流程如图1所示。

图1 DSSM算法流程

DSSM算法具体实现过程如下。

输入：高光谱数据X∈RH×W×N，类别个数为K，其中H和W分别为高光谱数据的空间维度的长度和宽度，N为光谱维度上的波段数。

步骤6：将P(y|x)和P(y)进行MAP处理，利用基于图切割扩展算法求解MAP判别函数。

输出：分类结果。

3 实验结果与分析

3.1 实验数据

选用Indian Pines与Pavia University高光谱遥感影像作为实验的数据集，检验算法性能。

1)Indian Pines数据集：该数据集是由AVIRIS传感器获取的覆盖印第安纳州西北部某农业区域的高光谱遥感影像。该图像大小为145像素×145像素，空间分辨率为20 m，光谱范围从0.4～2.5 μm，含有16种地物类别；去除大气水分和信噪比低的波段，剩余200个波段。该数据集的真实地物标记信息如表1所示。

表1 Indian Pines数据集的真实地物类别标记信息

2)Pavia University数据集：该数据集是由ROSIS传感器采集覆盖Pavia大学区域的高光谱遥感影像，图像大小为610像素×340像素，空间分辨率为1.3 m，光谱范围0.43～0.86 μm，含有9种地物类别；去除大气水分和信噪比低的波段，剩余103个波段。该数据集的真实地物标记信息如表2所示。

表2 Pavia University数据集的真实地物类别标记信息

3.2 实验结果分析

为验证算法有效性，DSSM算法与单独使用SVM算法、优势集聚类与SVM结合的算法(DS-SVM)、优势集聚类与K最近邻结合的算法(DS-KNN)、优势集聚类与随机森林结合的算法(DS-RT)进行对照实验。由于SVM算法在小样本下有着良好分类性能，因此，为了验证本文提出的算法在小样本下的有效性，本文分别在Indian Pines和Pavia University这2组数据集中随机选取10%作为训练样本，剩下的90%则作为测试样本进行实验，所有实验重复运行20次，将20次的分类精度均值作为实验结果。基于SVM分类的算法，都采用高斯径向基核函数(Gaussian radial basis function，RBF)，在(γ=2-5,2-4,…,25,c=2-5,2-4,…,25)范围内经5次交叉验证选取核半径参数和惩罚参数。

为验证算法的有效性，图2为DSSM算法在Indian Pines和Pavia University这2组数据集中不同特征数下的总体分类精度(overall accuracy，OA)。

(a) Indian Pines数据集(b) Pavia University数据集

对于Indian Pines数据集，特征数达到60后，OA趋于平稳；当特征数达到100时，OA最高为94.16%；特征数从140增加到200时，OA存在减小的趋势。对于Pavia University数据集，特征数达到40后，OA趋于平稳。较多的特征数意味着算法计算量的增加，因此，本文分别在Indian Pines和Pavia University这2组数据集选取的特征数量为60和40进行实验。

为更进一步验证DSSM算法的有效性，本文将DSSM与SVM，DS-SVM，DS-KNN和DS-RT这4种经典算法进行对照实验。为了直观验证DSSM算法的有效性，图3和图4分别为在Indian Pines和Pavia University数据集上真实地物和不同算法的分类结果。不同算法分别在Indian Pines和Pavia University这2组数据集上的OA和Kappa系数如表3所示。

(a) 真实地物 (b) SVM算法 (c) DS-SVM算法

(d) DS-KNN算法 (e) DS-RF算法 (f) DSSM算法

(a) 真实地物 (b) SVM算法 (c) DS-SVM算法

(d) DS-KNN算法 (e) DS-RF算法 (f) DSSM算法

图4 Pavia University数据集上不同算法的分类结果

从图3和图4均可直观地看出，除DSSM算法，其他算法的分类结果都有着较严重的“椒盐”现象和较多同类别地物内部区域的错分点，尤其是DS-KNN和DS-RT算法，而DSSM算法分类结果中仅具有较少的“椒盐”现象和同类别地物内部区域的错分点，更接近于数据集的真实地物图。从表3也可以看出，相对于其他4种经典算法，本文提出的DSSM算法在Indian Pines和Pavia University这2组数据集中均获得了较高的OA和Kappa系数。在Indian Pines数据集上，DSSM算法的OA比SVM算法大约提升了15%，比DS-SVM算法提升了大约10%，比DS-KNN和DS-RT算法提升的更多，分别提升了大约20%和22.5%，并且Kappa系数最高。在Pavia University数据集上，DSSM算法的OA比SVM算法大约提升了3.5%，比DS-SVM算法提升了大约6%，比DS-KNN和DS-RT算法提升的更多，分别提升了大约13%和12%，并且Kappa系数最高。由此可得，本文提出的DSSM算法有效利用高光谱图像光谱和空间信息，改善了分类结果中的“椒盐”现象，并减少了错分点，有效提高了分类精度。

4 结论

1)基于优势集聚类的波段选择方法，可选择出保留良好结构信息的最优波段子集。虽然将获取的波段子集作为SVM算法的输入特征，可有效提升总体分类精度，但是由于分类过程中忽视高光谱图像空间信息的利用，造成分类结果存在较多“椒盐”现象和错分点。

2)为有效利用基于优势集聚类方法选择的保留良好空间信息的最优波段子集，本文提出基于优势集聚类和马尔科夫随机场的高光谱图像分类算法(DSSM)。该算法通过马尔可夫随机场对经优势集聚类方法进行波段选择后的高光谱图像相邻像元建立局部空谱一致性，利用空间上下文信息修正初始分类结果，实现了高光谱图像自身空间和光谱信息的有效挖掘与利用，进一步提高了分类精度。

3)在Indian Pines和Pavia University这2组数据集上的实验结果表明，相对于现有的几种经典算法，本文提出的DSSM算法有效改善分类识别结果中的“椒盐”现象和错分点，并且在总体分类精度上有着明显提升。