魏国忠
(山东省国土测绘院,济南 250102)
模糊聚类中认为待分数据集中的样本都以一定的隶属度归属于每个类别,隶属度越大,则归属程度越高。高光谱图像的空间分辨率一般不高,其光谱信息往往是多种地物目标的综合反映,图像上存在大量的混合像元具有模糊性,造成同物异谱现象严重。因此,利用模糊聚类对高光谱图像的像元进行分析较硬分类方式更具优势。在模糊聚类分析中,模糊均值聚类(fuzzy C-means,FCM)是一种经典的方法,近些年来,围绕高光谱图像聚类问题以FCM方法为基础进行改进,出现了一些新的研究。主要包括3个角度:1)FCM中利用欧式距离度量不同像元间的相似性,通过综合考虑高光谱数据光谱曲线形状、地物辐射等特性,改进测度对高光谱图像进行聚类。如刘伟等[2]采用乘性和加性相似性测度方式,陈伟等[3]基于角度余弦提出的新型光谱相似度,及焦洪赞等[4]提出的改进条件随机场模型相似性测度,都结合FCM方法应用在高光谱图像聚类中。2)FCM通过迭代计算不断优化聚类中心位置和隶属度,这种方法可能会陷入局部解,造成聚类精度不高。于文博等[5]利用峰值密度函数,王秀和[6]利用蚁群算法优化目标函数的求解过程,往往能够最大程度地逼近全局最优解,令聚类过程和结果更加稳定和优化。3)FCM中采用原始像元特征作为聚类的基本单位进行处理,但在光谱特征的变换空间中可能获得更高的可分性。如先进行图像分割后以分割结果为处理单元再聚类[5],或者利用极限学习机将原始图像像元光谱特征变换到更高维度后进行聚类[7]。从这些角度均有助于较好地提高结果的聚类精度。但这些方法多围绕像元的光谱信息进行分析和处理,对像元之间的空间信息未做考虑。而事实上,在遥感影像中,相邻的像元趋向于相同或相近的地物类型,也就是说相邻像元间存在着统计意义上的相互依赖关系,通常称为上下文信息[8]。目前,在监督分类中,研究表明,空-谱联合进行高光谱图像分类能够显著提高结果的分类精度[9],而无样本监督下结合空间和光谱信息进行模糊聚类的研究相对较少。
因此,本文通过在模糊聚类中结合空间和光谱2类信息,在马尔科夫场模型框架(Markov random field framework)的基础上,对FCM方法进行改进,提出了一种新的高光谱图像模糊聚类算法。
图像空间上下文特征可以采用马尔科夫随机场模型进行建模,Zhang等[10]在传统马尔科夫随机场模型的基础上进行扩展,提出了马尔科夫场模型框架,它能够在分类过程中有效地结合空间和光谱2类信息。假设将高光谱图像上N个像元聚为K类,任一像元j(1≤j≤N)属于类别k(1≤k≤K),像元j的光谱向量表示为sj,该框架的数学表达如式(1)所示。
Fk(sj)=aj(k)+βbj(k)
(1)
式中:aj(k)称为光谱项,表示像元j从光谱相似性角度隶属于类k的概率;bj(k)称为空间项,表示像元j从空间性相似角度隶属类k的概率;β(≥0)是一个调节聚类过程中光谱项与空间项影响程度的权重系数,β=0表示不考虑空间信息,仅利用光谱信息进行聚类。若β取值越大,则表示空间信息在聚类中的权重越大。
FCM的目标函数如式(2)所示。
诺基亚是一家老牌手机制造厂商,其品质过硬、经久耐用,深受消费者欢迎。意想不到的事,面对新一轮的手机行业革命,诺基亚开始衰落并最终被微软收购。近几年,互联网信息技术的跨越式发展,使得电子商务得到了以往从未有过的发展机会并深刻的改变了人们的生活方式。很多电子商务企业通过传新发展模式,不再需要进行原材料的采购和产品的生产,转而采取代工的模式,节省了很多中间环节以及生产成本,小米就是在这种模式下快速发展起来的,并迅速成为一家成功的互联网公司。
(2)
式中:vk表示类别k的质心向量;q∈[1,∞)是一个加权指数。其中,隶属度可以用ukj表示,即像元j隶属于类k的概率(隶属度),必须满足式(3)。
(3)
在此基础上考虑像元的上下文相关性,即如果某点处为A类地物,那么在此点邻域上是A类地物的可能性最大[11]。在空间上下文信息的影响下,像元j在聚类过程中,不仅取决于自身光谱信息,也受到临近像元的影响。由于邻域像元对空间像元的影响随其与中心像元的距离增大而影响逐渐减弱,为简化目标函数,如图1所示,本文中仅考虑中心像元j的一阶邻域Nj,l∈Nj表示该一阶邻域内任一像元。
图1 像元j的一阶邻域Nj(l∈Nj)
马尔科夫随机场模型中,利用Gibbs分布描述图像上临近像元间的空间关系,一般采用Kroneker函数进行建模[8],本文考虑其邻域像元l对中心像元j的影响与其聚类的隶属度存在相关性,即像元l属于聚类k的概率值越高,该类别对中心像元j的影响越大,反之,则越小。因此,目标函数可定义为式(4)。
(4)
式中:Nj表示像元j的一阶邻域;ul k表示邻域像元l隶属于类k的概率;β(≥0)为全局空间权重系数。其中,光谱项与传统FCM目标函数保持一致,即与当前像元j的光谱特征相关;空间项表示在光谱特征基础上,像元j与类k空间上的相似性。将目标函数对ukj求偏导,结合式(3)的归一化项,得到隶属度矩阵ukj,如式(5)所示。
(5)
然后,将目标函数对质心vk求偏导,并令其为零,得到质心,如式(6)所示。
(6)
得到基于全局空间权重的马尔科夫随机场模糊聚类模型(global weight Markov random field-fuzzy C-means,GWMRF-FCM)。
在全局权重马尔科夫随机场模糊聚类算法中,采用固定的常数值作为权重系数控制空间特征在目标函数中的比例。但由于遥感图像上不同地物分布复杂且尺度的差距很大,像元的空间相关性各不相同。比如在同质性区域中,像元的连续性很强,上下文关系对像元的类别影响较大,此时需要给予较大的空间项权重;反之,在边界区域,由于像元的光谱特征发生突变而不具备相关性,此时应忽略空间关系的影响,仅依靠光谱特征即可进行区分,此时空间项权重应趋近于0。根据此原则,本文提出利用边缘提取方法得到像元的相关性特征,确定单个像元对应的局部权重系数。
局部权重系数βj要求能够针对当前像元j位于同质区或边界区域进行自适应的变化。因此,可以通过计算像元j的梯度信息来获得。这里采用高斯-拉普拉斯算子(Laplacian of Gaussian,LoG)计算获取高光谱图像每个波段的梯度,分别对应0°、45°、90°以及135° 4个方向,如式(7)所示。
(7)
式中:xj,yj分别表示当前像元j的行列号;σ表示高斯核宽度。LoG算子实质是先利用高斯函数对图像进行低通滤波平滑噪声,再使用拉普拉斯算子进行边缘检测,能够有效避免噪声的影响[12]。然后,将高光谱图像每波段像元的各方向梯度信息累计平均后,得到式(8)。
(X)={ρj∈R,j=1,2,…,N}
(8)
式中:ρj表示像元的平均梯度值。为保证像元的光谱项与空间项在数值上对聚类影响的一致性,根据梯度信息与权重系数间的关系定义边界函数,如式(9)所示。
(9)
式中:α为常数,将像元j的空间权重值控制在(0,1]范围内。那么,若像元j位于边界处时,其梯度值ρj值较大,则考虑其空间权重βj较小;相反,若像元j位于类别连续的同质区域内,其梯度值ρj值较小,则考虑给予其较大的空间权重。
将该局部权重系数带入式(4),获得新的目标函数表达式,如式(10)所示。
(10)
此时,隶属度矩阵表达式变为式(11)。
(11)
得到空间权重自适应马尔科夫随机场模糊聚类方法(adaptive weight Markov random field fuzzy C-means,AWMRF-FCM)。
若将高光谱图像上N个像元聚为K类,本文算法流程如图2所示。
图2 空间权重自适应马尔科夫随机模糊聚类算法流程图
步骤1:对高光谱图像进行边缘检测,根据式(7)至式(9)计算像元空间权重系数βj;
步骤2:设置初始值,最大迭代次数T和停止阈值条件θ,随机初始化隶属度矩阵ukj,并计算初始质心vk;
步骤3:根据式(11)更新隶属度矩阵ukj;
步骤4:根据式(6)更新聚类质心vk;
步骤5:根据式(10)计算目标函数J,重复步骤3~步骤4,计算目标函数直至其差异小于阈值θ或者达到最大迭代次数T,结束计算;
步骤6:根据隶属度最大原则获得聚类结果。
本文采用模拟及真实高光谱数据集进行实验,目的是比较仅考虑光谱及结合光谱与空间信息进行模糊聚类方法的精度。对标准FCM算法、FCM聚类后中值滤波(FCM-median filtering)、GWMRF-FCM和AWMRF-FCM 4种算法的聚类结果,利用生产者精度、总体分类精度指标进行定量评价对比。实验数据中,模拟数据根据先验知识从真实高光谱图像上获取,其每个像元类别标号均为已知,有利于通过实验结果评价本文算法对空间信息的利用程度及空间信息对最终聚类结果,特别是边界处像元的影响。真实数据实验用于证明本文算法在真实数据中的效果。
模拟数据从PHI(pushbroom hyperspectral imager)航空高光谱相机观测的日本精细农业数据中获取[13]。该传感器覆盖从400~850 nm的80个谱段,空间分辨率为3 m。如图3所示,根据地面调查结果,从高光谱图像上分别取出林地、草地和裸地3类地物像元构成模拟高光谱图像。图4(a)为模拟高光谱图像3个谱段(760 nm、650 nm、560 nm)假彩色合成结果。在样本参考图图4(b)中,海蓝色表示大面积林地区域;中间绿色区域表示草地;白色表示的裸地,作为林地和草地的边界。
图3 模拟高光谱图像样本来源分布
图4 模拟高光谱图像及样本参考图
在模拟和真实高光谱对比实验中,为保证实验的可对比性,参数保持一致。其中,FCM聚类数K=3,参数q=2;FCM聚类后进行中值滤波选择一阶3×3窗口;GWMRF-FCM中全局权重系数β取值为1,表示聚类中光谱权重与空间权重同等重要;AWMRF-FCM中自适应权重系数计算时,高斯核宽度σ=0.5,α取值30。4种方法迭代开始均采用随机初始化隶属度矩阵,阈值条件θ=0.001作为迭代停止条件。
4种方法的聚类结果如图5所示。可以发现,FCM聚类结(果图5(a))中,由于林地和草地光谱异变,存在较为严重的同物异谱现象,在聚类过程中出现了较多的误分,其中林地部分像元被误分为裸地,草地的部分像元被误分为林地。通过对该聚类结果进行滤波后处理,即利用空间连续性对噪声进行去除,从图5(b)中看出图5(a)中分类结果的麻点噪声得到较好的抑制,林地和草地的地块完整性增强。通过表1中林地和草地的生产者精度发现,该方法处理获得这2类地物的精度得到明显提高,整体分类精度也较FCM获得较大幅度提高,但裸地的分类精度却严重下降,这主要是由于裸地位于林地和草地的边界处,为线状地物,在处理过程中很容易发生过平滑现象。在GWMRF-FCM方法中,聚类过程具有明显噪声抑制的效果,并且图5(c)的中心区域的草地区域聚类更加完整,但由于其空间项权重没有考虑不同地物的连续性程度,在对不同地物处理时的权重完全一致。在本实验中,草地的效果很好,精度达到100%,但较草地噪声影响更严重的林地中,由于空间信息考虑的程度不足,造成麻点在聚类过程中未被完全去除;相反,裸地在考虑空间信息时又产生了过分类的情况,造成其分类精度下降。但表1中显示GWMRF-FCM较FCM-median filtering分类结果中裸地的精度略高。最后,通过图5(d)可以看出,本文提出的AWMRF-FCM自适应地考虑了不同地物的空间连续性程度,其中林地和草地由于连续性较强,其梯度信息较弱,则给予较高的空间权重,而裸地处于地物的边界处,梯度信息很强,则给予较低的空间权重,保留其细节信息。表1中的分类结果证明,通过自适应权重马尔科夫随机场模型聚类方法处理获得3类地物的分类精度没有明显很低的情况,整体分类精度最高。
图5 模拟高光谱图像4种不同方法聚类结果
表1 模拟高光谱数据生产者精度及整体精度比较 %
本文选择的真实高光谱图像采用高光谱成像光谱仪AVIRIS数据,该数据覆盖了美国印第安纳州西北部地区的一个农业与森林混合地区,拍摄时间在作物的生长季节,是高光谱数据分类方法研究中常用的数据集。数据大小为145行,145列,共220个波段,空间分辨率为30 m。去除水吸收和噪声波段(104~108、150~163、200),最终剩200个波段。高光谱图像假彩色合成影像和地面参数据如图6所示,地物分别由林地、玉米、草地、干草、大豆5种植被组成。实验地面参考数据用于定量评价高光谱图像的聚类精度。
图6 原始高光谱图像假彩色合成及地面参考数据
如图7所示,考虑空间信息时,图7(b)、图7(c)、图7(d)与仅使用像元光谱的聚类方法结果图7(a)相比,图像上噪声影响明显减少,但图7(b)中图像的边界也由于平滑处理变得模糊。GWMRF-FCM和AWMRF-FCM聚类结果中,同类地物区域内保持了更好的同质性,且图像的边界保持较为完整。如表2所示,空间滤波后处理对聚类精度提高十分有限,而本文提出的2种方法较FCM聚类的整体分类精度提高幅度分别达到27.69%和31.39%,其中,AWMRF-FCM整体精度最高,达到85.52%。
图7 真实高光谱图像4种不同方法聚类结果
表2 真实高光谱数据各类生产者及整体精度对比 %
本文提出了一种整合空间与光谱信息的高光谱图像模糊聚类方法,即在光谱信息相似性聚类基础上,引入邻域像元间相关性和连续性;提出了一种基于空间权重自适应马尔科夫随机场模型的高光谱图像模糊聚类算法,在FCM光谱聚类基础上,通过马尔科夫随机场模型对空间信息进行建模,并利用自适应权重系数控制其在聚类中的影响程度。通过模拟和真实高光谱图像实验证明,在聚类过程中,当光谱信息区分度相对较弱情况下,本文方法通过加入空间上下文信息,有效提高聚类判别的正确性,增强了抗噪能力,极大减少了由于混合像元和“同物异谱”现象造成的噪声影响,提高了聚类精度,有利于进一步对地物提取和识别。