刘 颖,刘 蕊,李大湘,杨凡超
(1.西安邮电大学 通信与信息工程学院,陕西 西安 710121;2.中国科学院西安光学精密机械研究所, 中国科学院光谱成像技术重点实验室,陕西 西安 710119;3.西安邮电大学 电子信息现场勘验应用技术公安部重点实验室,陕西 西安 710121)
目前已经有大量高光谱图像[1,2]分类算法被提出,基于支持向量机(support vector machine,SVM)的分类算法在训练样本有限的情况下表现出良好的分类性能[3]。分类器SVM-CK(support vector machine composite kernel)构造了一系列的复合内核用于组合空间和光谱信息[4]。该算法在足够带标签的训练样本的情况下有较好的分类结果,但是获得大量带标记样本需要付出很大代价。同步正交匹配追踪算法(simultaneous orthogonal matching pur-suit,SOMP)模型中,测试像素周围的小邻域中的像素同时由标记样本的线性组合表示[5]。正交匹配追踪算法(orthogonal matching pursuit,OMP)施加了显式的平滑约束迫使重构图像的拉普拉斯变换为零[9]。基于稀疏表示的分类显著改善了分类性能,但也存在着训练样本少以及计算成本较高的问题[6]。最近正则化子空间(nearst regularized subspace,NRS)将最近子空间分类和距离加权Tikhonov正则化结合,从每个类中独立地生成每个测试样本的近似值,然后根据近似值最接近的类而得出类标签[7]。此算法只考虑了高光谱图像的光谱信息,而忽略了空间信息。基于协同表示的分类(collaborative representation classification,CRC)的性能优于SRC(sparse represent based classification method),且计算复杂度低[8]。在CR的基础上开发了联合协同表示(joint collaborative representation,JC-R)分类方法。JCR克服了NRS的劣势[9],分类时得到了较高的分类精度,其缺点是没有充分考虑空间信息对分类结果的影响。
上述算法在高光谱分类中都取得了良好的分类结果。但是仍未解决空间信息利用不足的问题。为了进一步提高分类精度,充分考虑空间信息和光谱信息,针对高光谱图像的特点,在JCR的分类基础上,提出了空谱联合协同表征的分类算法。该算法首先计算测试像素与训练像素的欧式距离得出光谱信息,然后再分别计算训练像素与测试像素的空间距离以及相邻像素的邻域信息得出空间信息,最后将光谱和空间信息同时合并到协同表示框架的正则化项中。
(1)
测试样本表示为y∈Rd。 对所有训练样本通过CR的方法构造测试样本如下
(2)
(3)
与L1范数约束的稀疏表示不同的是,协同表示的系数被约束成L2范数。测试样本的类别是通过类表示残差的最小值和L2范数约束来实现的。
高光谱图像的某一像素的邻域与此像素的光谱特征相近,因此很可能属于同一类。JCR通过计算像素与它邻域的平均值来帮助在空间窗口对中心像素进行分类
(4)
(5)
权重αl可以通过封闭形式的解决方案估计
(6)
训练样本近似估计与测试样本的残差为
(7)
与传统的协同表示模型不同,本文在基于JCR模型的基础上提出了一种将空间信息和光谱信息融合到正则化项中的模型。第一部分是构造协同表征的分类模型,将空间位置信息和频谱信息诱导入正则化项中;第二部分是在以上分类模型的基础上引入空间邻域信息。分类的算法流程如图1所示。
图1 算法流程
1.3.1 空谱协同表征高光谱图像分类算法
传统的CR模型是通过相邻的像素的平均值来获取空间信息,例如文献[9,10]中的平均像素值。而在本文中,直接在正则化项中添加空间信息和光谱信息,将空间信息结合到正则化项中
(8)
其中,S代表空间信息,D代表光谱信息。S=dist(y-xi) 训练样本xi与测试样本y的位置坐标分别为 (rxi,pxi) 和 (ry,py)。 则两样本像素之间的空间距离为D=[dist((rxi,pxi),(ry,py))]。 dist(.) 表示欧式距离。在计算得到S和D的值后,这里需要将S和D的值分别除以max(S)和max(D)。 对S和D进行归一化,使其值位于(0,1)之间。 diag(SD) 与Γl表示的作用是相似的,S和D的乘积越小,表示测试像素和训练像素越接近。权重系数α越小。xi对测试像素做出的贡献越大。μ是正则化项,来平衡两项之间的贡献。在封闭形式的解决方案中得出权重α的解为
α=(xTX+μdiag(SD))xTy
(9)
一旦得出权重,便可以通过以下公式得出测试样本的类别标签
(10)
(11)
1.3.2 空谱联合协同表征高光谱图像分类算法
综合训练像素和测试像素的上下文信息,便将空谱协同表征扩展到中心像素邻域信息的联合空谱表征
(12)
(13)
(14)
(15)
为了验证所提算法的有效性,利用了两个经典的数据集进行实验,通过与传统的方法进行比较来评估算法的性能。
印度松树数据集为于1992年由机载可见红外中心光谱仪传感器获取的位于印第安纳州的植被图像组成。该数据集有145×145个像素,分类前去除了20个噪声波段,只留下200个波段可用。它包含了16个地面真实的类,从中选取10%用于训练,其余作为测试样本,见表1。
表1 Indian Pines Data的16个类以及 实验所用的训练集与测试集
帕维亚大学数据集,它覆盖了意大利帕维亚大学周围的城市区域。该图像是发射光学系统成像光谱仪(ROSIS-03)传感器获得的。图像的尺寸为610×340。剔除12个噪声波段剩下103个波段组成图像。它有9个被标记的真实类。进行实验时从每类随机选择30个作为训练集,使用其余的进行测试。见表2。
表2 University of Pavia Data的9个类以及所 使用的训练集和测试集
μ是全局正则化参数,参数的大小对分类性能至关重要。通常情况下,基于可训练样本的留一交叉验证(LOOCV)和基于训练样本的5倍交叉验证策略都被考虑用于参数调整。在确保其它条件相同的情况下,全局参数对分类结果的影响如图2和图3所示。
图2 不同的正则化参数μ对Indians Pines 总体分类精度的影响
图3 不同的正则化参数μ对Pavia University 总体精度的影响
图2和图3表示的是正则化参数μ的函数在两个高光谱数据集上OA值的曲线。实验结果表明,所提出算法的参数在很大范围内波动。在图2中Indian Pines正则化参数的值为11 000时达到了最佳性能,在15 000后随着参数的增大,分类性能下降。在图3中Pavia University数据集正则化参数为15 000时分类精度达到最高,随着μ的增大,分类精度一直处于上升趋势。对于其它的分类算法,例如SVM,通过2交叉验证来确定相关参数。以下实验中,所有算法均使用的是最佳的参数。
在相同的训练集和数据集上验证不同算法的性能。表3表示不同算法在Indian Pines数据集上进行分类的结果。文中算法的分类精度相比较于SVM、SOMP和NRS以及其它算法的分类精度有明显提高。Pavia University数据集的每个类在几种算法下的分类精度见表4。文中提出的改进算法在类Bare soil、Bitumen、Bricks、Gravel、Meadows、Meta-lsheets 和Sadows上取得了很好的分类效果,总体精度分类相比于SVM-CK提高了4.3%,相比于SOMP提高了22.17%,比算法NRS的分类精度提高了13.99%,同时在JCR 的基础上提高了1.31%。综合以上表格分类的结果可以得出结论,上下文的空间信息的引入大大提高了分类性能。在正则化项中加入空间信息对分类精度的提高是有利的。
表3 Indians Pines数据集的分类结果
表3(续)
表4 Pavia University数据集的分类总体精度
传统的高光谱图像分类算法大多考虑光谱信息,但未能充分利用空间信息。因此,并未取得优良的分类结果。针对这一问题提出了一种空谱联合协同表征分类算法。该算法充分利用光谱信息和空间信息。通过训练样本与邻近测试样本的空间距离来进一步表示空间信息,将得到的空间信息与光谱信息融合进分类模型的正则化项中。再通过训练样本与测试样本邻域信息而获取空间信息,进一步的提高了分类性能,但是基于空谱联合表征分类算法的实验运行比较费时。运行速度不能令人满意。在接下来的研究中,针对算法实现的时间问题进行进一步的优化,以达到理想的效果。