李秉璇,周 冰,贺 宣,刘贺雄
(陆军工程大学石家庄校区电子与光学工程系,河北 石家庄 050003)
高光谱分辨率遥感通过使用连续细分光谱波段对地物进行持续的遥感并成像[1],可以获取地物和目标的三维图像,分别包括空间维和光谱维,图像中获取的信息可以对地物和目标进行深层次的分析。目前,高光谱成像无论在民用和军用上都有很大的发展。民用上,高光谱成像在矿物勘察、灾害预防、植被生长监视和大气成分检测已经获得了深入的发展。军用上,高光谱成像可以通过与场景中物体特征波段的比较,达到识别伪装的目的[2]。
为了进一步进行图像处理和目标识别,图像分类已经成为高光谱成像应用的一项重要技术。通过对高光谱图像中每一个像元赋予唯一的分类标识,最终达到区分地物并识别目标的目的。本文在总结了高光谱图像分类方法发展现状的基础上,分析了其存在的问题,展望了其发展的方向。
用高光谱图像遥感成像获得的光谱数据量非常大,采用不当的方法进行处理,反而影响分类。高维的数据也对高光谱图像预处理造成了很大的困难,如何对高光谱数据进行高速高效的处理成为高光谱图像处理中的关键问题。
高光谱图像获取的数据细节程度较高,特征维数较高。随着特征维数的升高,对于含参模型的参数估计需要的训练样本急剧升高,图像分类精度随着参与运算的波段数先增加后减少,也被称为是hughes现象。
由于太阳不同入射角和大气折射率的区别,不同空间位置分布的地物可能显示出相同或相似的光谱特征,不同光谱曲线也有可能是同一种地物,这对高光谱图像精细分类提出了新的挑战。如何结合空间位置分布和光谱特征对高光谱图像进行分类也成为目前研究的热点问题[3]。
从高光谱成像的原理来看,对于高光谱图像分类过程如图1所示。光谱数据预处理的目的主要是消除高光谱图像由于大气散射和折射、几何畸变等引起的噪声,包括几何校正、大气校正、光谱一阶微分以及光谱平滑性处理。对于处理后的数据,需要确定地物的种类数以及分类类别数,选取分类类别的训练样本对分类器进行训练。然后采用波段选择或者特征提取的方法对数据降维后进行分类,对分类后的数据可以采用主成分滤波等手段进一步消除孤立点和噪声,提升分类效果[4]。最后,还需要对分类的结果进行评价,常用的结果评价方法有:混淆矩阵、Kappa分析、漏分误差和多分误差。
图1 高光谱分类过程
高光谱图像分类的理论基础是“同谱同物”,其分类方法目前主要可以分为:①以先验样本有无为依据的监督分类和非监督分类;②基于光谱信息的光谱相似性和光谱特征分类;③只基于光谱信息的分类器和空谱联合分类器;④单分类器和多分类器融合的分类策略。
监督方法是指事先已经有了已知的先验训练样本,通过训练样本对模型进行训练,获得参数的最佳估计值,对模型进行优化,使用优化后的模型或分类器进行分类的过程[5]。监督分类常用的方法有最小距离法、高斯最大似然分类法(MLC)等。
高斯最大似然分类法(MLC)是一种经典的监督分类算法,该类分类器被认为是一种稳定性好、鲁棒性好的分类器。但是该类分类器训练样本的需求随着数据维数成二次方增加,当数据维数较高或者样本数据与模型符合度较差时,分类效果不理想,对于出现的这些问题,很多学者做了相关研讨和实验。姚伏天假设各类样本数据服从高斯分布,建立判别函数,通过最大似然比贝叶斯准则来判断各个像元对规定类别的归属概率[6]。Jon提出了一种联合神经网络和统计建模的方法对高光谱数据进行分类,首先单独处理各个数据源的信息并进行建模,然后应用决策融合方案来组合数据源的信息,提升了分类精度[7]。
③综合创新能力:初步具备常微分方程理论和方法解决实际问题的能力,以及初步的创新能力、小论文写作能力等。
非监督方法是在不存在先验知识的情况下,通过图像自身的特征或者图像上点的分布来进行聚类分类的方法。非监督方法缺乏先验知识,直接用于图像分类效果不好,一般作为监督方法的辅助方法。代表性的非监督方法有:K均值聚类法、ISODATA动态聚类、平行管道法。
半监督方法是为了解决先验样本较少且难获取,从未分类样本中挖掘分类信息的方法,通过先对未分类样本进行分类,再将已分类后的样本信息加入训练样本集中,从而减少对先验样本的需求,缓解hughes现象。半监督方法对于样本分类错误很敏感,经过多次重复容易造成错误的累积。为了弥补这一缺陷,blum提出了一种协同训练的方法,首先训练两个分类器,然后将两个分类器的无标签样本分别交给对方进行训练[8]。李蓉提出了融合KNN算法和SVM算法的一种新方法,通过KNN算法为SVM算法训练无标签样本作为训练样本,随后SVM使用扩展后的训练样本集进行分类的方法[9]。
还有一类半监督算法是基于聚类假设或者流型假设,直接将高光谱数据加入分类函数中。高恒辰提出了一种基于聚类假设的半监督算法,首先基于聚类假设构造新的核函数,然后通过核函数有效融合空谱信息,提升分类效果[10]。田彦平提出了一种融合主动学习与半监督分类的方法,通过结合主动学习算法,加入了大批未标记样本,提高了分类精度,节省了标记样本时间[11]。
通过光谱相似性分类的方法是通过计算样本光谱曲线和像元光谱曲线之间的相似程度,通过设定阈值来进行分类的方法。最为典型的有光谱相关系数、光谱信息散度、信息熵、光谱角度量等,这一方法的优点是不需要降维和波段选择,但是如果目标光谱曲线和背景很相似时,分类效果大大降低。Wang提出了一种利用低次谐波重建信号,通过测量目标和参考光的频谱幅度差来计算其相似性,实验结果表明,该方法具有良好的鲁棒性和泛化性[12]。闫兵工提出了一种利用信息熵和光谱特征向量来进行高光谱图像分类的方法,提升了分类精度,取得了很好的效果[13]。
通过光谱特征分类的方法进行分类是指在光谱特征空间中,利用图像的统计特性来进行分类的方法。在光谱特征分类中,由于hughes现象,图像的分类精度对于训练样本的要求很高,所以一般先进行降维处理,再进行分类,主要的方法有:主成分分析(PCA)[14]、最大噪声分数变换(MNF)[15]、线性判别分析[16]以及多种方式融合灰色关联度分析等。经过降维后的光谱数据再使用传统分类方法诸如SVM[17]、决策树、KNN算法等进行分类,这种分类方式能够提升分类速度,加强分类方法的鲁棒性和泛化性。
经典的高光谱图像分类方法单单利用了高光谱图像的光谱信息,而忽略了目标的空间信息 。高光谱数据具有空间聚类的特点,结合空间信息和光谱信息能够提升分类速度和精度,更好的挖掘空间信息。空谱联合分类分为两种:同步分类和后处理分类方法。同步分类是将光谱信息和空间信息充分融合,综合考量两部分的信息进行分类,但该类方法增大了数据维数和计算复杂度容易陷入不适定性问题,李娜采用了空间场模型和光谱向量结合的方法来融合空间信息和光谱信息,使用马尔可夫随机场模型描述空间信息,使用概率支撑向量机描述光谱信息,综合两类信息进行分类,提升了分类精度[18]。
后处理分类的方法是在空间分类的基础上,结合光谱信息进一步优化分类结果,提升分类精度。后处理分类原理简单,能有效得消除“椒盐噪声”,在现有的分类算法中应用广泛。王彩玲和王洪伟等提出了一种空谱联合探测的后处理算法,先利用分类器将分类区域划分为潜在目标区域以及背景区域,再利用目标区域的聚类特性进行邻域聚类[19]。孙乐提出了一种空谱联合的分类算法,使用融合分类器进行光谱空间的信息提取,在采用马尔可夫模型进行空间信息挖掘,可以在训练样本较少的情况下达到很好的分类效果[20]。
传统的分类方法都只使用了单分类器进行分类,但实践和理论都证明,引入多个分类器能有效提升分类速度和分类精度。
多分类器进行融合的方法有三种,包含并行构造、串行构造、混合结构,但目前并行结构在多分类器融合中使用较为广泛。吴尔津针对单个分类器的优缺点,运用类集降少、重新判定、残差交融等思想将基本分类器进行融合,构建一系列多分类器,结果表明,多分类器可以获得更好的分类结果[21]。
为了进一步提升高光谱分类的效果和精度,研究者基于传统的分类方法提出了一系列的优化方法,如:核函数、稀疏表示等。同时,随着机器学习与人工智能的快速发展,在高光谱图像分类中引入人工智能算法也成为目前研究的热点。
4.1.1 核函数方法
核函数使用某种非线性变换K(x,x′),将低维空间映射到高维光谱空间,当K(x,x′)等于高维空间的内积时,能够在低维空间直接进行高维空间的内积运算,大大简化了计算。核函数的方法在高光谱中的典型应用就是Vapnik将线性SVMs推广到非线性SVMs中。核函数的类型主要有线性核函数、多项式核函数、高斯径向核函数。
线性核函数分类能力有限,随着q的增大,分类效果也随之提高,但是计算量也会增大,高斯径向核函数分类能力不低于高阶多项核函数,并且包含其他核函数的特点,计算复杂度低,因此在传统核函数中最常使用。
核函数在解决高维空间向量内积的问题上提供了新的思路,但目前核函数的参数确定方法往往是根据经验确定,如何准确快速确定和函数的参数仍待研究。
4.1.2 稀疏表达模型
稀疏表示本质上就是通过训练样本建立一个过完备基,将信号表示为过完备基上的稀疏线性组合。稀疏表示可以通过过完备基来简化信号形式,进一步提取信号中的信息,同时也有利于对信号进行处理和加工,并减少了计算量。
稀疏表示应用到高光谱分类一个重要的问题就是如何获取稀疏表示的超完备字典。宋相法和焦李成利用稀疏表示的方法来提取特征空间信息,随后通过随机森林的方法对信息进行分析,最后使用投票的方法进行分类,虽然对于稀疏表示特征分析方法提高了精度,但对于光谱空间和特征空间的融合还有待研究[22]。
人工智能(artificial intelligence)算法在许多领域已经成为研究的热点,人工智能算法最突出的特点就是可以通过机器学习的手段,解决一些复杂的问题,其通过训练建立的模型非常稳定。目前在高光谱分类使用的人工智能算法主要有:支持向量机、遗传算法、蚁群算法、人工神经网络。
4.2.1 支持向量机(SVM)
支持向量机是一种基于机构风险最小化的机器学习监督算法,支持向量机结合核函数的方式,对高维数据进行分类时不需要降维,算法速度快,精度高,对于小样本的分类目标效果较好。刘向东和陈兆乾提出了一种快速支持向量机分类算法,几乎不损失识别精度的前提下提高识别速度,但在进行矩阵转换时较为困难[23]。徐杰基于支持模糊向量机的分类方法通过灰色关联度分析,有效的抑制了噪声和孤立点[24]。谭琨使用投票的方法有效解决了SVM多分类问题,分别使用了几种核函数进行了分类,最终结果表明高斯RBF核函数精度最高,但是如何准确估计参数值仍需研究[25]。陈建杰通过基于池的主动学习引入SVM多分类算法中,提高了分类精度,当样本数据量较大时,该算法仍较慢[26]。梁亮将ICA(独立分量分析)特征提取和支持向量机算法结合起来,提出了一种新型算法,提升了分类效果[27]。
4.2.2 人工神经网络
人工神经网络是机器学习的一个分支,近年来在图像处理方面获得了很大的发展。深度学习是建立在神经网络的基础上的一种新的机器学习方法,其模型层数复杂,解决多分类问题的效果较好。深度学习典型的结构包括卷积神经网络(CNN)、栈式自编码网络(SAE)、深度置信网络(DBN)。在高光谱分类方面,李新国提出了一种利用深度置信网进行高光谱分类的方法,其多层感知器结构能够对数据进行更深层次的挖掘。马效瑞提出了一种基于深度学习的高光谱影像分类方法,实现了深度特征提取,丰富了高光谱影响数据分析方法。
人工智能算法虽然在解决高光谱数据波段范围广、波段相关性高方面提供了一定的思路,但人工智能算法模型对于样本量的需求非常大,只有通过足够的训练才能建立稳定的模型,达到良好的分类效果。如何设计新型人工智能分类模型和小样本分类方法仍是人工智能算法需要解决的问题。
随着高光谱遥感成像空间的分辨率和光谱分辨率不断提高,对于高光谱图像分类算法的要求也越来越高。对于传统高光谱图像分类策略的算法而言,发展空谱联合、多特征融合、多分类器融合、多尺度融合的分类算法成为未来的发展方向,如何有效结合各方面数据源,深入挖掘图像信息,提升分类效率和分类精度,使得算法更好地应用到实际生活和应用中成为尚待解决的问题。
对于人工智能算法而言,虽然人工智能算法在解决某些复杂问题上为我们提供了思路,但样本需求高、建模困难、分类效果差、分类效率低仍是人工智能算法主要的问题。如何降低人工智能分类模型对样本的需求量,以最少的训练样本获取最精确的模型参数,提升人工智能算法的分类效果和分类精度,发展人工智能和传统分类相结合的优化算法,让人工智能算法趋于实用成为未来高光谱图像分类算法的重要研究方向之一。
综上可以看到,高光谱图像分类方法的发展方向呈现如下特点:
(1)发展新型分类器和分类方法仍是高光谱图像分类的主要方向之一。在机器学习、人工智能迅速发展的当前,如何有效将先进算法应用到高光谱图像识别上来仍是研究的热点。可以预见,随着智能算法的进一步发展,其在高光谱图像分类上的应用也将越来越成熟。
(2)发展多尺度融合、多方法融合、空谱联合的分类器。如何有效结合多个光谱尺度、多分类器方法、空间信息和光谱信息仍是尚待解决的问题,有效结合多个分类器的优点,挖掘各个光谱范围内的信息,联合空间信息和光谱信息来进行分类有利于高光谱图像分类处理的进一步发展。
(3)发展实时化、自动化的高光谱高光谱图像分类算法。目前常用的分类算法分类时间都相对较长,在一些自然灾害预警、军事伪装识别等领域对于算法的实时性和自动化要求较高,如何能实现高光谱图像实时分类以及自动分类将成为未来主要的研究方向之一。