高光谱图像分类

2019-01-18 00:41黄何康镇
科技传播 2019年1期

黄何 康镇

摘 要 近些年来,高光谱遥感技术迅速发展,同时也应用在了非常多的领域中。而高光谱图像分类是其一个重要的方向。但是高光谱图像成像机理复杂、波段繁多、数据量大等特点也向我们传统的图像分类方法提出了挑战。文章综合介绍分析了几种监督分类方法和非监督分类方法。监督分类方法主要介绍了平行多面体分类方法、最大似然分类方法、人工神经元分类方法;非监督分类方法主要介绍了K-means分类方法、ISDATA分类方法、谱聚类分类方法。同时还综述了支持向量机分类方法、最小二乘支持向量机分类方法、决策树分类方法等新型分类方法。

关键词 监督分类;非监督分类;最大似然分类;ISODATA分类;支持向量机分类

中图分类号 G2 文献标识码 A 文章编号 1674-6708(2019)226-0105-04

高光谱遥感技术起源于20世纪80年代初,它是在多光谱遥感技术的基础上发展起来的。经过数十年的发展,现在的高光谱遥感技术已经达到了一定的水平,在很多领域也得到了应用。比如它在农业中的应用,其主要表现在快速、精准地获取各种环境信息,以及农作物生长情况。在大气与环境应用上,在太阳光谱中,大气中的分子,如氧气、臭氧、二氧化碳、水蒸气等成分的反应十分强烈。而因为大气成份生变而引起的光谱差异通过传统宽波遥感方法难以准确识别,而这种差异可通过窄波段的高光谱识别出来[ 1 ]。

在城市环境与下垫面与环境特征的研究和应用,因为人们生活中的各种活动,使得城市环境与下垫面更为复杂。而高光谱遥感技术的进步,能让人们依据光谱特征,更深入地去研究城市地物,而各种高光谱遥感器的出现,使得对城市的光谱的研究更加系统而全面,也为城市环境遥感分析及制图打下了基础。

在地质矿物勘探中的应用,区域地质制图和矿物勘查是高光谱技术主要的应用领域之一,也使得高光谱遥感技术的作用得到了有效的发挥,由于高光谱遥感比起宽波段遥感有诸多不同之处,因此在电磁谱上,每种岩石和矿物所显示出诊断性光谱特征各不相同,根据这一原理能清楚地识别出其中的矿物元素[ 2 ]。

1 高光谱图像分类方法

高光谱图像分类的主要作用机理是,按照待测地物的空间几何与光谱信息,来划分图像中的每个像素,划作不同的类别。高光谱图像可采用监督和非监督两种分类方法。其中的区别在于:非监督分类用于对分类区知之甚少的情况下,在统计和分类时,完全依据的是照像元的光谱特性。非监督分类运算将原始图像的全部波段运用到其中,分类结果与各类像元数有着相类似的比例。因为无需人工干预,非监督分类可采用高度自动化来完成。非监督分类具体步骤如下:初始化各个分类、判断专题、分类合并、确定色彩、分类处理、定义色彩、转换栅格矢量、统计分析。监督分类更依赖于用户的控制,适用于对研究区域了解较透彻的情况下。在这种分类过程中,先选一些能够识别的,或者借助其它信息正确判断出类型的像元,来构建模板,再通过这一模块,使计算机系统对于具有相同特性的像元进行识别。评价分类结果后,对模板进多次优化,从而使它更为准确,并以此为基础做最后的分类。监督分类步骤如下:训练样本并构建模块、评价模块、确定出初步分类图、检验所得到的分类结果、二次处理、进行分类特征的计算、转换栅格矢量[3]。接下来介绍一些典型的监督分类方法和非监督方法。

1.1 监督分类方法

1.1.1 平行多面体分类方法

平行多面体分类方法,是种图像分类方法,指在多维特征空间中,每类形成一个平行多面体,待分个体进入其中便被归属,否则就拒绝的。分类时若使用这种方法,就要进行数据的训练和学习,从而得出基本的统计量信息[ 4 ]。假如,类别和波段数量分别为m和n个;Sij、Sij、Mij分别代表标准差、像元X在j波段的像元值和i类第j波段的均值。

某一类别i(i=1,2,…,m),当像元X满足:

(T为人为规定的阈值,T越大,一个类的范围越大)

1.1.2 最大似然分类

最大似然分类又叫作贝叶斯分类,该分类是一种新的图像分类方法,依据的是贝叶斯准则理论。是指在判定两类和多类时,以最大似然贝叶斯判决准则法作为判断标准,依据统计方法,进行非线性判別函数集的编写,假定每个分类都存在正太的分布函数,对训练区进行正确的选择,对每个待分类区进行计算,求得相应的归属概率,再进行分类[ 5 ]。这种方法的优势是方便快捷,比较简单;以贝叶斯原理为基础,再与其它先验知识结合分类,使得密度分布函数可以非常有效的解释分类结果。在波段较少的多波段数据中,这种方法可完美使用。同时,这个方法的分类时间随波段信息的增长成二次方增长;对训练样本要求高,训练的样本必须超过波段数。

1.1.3 人工神经元网络分类

人工神经网络(Artificial Neutral Networks,ANN)是模仿人的脑部思维和神经网络构建而成的,自适应性比较强,容错性也很高。在当前,人工神经网络在大量应用于各行各业,功能较强大,可完成控制智能化、信息的高效处理、组合优化等。神经网络发展至今,已分为多个种类,包括BP、RBF、自组织竞争、概率神经以及对象传播等神经网络。

1)BP神经网络:这种属于多层神经网络,达到三层以上,各层神经元间没有紧密的联系,泛化性能较优,在数据压缩、模式识别、函数逼近中大量使用。

2)RBF神经网络:RBF神经网络是种性能极佳的前向网络,它的优越表现在可实现最佳逼近,并可以克服局部最小化。RBF神经网络在函数的传递上,也有多种方法,常见的为以下3种:

(1)Gaussian函数:

(2)Reflected sigmoidal函数:

(3)逆Multiquadric函数:

3)自组织竞争神经网络:这种神经网络有着较好的自适应学习能力,可适用于模式分类和识别。

4)概率神经网络:这种神经网络能够解决分类问题,在网络结构的设计上,引用了贝叶斯判别函数,大大减少了错误。

5)对象传播神经网络:具备双向记忆功能是这种神经网络的主要优点,通过引入竞争层,使得输入、输出模式实现了相互映射。在模式分类、统计分析、数据压缩、函数近似等领域应用较广[6]。

1.2 非监督分类方法

1.2.1 K-means分类

K-means分类方法是最典型的目标函数聚类方法,以原型为依据。包含了以下流程:

1)从n个数据对象任意选择k个对象作为初始聚类中心(m1,m2,m3,…,mk);

2)依据各个聚类中心对象,即对象的均值来计算出与它距离最近的聚类中心,并将对象向聚类中心做以分配。

3)对各个聚类的均值做二次计算:

K-means方法是比较快捷和简单的,不过初始聚类中心和最佳聚类数也会影响到聚类结果。

1.2.2 ISODATA方法

ISODATA(Iterative Selforganizing Data Analysis),又叫作迭代自组织数据分析。它是在先验不足的情况下,通过给出一个初始聚类,然后再判断其是否达标,再利用迭代法反复调整,最后得出一个准确的聚类。其采用以下步骤:

1)选择初始值,设置聚类分析控制参数。可以运用各种参数指标,按照指标,将所有模式标本向各个聚类中心进行分配。

2)对各类中全部的样本的距离指标函数进行计算。

3)依据要求,对前一次所得到的聚类集进行分裂,并做并合处理,从而计算出新的聚类中心和分类集。

4)再次做迭代运算,对各项指标进行计算,以判断结果是否达标,直至求出最理想的聚类结果。

IOSDATA算法规则十分明确,便于计算机实现,但是要把握好迭代的次数,防止出现分类不到位的现象。

1.2.3 谱聚类方法

谱聚类算法是依据谱图理论所设计的高性能聚类方法。它是基于以下原理:假设{x1,x2,…,xn}代表n个聚类样本,图G=(V,E)可用于表示数据之间的关系,其中V代表顶点集。E代表连接任何两点边的集合。在图中,每个样本xi都可作为顶点,两顶点间的关联性Wij可通过xi与xj相连边的权值来表示。权值矩阵度量图G中,每个顶点间的相似性共同构成相似矩阵,记作W。为了实现图的划分,需要在空中优化某一准则,使同一类的点差别较小,不同类的点差别较大。通常准则函数的优化问题可以通过求解相似矩阵的特征值和特征向量来解决,通过分解相似矩阵的特征值,得到原有的数据集的谱映射,再利用聚类划分算法去计算映射得到的新样本空间,最终得到分类结果。该聚类算法仅与样本点的个数有关,而数据的维数对其没有影响。并且,其对聚类数据样本空间的形状没有特殊要求,容易得到最优解。

1.3 新型的分类方法

1.3.1 支持向量机分类法

支持向量机(Support Vector Machine,SVM)是新的分类方法,由Vapnic等人所设计,以统计学理论为基础。近年来,在图像识别中,支持向量机已得到应用,这和中方法的工作机理是,先设计出最佳的线性超平面,最大化它的正与反例间的隔离边缘,从而实现超平面的寻找算法的最优解。SVM作为一种高维的监督分类方法,它是有着不受休斯效应影响的优势,有着不错的效果。但同时,这种方法也有一定缺陷。首先,最大的问题是核函数的选择缺乏指导性,当针对具体的函数时,選择最佳的核函数是一个比较难的问题,还有就是这个方法的计算量较大。

1.3.2 最小二乘支持向量机分类法

近些年发展了许多SVM的变形,其中最小二乘SVM将优化问题的约束条件变为等式约束,从而不用花费大量的时间解决二次规划问题,使得分类效率大大提高。其算法表达式为:

解b,α即可。

最小二乘法SVM在运算的速度上有很大的优势,但其也是有其的缺点。首先来说,最小二乘法会影响到数据的稀疏性,每个数据点都会影响分类模型的构建。然后其估计值的稳定性是低于标准的SVM。同时,在传统SVM基础上,还设计出了拉普拉斯支持向量机(Laplacian Support Vector Machine, LapSVM),它是通过对流形正则化项的添加,无标签和有标签样本的几何信息来构造分类器。LapSVM具备能预测未来测试样本的标签、全局优化、适应性强的特点,更深入的方面就不再赘述。

1.3.3 决策树分类法

决策树分类法是一种很典型的分类方法,这种分类方法对数据的准备没有太多太高的要求,只是有时需要做比较多的预处理,分类的速度很快。其分类过程分为两步:

1)构建决策树模型。分两步进行,一是建树;二是剪枝。建树是利用递归过程来完成的,最后要形成一棵树;剪枝的目的在于降低训练集杂声造成影响。

2)使用已生成的决策树来对输入的数据进行分类。对待测样本的属性值从根节点依次测试和记录,直到某个节点,从而找到待测样本的属性值。

2 高光谱图像分类的挑战

尽管高光谱图像分类经过多年的发展,已经取得不小成就,但还是有其问题所在。首先还不易去识别高光谱:数据拥有较大的信息量,图像拥有成十上百个波段,信息量比起单波段遥感图像,多出了几百倍,数据冗余现象严重,不能科学地处理,就会影响到分类精度。

另外,因为成像原理复杂,数据量较大,使得很难对图像进行预处理,包括反射率的转换、几何校正、大气矫正、光谱定标等;当波段比较多时、每个波段间相似性都颇高,所以分类对于训练样本的需求量也更大,一般会由于训练样本较少使得无法得到可靠的训练参数;参数估计是影响统计学分类模型的主要因素,使得光谱特征的选择标准较高。从而使得常规遥感的处理和方法不适应高光谱图像分类的需要。

同时,在目前所有的分类过程中,多数采用传统的识别分类方法,如上文所介绍的几种方法。不过,因为遥感图像本身空间的分辨率不足,并存在异物同谱、同物异谱现象,会出现错分、漏分的现象,从而导致其结果的分类精度不高[7]。

由于遥感数据本身的复杂性,虽然现在有着许许多多的分类方法,但是还没有哪一种算法是最佳的。在SVM方法中,没有准确的核函数选取方法,当针对具体的问题时,很难选择最佳的核函数;当前在稀疏表示法中,也有很多研究涉及到了信号的恢复与重建,不过因为稀疏逆问题,造成了超分辨率重建单幅影像,融合空谱数据时较为困难。能够运用到的经验也比较少,使研究更加困难。怎样构建出准确的过完备字典,使稀疏重建精度更高,信号可以跨空/谱分辨率,有效传递,也是当前的研究重点[3]。目前遇到的主要难点就是研究新型的分类器和泛化能力强的算法;寻求多特征综合、多数据融合、多尺度复合。

3 结论

本文针对高光谱图像分类,介绍了几种监督分类、非监督分类以及两种新型的分类方法。并且简单分析了这几种算法各自的优缺点。我们可以了解到,目前我们所使用的算法中,还没有哪一种算法是十全十美的,现有的理论以及方法对于高光谱图像分类仍存在一定的局限性,这在今后将会是一个重要的研究方向。

参考文献

[1]杨哲海,韩建峰,宫大鹏,等.高光谱遥感技术的发展与应用[J].海洋测绘,2003(6):55-58.

[2]束炯,王强,孙娟.高光谱遥感的应用研究[J].华东师范大学学报(自然科学版),2006(4):1-10.

[3]王凯,赵懂.多源遥感技术在土地利用的应用综述[J].电脑知识与技术,2014(34):8328-8329.

[4]吕峰.利用航空影像和LiDAR点云进行建筑物重建的方法研究[D].成都:西南交通大学,2013.

[5]杨仁欣,杨燕,原晶晶.基于高光谱图像的分类方法研究[J].广西师范学院学报(自然科学版),2015(3):38-44.

[6]朱志球.基于數据融合的高光谱遥感图像分类研究[D].哈尔滨:哈尔滨工程大学,2008.

[7]张良培,李家艺.高光谱图像稀疏信息处理综述与展望[J].遥感学报,2016(5):1091-1101.