摘要:本文主要研究不同分类阈值因子对模糊均值聚类分类结果精度的影响。我们选取了5种分类阈值因子(在0.5~2.5之间)对Landsat 8多光谱遥感影像的图像数据进行分类实验,并进行了精度分析,发现分类阈值因子在等于1.0时,精度最高。
1、引言
非监督遥感图像分类方法是利用数据中的光谱特征的相似性来进行数据的分类。相比监督分类,事先不需要了解研究区域,在分类过程中不需要任何训练样本的参考,减小了人为因素对分类结果的影响并节约了成本,但分类结果只能区分不同类别,对不同类别的属性没有任何的判断并且运算量更大。在各领域使用的聚类算法当中,模糊C-均值聚类(FCM)得到了大量的实际采用。它是一种根据每一样本点相对于每一聚类中心相似程度来确定每一点属于某一类别的算法,由传统的c-均值聚类算法改良而来。相比传统聚类方法,FCM会考虑每点数据对全部类别的类似度,但每种聚类方法都有自己的缺点,比如FCM算法在进行聚类前需要确定样本的聚类数,并且初始聚类中心对分类结果的影响很大,初始值的选择不当会导致目标函数得到不佳分类结果。
目前,聚类算法已经普遍被许多领域所应用,例如生物领域、医学领域、经济领域、数据处理领域等。在自动数据划分或分类处理中它是一种重要方法,是数据挖掘中的研究重点。由于使用者出于不同的分类目的应用不同的聚类方法在于相同样本上,得出的分类效果都不一样,因此该算法的改进一直是国内外的热点研究方向。刘小芳等提出将半监督学习理论和核理论一同引入FCM算法,核理论使特征向量低维非线性在高维空间变成线性可分,半监督分类引导未标记的数据,从而使分类精度得到了提高。蔡静颖等提出了将核主分析和文化算法相结合的新方法,根据UCI 提供的标准数据集 Breast cancer 和 wine ,分析了这种新方法在用于FCM算法上的速度和精确度。包健、厉小润为了让样本光谱差异最大采用最大最小选心法并将VC++2005作为开发平台,深入分析不同迭代次数下分类结果的变化。杨仁欣等人结合应用实例具体阐述了高光谱图像分类中K-均值聚类法并提出了在其中加入随机项来优化性能的新算法。在应用迭代自组织分析算法时为了避免聚类过程的随机性结合了PSO获得了不错的结果。谢福鼎,李壮提出了一种使有标记的样本数据在迭代过程中引导未标记数据新的半监督FCM算法,分类精度随着被标记的样本数比例增加也随之增加。
2、方法原理
模糊C均值聚类(FCM),在1973年由Bezdek提出,是由早期的硬C均值聚类(HCM)方法改进而来。是一种基于数据划分的聚类算法,使不同簇之间的相似度最小,而被划分到同一簇的对象之间相似度最大,是它的思想。
在公式中J表示区域内的一点到聚类中心的距离加权平方和,uij表示样本点xi隶属于第j类的值,m表示模糊指数,c表示聚类分类数目,vj表示第j个聚类中心,dij2表示样本点xi到聚类中心vj的欧式距离。在使用此算法时首先确定分类数目并且初始化隶属度矩阵,通过(2)、(3)式不断反复更新聚类中心和隶属度矩阵,当目标函数小于某个阈值时就得到了各类聚类中心和隶属度。
与传统的硬聚类相比,FCM方法会计算每个样本到所有类别的相似度,某样本对某类的相似度在对所有类的相似度中最高,则把该样本分到这个类,如果该样本到所有类的相似度不突出,则我们用其他方法帮助分类。这样使我们得到的分类结果更加可靠。
使用FCM算法在聚类分类时有个很大的缺点,当样本点数量不均匀时,如其他样本类别容量很小,该样本的容量很大会导致样本的M个邻居中大容量类的样本占大多数。该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。该算法的另一个缺陷是计算量大,为了求得它的最近邻点,对每一个待分类的样本点都要计算它到所有已知樣本点的距离。
首先将内蒙古呼和浩特市地区的landsat8多光谱遥感影像下载好,使用ENVI软件对图像进行辐射定标和剪裁。将FCM算法在VS2010中配置好,对经过预处理的多光谱遥感影像进行聚类分类处理。
3、实验
3.1、实验数据
本实验选取的数据为美国国家航空航天局(NASA)发射的Landsat8卫星所搭载的陆地成像仪(OLI)拍摄的图像,共9个波段,包括一个全色波段,我们只使用其中的8个波段。
3.2、实验结果
我们将通过预处理的八个波段的多光谱影像和带有7种VI指数的融合图像输入到FCM算法程序中,通过分别将分类阈值(L)改为0.1、0.01、0.001、0.0001和分类阈值因子(M)改为0.5、1.0、1.5、2.0、2.5,得到了40种不同的聚类结果。用经过预处理的多光谱遥感影像上提取的不同地物类型的样本点位对聚类结果分别进行总精度计算、KAPPA系数计算、生产者精度计算以及用户精度计算,我们将计算结果以折线图的方式呈现出来。
图2为多光谱图像在分类阈值为0.1下的聚类分类精度曲线,我们可以看出折线呈波浪型,精度在33.92%到64.86%之间,从阈值因子为0.5时折线呈上升趋势,精度大幅升高,在阈值因子为1时分类精度最高可为64.86%,从此开始下降,在到达37.07%时精度开始趋于平缓。
4、结论
本文以呼和浩特市以及周边地区为研究区域,进行非监督学习的遥感影像分类算法研究。选择一期2015年8月的遥感影像,在FCM算法中选取了四种分类阈值和五种阈值因子并对多光谱数据以及加入七种植被指数的融合数据进行了分类,对所有分类结果都绘制出与之相对应的精度折线图,通过对折线图进行分析,得出以下结论:在使用FCM算法时,分类阈值因子设置为1.0时聚类结果的总精度最高。
作者简介:梁晓艳(1979.07-),女,本科,工程师,研究方向是测绘技术应用