融合光谱度量标记迁移和Tri-training的高光谱遥感图像半监督分类算法

2023-12-01 02:53曹峰李文涛骆剑承李德玉钱宇华白鹤翔张超
大数据 2023年6期
关键词:度量分类器光谱

曹峰,李文涛,骆剑承,李德玉,3,钱宇华,3,4,白鹤翔,张超

1.山西大学计算机与信息技术学院(大数据学院),山西 太原 030006;

2.中国科学院空天信息创新研究院遥感科学国家重点实验室,北京 100101;

3.山西大学计算智能与中文信息处理教育部重点实验室,山西 太原 030006;

4.山西大学大数据与产业研究院,山西 太原 030006

0 引言

随着高光谱遥感技术的飞速发展,高光谱遥感图像数据日益丰富,面向大规模高光谱遥感图像进行信息处理和信息提取,已成为大数据时代对地观测的重要手段。高光谱遥感图像分类作为高光谱遥感图像信息处理和信息提取的主要研究方向之一,已被广泛应用于地质制图、植被调查、城市规划、军事侦查和环境监测等领域。高光谱遥感图像包含丰富的光谱和空间信息[1],可以更加细致地区分不同类型地物之间的差异,实现地物的精准分类。因此,结合光谱和空间特征的光谱-空间分类算法研究已成为当前高光谱遥感图像分类研究的热点[2]。

高光谱遥感图像光谱-空间分类算法主要包括3类:有监督、无监督以及半监督[3-4]。有监督分类算法基于有标记像元的光谱和空间特征构建分类器,并对未标记像元进行分类。无监督分类算法(通常称为聚类)不对像元进行类别标注,仅通过计算不同像元之间光谱和空间特征的差异来实现像元的分类[5]。因为有监督分类算法利用了像元的标记信息,所以往往可以获得比无监督分类算法更优的分类性能。但是,对像元进行正确标记需要借助专家经验,甚至需要进行实地调研,因此会付出大量的人力和时间成本。尤其是当面向大数据量的高光谱遥感图像分类任务时,获取大量标记样本变得尤为困难。半监督分类算法利用少量有标记像元和大量无标记像元进行分类器训练,既可以弥补有监督分类算法的不足之处,又可以获得更优的分类性能。

高光谱遥感图像光谱-空间半监督分类研究受到了众多学者的普遍关注,并取得了一系列的研究成果。当前,光谱-空间半监督分类研究主要包括基于图、基于自训练和基于集成学习的半监督分类算法。基于图的半监督分类以所有样本为节点、以样本相似度为边的权重构造图模型,类标记通过图结构逐步传递至图中的其他样本。程志会等[6]提出了基于空间特征与纹理特征的高光谱图像半监督分类算法,将空间特征与纹理特征相结合,并利用图进行半监督分类。何浩等[7]提出了空间-光谱约束的图半监督高光谱图像分类算法,将样本的空间相似性与光谱相似性相结合,并用相似性测度进行约束,进而基于图进行半监督分类。基于自训练的半监督分类算法,通过有标记样本训练出来的分类器对无标记样本进行预测,选择高置信度的“伪标记”样本加入训练集并不断迭代更新分类器,直至收敛。王俊淑等[8]在自训练迭代训练过程中,用最近邻域规则的数据剪辑策略对误标记样本进行过滤,提出了高光谱遥感图像DE-self-training半监督分类算法。王春阳[9]提出了基于信息熵的自训练半监督高光谱遥感影像分类算法,利用多分类Logistic算法得到类别概率信息,然后利用Renyi熵理论对无标记标签进行标注,扩充训练集后再进行迭代并预测分类。基于集成学习的半监督分类算法训练若干个基分类器,并通过一定的集成策略获得分类能力更强的学习器。Romaszewski M等[10]受到视频物体跟踪算法的启发,基于光谱特征和空间特征分别设计了两个分类器,共同组成Cotraining模型。Tri-training作为一种经典的基于分歧的集成学习方法,十分适用于高光谱图像分类等多分类问题。王立国等[11]提出了基于改进Tri-training的高光谱图像半监督分类算法,在高光谱图像处理的各个环节均引入了空间信息。在基于Tri-training的光谱-空间高光谱遥感图像半监督分类研究中,研究者发现差异化的Tri-training基分类器即组合3种基于不同理论或方法的基分类器,可以获得稳定性和泛化性较好的分类模型[11-12],因此得到了广泛使用。

Tri-training算法试图通过少量的初始有标记样本来学习较为完整的分类规则,故在扩充训练集的过程中难免会产生错分的情况,带有错误标记的样本进入训练集后会进一步影响正确分类规则的学习,从而严重影响分类结果。基于此,本文提出了一种融合光谱度量(spectral measure,SM)标记迁移和Tri-training的高光谱遥感图像光谱-空间半监督分类算法(简记SMT)。该算法充分利用高光谱遥感图像的光谱和空间特征,通过光谱度量标记迁移修正Tri-training算法来扩充样本的类标记,降低扩充样本的错分率,进而提高半监督分类算法的精度。

1 Tri-training 半监督分类算法

Tri-training算法又被称为三重训练算法[13],是在Co-training算法基础上发展起来的半监督协同训练分类算法。该算法重复训练3个基分类器,直到3个基分类器的分类结果不再变化时,算法的训练过程停止。Tri-training算法利用集成学习的思想进行未标记样本扩充,这种策略提高了未标记样本标记预测的置信度。与Goldman S提出的仅靠一个分类器来检测另一个分类器的经典Co-training算法[14]相比,Tri-training算法不但更加可靠有效,且无须进行交叉验证。Tri-training算法对基分类器的选择并没有特定要求,但研究表明,当3个基分类器不同时,该算法的预测精度和泛化性能往往更优。Tritraining算法通过计算样本错误率来改善错误分类的问题,然而当错误率满足更新条件时依然存在错分样本进入训练集的风险[15]。Tri-training算法的伪代码如算法1所示:

算法1Tri-training

Input:L:初始有标记样本集U:无标记样本集Learn:机器学习算法

Output:h(x)

1 fori∈{1,…,3}do

3 end for

4 repeat until none ofhi(i∈{1,…,3})changes

5 fori∈{1,…,3}do

6Li←∅;

8 ifhj(x)=hk(x)(j,k≠i)then

9 end if

10 end for

12 end if

16 end if

17 end if

18 end if

19 end if

20 end for

21 fori∈{1,…,3}do

22 if updatei=TUREthenhi←Learn

23 end for

24 end repeat

25 for restx∈Udo

27 end for

高光谱遥感图像数据具有自身的一些特点,如丰富的光谱信息和空间信息;同类地物光谱特征相似,异类地物光谱特征不同;存在空间相关性和异质性等。当Tritraining算法应用于高光谱遥感图像分类任务时,如何充分利用图像自身特性并结合算法的强大分类性能来设计更加高效的半监督分类方法,并进一步提升高光谱遥感图像的分类效果成为一项有意义的研究工作。

2 融合光谱度量标记迁移和Tritraining的高光谱遥感图像半监督分类算法

高光谱遥感图像同类地物之间具有较强的光谱相似性,而不同地物之间的光谱差异性则相对较大。另外,不同的光谱特征包含的信息量也具有差异性,因此,光谱特征在区分不同地物时发挥的作用不同。除了光谱特征,高光谱遥感影像还具有丰富的空间特征。基于此,本文充分利用光谱相似性、光谱信息量的差异性以及高光谱遥感影像的空间特征,通过集成Tri-training算法,提出了融合光谱度量标记迁移和Tri-training的高光谱遥感图像半监督分类算法,通过定义光谱度量来刻画样本之间的相似性,将基于光谱度量的标记迁移和Tri-training的基分类器相结合,减少错分样本进入训练集的风险。SMT算法将提高基于Tri-training算法的高光谱遥感图像分类的精度。融合光谱度量标记迁移和Tri-training的半监督分类算法流程如图1所示。

图1 融合光谱度量标记迁移和Tri-training的半监督分类算法流程

2.1 基于相关性度量的光谱特征重要性排序

光谱特征是高光谱遥感图像区分地物类别的主要特征,然而不同的光谱特征对分类的作用存在差异性。为了更好地区分这种差异,本文引入了基于相关性度量特征的重要性指标Merit(式(1))[16],用来评价不同光谱特征的重要性并据此进行光谱特征排序。一个重要的特征应该与类标记之间具有较强的相关性,与其他特征具有较弱的相关性。Merit基于该思想,通过计算特征与类标记以及特征与特征之间的相关性来评价不同的特征对分类的重要性。

其中,k是已选特征子集中的特征数;表示特征和类标记之间相关性的平均值;表示特征和特征之间相关性的平均值。

特征和类标记以及特征和特征之间的相关性定义如下:

I(•)表示两个随机变量之间的互信息,H(•)表示单个随机变量的信息熵。

2.2 基于光谱度量的标记迁移

高光谱遥感图像具有极高的光谱相似性,一般情况下,光谱特征相近的两个像元极有可能属于同类地物。本文通过定义光谱度量来评价两个像元之间光谱特征的差异,实现有标记像元到无标记像元的标记迁移。无标记像元u与类标记为c的像元v的光谱度量定义如下:

其中,k为波段数,σi为第i个波段的权重,dui为像元u在第i个波段的取值,表示类标记为c的像元v在第i个波段的取值。

考虑到光谱特征具有不同的分类能力,本文在定义光谱度量时对不同波段的光谱特征进行加权。对分类能力较强的波段赋予较大的权值,而对分类能力较弱的赋予较小的权值。对k个波段的光谱特征按照式(1)的相关性度量进行重要性排序后,其权值设定为:

当类标记取不同值时,未标记像元u的类y定义为:

即选择光谱度量值最小的类作为待分类像元的类标记。

2.3 光谱-空间特征的结合

高光谱遥感图像不仅包含丰富的光谱信息,还包含丰富的空间信息。融合了光谱和空间特征的分类算法输入的分类信息更加丰富,因此可以获得更优的分类性能。纹理特征是高光谱遥感图像相邻像元或相邻区域内几何位置等相互关系的表征,是一种重要的空间特征。灰度共生矩阵通过计算图像各像元灰度级之间的联合条件概率表示纹理,可以提取多种纹理特征[17]。本文利用灰度共生矩阵提取了对比度、熵、二阶矩和反差分矩阵4种重要纹理特征,结合光谱特征和纹理特征,构建基于光谱-空间特征的高光谱遥感图像半监督分类算法。

对比度(contrast)反映了图像的清晰度和纹理的沟纹深浅,如式(7)所示。纹理越清晰、反差越大,对比度也就越大。

熵(entropy)度量了图像包含的随机性,表现了图像的复杂程度,如式(8)所示。当灰度共生矩阵所有值均相等或像素值表现出最大的随机性时,熵最大。

二阶矩(angular second moment,ASM)又称能量,是图像灰度分布均匀程度和纹理粗细的一个度量,如式(9)所示。当图像纹理均一且规则时,能量值较大;反之,灰度共生矩阵的元素相近时,能量值较小。

反差分矩阵(inverse differential moment,IDM)又称逆方差,反映了纹理的清晰程度和规则程度,如式(10)所示。纹理清晰、规律性较强时,逆方差值较大。

2.4 基于空间相关性的样本扩充

Tri-training算法在扩充训练样本的过程中,采用随机策略选择未标记样本,并不区分未标记样本之间的差异。高光谱遥感图像数据是空间地理实体的描述数据,具有很强的空间相关性。因此,本文基于高光谱遥感图像数据的空间相关性,以相近相似原理为理论依据,优先选择已标记样本的邻接像元进行标记扩充,增强样本扩充过程中标记的准确性。图2展示了基于空间相关性的样本扩充过程,可以看出,标记像元n个邻域的全部未标记像元优先进入扩充样本集。

图2 基于空间相关性的样本扩充方法示意

2.5 融合光谱度量标记迁移和Tritraining的半监督分类算法

当初始有标记样本数量较少时,Tritraining算法会存在两个分类器出现相同错分结果的现象,此时的待测样本会被标记为错误的类别,并进入训练集参与分类器的训练,从而影响分类效果。本文将光谱度量标记迁移和Tri-training算法相融合,当两个分类器与光谱度量的预测类别一致时,待测样本才会被标记为该类别,并进入训练集,直到训练集不再发生变化,迭代过程停止。本文所提算法的伪代码如算法2所示。

算法2融合光谱度量标记迁移和Tri-training的SMT算法

Input:L:初始标记样本集,U: 无标记样本集,Learn: 机器学习算法,More:空间邻域样本扩充方法,CFS: 基于CFS的特征排序算法,k:光谱维数,M: 光谱特征集,dp:光谱特征p∈(0,k),

SM: 光谱度量算法, GLCM: 灰度共生矩阵算法,M′:排序后的光谱特征集,σp:光谱权值,

Con、Ent、ASM、IDM:纹理特征,TT:Tri-training算法各分类器分类结果,Vote:绝对多数投票法

Output: C

1M′←CFS(M),

2 Con, Ent, ASM, IDM←GLCM(dp)(p∈{0,…,4})

3M′←M′∪Con∪Ent∪ASM∪IDM

4 forp∈[0,k]

5if () then

7 end if

8 end for

9 fori∈{1,…,3}do

11 end for

12UL←More(S1,S2,S3)

13 repeat until none ofhi(i∈{1,…,3})changes

14 forx∈ULdo

15cj,ck←TT(x) ;y←SM(x)

16ci←Vote(cj,ck,y)

17Li←Li∪{(x,c)}

18 end for

19 fori∈{1,…,3}do

20hi←Learn(Si∪Li)

21 end for

22 end repeat

23 for everyx∈Udo

24ci,cj,ck←TT(x) ; y ←SM(x)

25c←Vote(ci,cj,ck,y)

26 end for

3 实验设计与结果分析

3.1 实验数据

Indian Pines数据集是由AVIRIS传感器拍摄的一幅美国西北部印第安纳州的高光谱遥感图像的一部分,如图3所示。其图像大小为145×145(空间分辨率为200 m),图像共有16个地物类别、220个波段。其中,第104~108个、第150~163个和第220个波段不能被水反射,在经过修正后,去除了其中20个低信噪比的波段,最终共有200个波段参与实验。

图3 Indian Pines高光谱遥感图像

Pavia University数据集是由ROSIS光学传感器拍摄的意大利帕威亚大学的高光谱遥感图像,如图4所示。图像大小为610×340(空间分辨率为1.3 m),图像共有9个地物类别、115个波段。在经过修正后,去除了12个受噪声影响严重的波段,最终共有103个波段参与实验。

图4 Pavia University高光谱遥感图像

3.2 实验设置

使用本文提出的融合光谱度量和Tritraining的高光谱遥感图像半监督分类算法对以上两个数据集进行分类。为了确保实验的准确性,对每个数据集分别进行10次独立重复实验,获得分类结果的总体分类精度(overall accuracy,OA)、平均分类精度(average accuracy,AA)和Kappa系数的平均值并将其作为算法性能的评价指标。

本文实验中SMT-RSK表示所提算法中Tri-training算法的基分类器为SVM(支持向量机)、RF(随机森林)和KNN(最近邻分类器)。SMT-RF、SMT-SVM和SMT-KNN表示SMT算法中,Tri-training算法分别使用的是3个RF、3个SVM和3个KNN基分类器。T-RF、T-SVM和T-KNN分别表示使用3个RF、3个SVM和3个KNN基分类器的Tri-training算法。实验对比了SMT与Tri-training算法当基分类器不同时分类性能的差异。

3.3 实验结果和分析

3.3.1 Indian Pines数据集的实验结果与分析

为了验证本文所提SMT算法的有效性,首先对不同集成方式下的多种半监督分类算法在Indian Pines数据集上的分类性能进行了对比。分类结果如图5所示,分类结果的OA、AA和Kappa系数见表1所示。由表1可以看出,融合光谱度量的SMT-RSK算法的OA值比未融合光谱度量的Tri-training算法T-RSK的OA值提高了8.98%。融合了光谱度量和单一基分类器Tri-training的SMT-RF、SMT-SVM和SMT-KNN算法的OA值比未融合光谱度量的T-RF、T-SVM和T-KNN算法分别提高了8.3%、9.8%、9.28%。SMT-RSK算法的AA值较T-RSK算法提高了8.97%,融合了光谱度量的SMTRF、SMT-SVM和SMT-KNN算法的AA值比未融合光谱度量的T-RF、T-SVM和T-KNN算法分别提高了7.64%、9.33%、9.7%。对比Kappa系数,SMT-RSK比T-RSK提高了0.108,SMT-RF、SMT-SVM和SMT-KNN比T-RF、T-SVM和T-KNN算法分别提高了0.1389、0.1348、0.1231。由此可见,融合光谱度量和Tri-training算法的半监督分类算法在Indian Pines数据集上取得了良好的分类性能。

表1 Indian Pines数据集在不同集成方式下的多种半监督分类算法分类结果

此外,本文还将所提算法与其他高光谱图像半监督分类算法,如CMSI[18]、3CLL[19]、LGC[6]、SFCM[20]、MT[21]算法在Indian Pines数据集上的分类性能进行了对比,结果见表2,本文算法得到的分类结果在各方面大多优于CMSI、LGC、SFCM、MT算法。虽然在总体分类精度(OA)上略低于3CLL算法,但本文算法的各类别平均分类精度(AA)高于3CLL算法(约2%)。

表2 Indian Pines数据集在不同半监督分类算法下的分类结果对比

3.3.2 Pavia University数据集的实验结果与分析

为了进一步验证本文所提算法的有效性,对不同集成方式下的多种半监督分类算法在Pavia University数据集上的分类性能进行了同样的对比实验。分类结果如图6所示,分类结果的OA、AA和Kappa系数见表3。从表3可以看出,融合光谱度量后,SMT-RSK的OA值、AA值和Kappa系数比未融合光谱度量的Tritraining算法T-RSK分别提高了8.88%、8.65%和0.1059。同样,融合了光谱度量的SMT-RF、SMT-SVM和SMT-KNN算法比T-RF、T-SVM和T-KNN算法的OA值、AA值和Kappa系数均有不同程度的提高。由此可知,融合光谱度量和Tri-training的半监督分类算法在Pavia University数据集上同样取得了良好的分类性能。

表3 Pavia University数据集在不同集成方式下的多种半监督分类算法分类结果对比

图6 Pavia University数据集在不同集成方式下的多种半监督分类算法分类结果

本文还将所提算法与其他高光谱图像半监督分类算法CMSI、FWA[22]、SDME[23]、SFCM、MT在Pavia University数据集上的分类性能进行了比较,对比结果见表4。可以看出,本文算法得到的分类结果在3项评价指标上均优于对比算法。

表4 Pavia University数据集在不同半监督分类算法下的分类结果对比

图7对表1和表3中不同集成方式下的多种半监督分类算法在Indian Pines和Pavia University两个数据集上的分类结果的OA、AA和Kappa系数进行了直观的对比,可以看出融合了光谱度量标记迁移和Tri-training的分类算法比Tritraining算法的分类性能有比较显著的提升。当所提算法中Tri-training的基分类器不同时,分类效果最优。

图7 Indian Pines 和 Pavia University数据集在不同集成方式下的半监督分类结果的总体精度(OA)、平均精度(AA)和Kappa系数对比

3.3.3 消融实验

为了研究本文算法中光谱度量标记迁移和Tri-training算法在融合过程中发挥的作用,本文在Indian Pines和Pavia University两个数据集上进行了消融实验,实验结果见表5。由表5可以看出,在两个数据集上,使用基分类器不同的Tri-training进行分类时,分类结果的OA、AA和Kappa系数均高于使用光谱度量标记迁移进行分类时相对应的评价指标的值,表明Tritraining算法的分类性能优于光谱度量标记迁移。而当光谱度量标记迁移和Tritraining进行融合时,分类结果的OA、AA和Kappa系数得到了较大的提升,由此可见二者的融合可以明显改善分类的性能。

表5 消融实验对比结果

3.3.4 重要参数对算法性能的影响分析

初始样本数量N和扩充邻域数n是Tritraining算法的两个重要参数,它们的取值将直接影响算法的性能。下面以Indian Pines数据集为例,通过观察样本数量和扩充邻域数的取值对总体分类精度OA的影响,探讨如何获取最优参数值。图8和图9分别描述了初始样本数量N和扩充邻域数n与OA的关系。通过图8可以看出,随着初始样本数量的增长,SMT-RSK和T-RSK算法的OA值都在不断提升。当初始样本数量从10增长至20时,两种算法的OA值分别提升至0.89和0.85,提升效果显著。之后OA值随着初始样本数量的增加呈缓慢上升趋势。因此,初始样本数量的取值设定为20,即按比例提取各类初始样本最多不超过20个,此时总体分类精度较高且所需的有标记样本数量较少。

图8 初始样本数量N与OA关系

图9 扩充邻域数n与OA关系

由图9可以看出,从有标记样本向外扩充5~7个邻域时,总体分类精度OA提升至0.9~0.91,提升效果显著。而当扩充8个以上邻域时,OA值有所下降。因此,在同时满足OA值较高且所需标记样本数量较少的条件下,本文设定n的取值为5。

4 结束语

本文主要研究基于光谱-空间特征的高光谱遥感图像的半监督分类,提出了一种融合光谱度量标记迁移和Tri-training算法的半监督分类算法。该算法综合运用了高光谱遥感图像的光谱特征和空间特征,以增强分类过程中样本的区分度。在结合Tri-training算法进行有标记样本扩充的过程中,定义了一种新的光谱度量标记迁移方法,并基于该方法增强扩充样本标记的准确性,减少错误标记样本的引入。实验结果证明,本文算法具有良好的分类性能。

形态学特征也是高光谱遥感图像包含的重要空间特征。形态学特征有助于选择更具有光谱代表性及空间合理性的初始有标记像元。当高光谱图像分类中包含的地物类别较多时,可以借助形态学特征将全局的多分类问题转化为局部的二分类问题,更易于提高图像分类的精度。因此,未来笔者将对融合光谱度量标记迁移和Tri-training的高光谱遥感图像分类算法进行改进,通过融合形态学特征进一步提升图像分类的精度。

猜你喜欢
度量分类器光谱
基于三维Saab变换的高光谱图像压缩方法
鲍文慧《度量空间之一》
模糊度量空间的强嵌入
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
地质异常的奇异性度量与隐伏源致矿异常识别
星载近红外高光谱CO2遥感进展
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别