基于人工蜂群算法的多角度遥感影像分类

2018-09-04 09:33杨雪峰毛东雷
自然资源遥感 2018年3期
关键词:蜜源多角度波段

杨雪峰, 叶 茂, 毛东雷

(新疆师范大学地理科学与旅游学院,乌鲁木齐 830054)

0 引言

遥感技术是获取大范围土地覆被状况信息的主要手段。由于遥感数据中包含了有关地表物体的空间、光谱和结构等多方面信息,加之在自然界复杂环境下地表物体相互影响,如何有效地从遥感数据中发现和提取关于地表物体的相关信息,长期以来一直是该领域的研究热点[1]。在区分地表覆被类型时,如何合理选用分类器以取得较好的分类效果显得非常重要。

在众多的分类方法中,按照是否需要样本数据,可分为监督分类和非监督分类; 根据是否需要考虑数据分布,又可分为参数分类和非参数分类。参数分类器主要有ISODATA、最大似然分类(maximum likehood classification,MLC)、平行六面体和最小距离分类法等,这类分类器当数据分布符合假设条件时能取得较好的分类效果; 但当具体情况与假设不同时,或者数据量较少时,分类结果往往不好。非参数分类器主要包括神经网络、决策树(decision tree,DT)和支持向量机(support vector machine,SVM)等,这类分类器由于不对数据分布做出过多假设要求,因此一般情况下能取得比参数分类器更好的分类效果[2-4]。基于上述优点,这些分类器在遥感数据分类领域已得到广泛应用[5-6]。

群智算法作为一种较新的非参数分类方法,其主要思想是通过模仿自然界的蚂蚁、鱼群和蜂群等自然生物的觅食行为,通过个体间协作和竞争等行为实现复杂问题的优化求解。其中典型的蚁群优化(ant colony optimization,ACO)和粒子群优化(particle swarm optimization,PSO)算法得到了较广泛的应用[7-8]。人工蜂群(artificial bee colony,ABC)算法继承了群智算法的基本思想,通过模仿自然界蜜蜂寻找食物的自然过程来解决优化问题,自Tereshko[9]和Karaboga等[10]提出ABC算法以来,该方法已在最优化研究领域得到了广泛应用。但ABC算法用于数据分类的研究则相对较少,Çelik等[11]较早地提出了使用ABC算法进行数据分类研究,通过对加州大学欧文分校(University of California,Irvin,UCI)机器学习数据集[12]进行处理,并与C4.5法和PSO法进行比较,结果表明ABC法优于PSO法,但低于C4.5法。Shukran等[13]使用标准ABC法和优化后的ABC法与5种常用算法对6种UCI数据集进行分类,其中ABC法在分类结果中占优势。在使用遥感数据进行分类的研究中,Jayanth等[14]采用LISS-IV多光谱数据对门格洛尔海岸的6种土地覆被类型进行分类,认为ABC算法分类精度比MLC高5%,比SVM高3%; 曹敏等[15]采用ALOS多光谱影像对长江口北岸进行土地覆被分类,ABC算法分类精度比See5高约3%。就目前研究来看,ABC算法在数据分类和数据挖掘领域的研究还较少,尚存在较多的不确定性,例如在对不同数据的适用性、不同参数设置的影响、各种优化设定的影响等方面还存在很多未知数,还需要通过更多的研究来推动ABC算法在数据分类和数据挖掘领域的应用。鉴于上述情况,本文应用JAVA语言实现ABC分类算法,对塔里木河中下游多角度遥感影像数据进行分类研究; 测试实际分类效果,与MLC,DT和SVM分类法进行比较; 并对使用ABC分类算法中发现的规则进行分析。

1 ABC算法

1.1 基本原理

ABC算法模仿自然界蜂群的觅食行为,用蜜源表示问题可能的解,用适宜度表示蜜源的质量。问题求解过程: 首先,通过雇佣蜂在解空间中随机寻找蜜源; 随后,观察蜂在寻得较高适宜度蜜源的雇佣蜂附近进行下一步搜寻; 如果观察蜂在限定次数内未能发现更高质量的蜜源,则转变为侦察蜂,再次在解空间中随机寻找; 重复这一过程,直至达到预定的迭代次数,结束搜寻过程。

1.2 算法流程

算法具体流程如图1所示。

图1 ABC算法流程Fig.1 Flowchart of ABC algorithm

1.2.1 蜂群初始化

首先,从搜索空间中随机产生N个蜜源,其中每个蜜源代表可能的一组解。实验中使用的多角度数据集由12个波段的反射率数据组成,再分成上、下阈值,共24组数据,所以数据的维数D为24,每组解都由24组反射率参数组成。为了让随机产生的蜜源更具代表性,减少搜索时间,每一类土地覆被类型在初始化时,都遍历训练集中该类的所有样本,获取每一波段反射率值中的最大值(Max)、最小值(Min)作为搜索空间的上、下边界,以达到缩小搜索空间的目的。对不同蜜源采用不同的初始化策略。前N/2个蜜源的24维参数赋值方式为

Xi,j=Rand()·(Maxj-Minj)+Minj,

i∈{1,…,N/2},j∈{1,…,12} ,

(1)

式中:Xi,j为参数值;Rand()为随机数函数;i为蜜源;j为波段数。

然后,获取波段反射率值的均值(Mean),对前N/2的蜜源做数据镜像处理,生成后N/2的蜜源数据的解,以提高解的多样性。后N/2个蜜源的24维参数赋值方式为

i∈{N/2,…,N},j∈{1,…,12}。

(2)

1.2.2 蜂群进化

在雇佣蜂阶段,雇佣蜂在随机产生的蜜源附近寻找新蜜源; 并通过比较两者的适宜度值,保留较好的蜜源并更新蜜源。在观察蜂阶段,观察蜂以贪婪算法选中蜜源后,也在其附近寻找新蜜源,同样经比较两者的适宜度后,保留更优蜜源并更新蜜源。

1)适宜度函数。采用适宜度函数计算适宜度值。常用的适宜度函数有

Precision=TP/(TP+FP),

(3)

Accuracy= (TP+TN)/(TP+TN+FP+FN),

(4)

(5)

式中:Precision为精度;Accuracy为准确度;Sensitivity为灵敏性;Specificity为特异性;TP为符合规则且与规则预测类型相同的样本数;FP为符合规则但与规则预测类型不同的样本数;TN为不符合规则且与规则预测类型不相同的样本数;FP为不符合规则但与规则预测类型相同的样本数。

考虑到本次评价的是最大分类精度,因此本文采用Precision作为适宜度函数。

2)更新蜜源方法。雇佣蜂和观察蜂更新蜜源的方式采用了异步变化学习因子[16],其计算公式为

Vi,j=Xi,j+C1·Rand()·(bpi-Xi,j)+C2·Rand()·(bg-Xi,j) ,

i∈{1,…,N},j∈{1,…,12}

(6)

式中:Vi,j为更新后的值;Xi,j为更新前的值;bpi为第i个蜜蜂找到的最优蜜源;bg为所有蜜蜂找到的最优蜜源[16];C1和C2为更新步长,即

(7)

(8)

其中C1和C2的取值范围为[Cmin,Cmax] ,这里分别取值为0.5和2.5;t为当前迭代次数;tmax为最大迭代次数。

3)蜜源选择。在雇佣蜂更新蜜源之后,观察蜂通过计算概率P来决定选择哪一个蜜源,即

(9)

式中:N为蜜源数量;fiti为第i个蜜源的适宜度值,i∈{1,...,N}。

4)剪枝。剪枝的目的是逐一检查已发现规则中的每个属性,找出并去除无关的属性,以改善规则的泛化误差,进一步提高分类精度。具体采用的方式是逐一移走各个属性,若最后精度提高,则去除该属性,否则保留。

1.2.3 蜂群淘汰

如果某只观察蜂连续n次未能找到更好的蜜源,则当前观察蜂变为侦察蜂,并随机产生一个新的蜜源代替淘汰的蜜源。

1.3 基于ABC算法的分类方法

在土地覆被分类中,对不同地类可以通过该地类在遥感影像各波段的波段值来区分。以上逻辑通过规则形式表示为: 若X1Low

基于ABC算法的分类过程(即规则发现过程)如图2所示。

图2 基于ABC算法的数据分类流程Fig.2 Flowchart of data classification based on ABC

2 实验与分析

2.1 多角度遥感数据及其处理

本文实验使用的遥感数据来自EOS TERRA卫星上搭载的多角度成像光谱仪(multi-angle imaging spectroradiometer,MISR)。该传感器提供了9个角度的观测信息,分别是4个前向观测角: AF(26.1°),BF(45.6°),CF(60.0°),DF(70.5°); 4个后向观测角: AA(26.1°),BA(45.6°),CA(60.0°),DA(70.5°)以及1个天底角AN(0.0°)。每个角度的传感器都有4个波段: 蓝光波段(446 ± 21 nm),绿光波段(558 ± 15 nm),红光波段(672 ± 11 nm)和近红外波段(866 ± 20 nm)[17]。对同一个地点,可同时得到4个波段、9个角度的36个观测值,所有观测波段的空间分辨率分别为275 m和1.1 km这2种(表1)。

表1 全球模式下MISR各角度影像波段空间分辨率Tab.1 Spatial resolution of various angle image bands of MISR at globe mode (m)

多角度观测的优势在于充分利用地表物体在不同太阳光入射和观测角条件下形成的二向反射特性,从而更深入地发现地物反射和地物结构之间的联系。使用多角度数据集进行土地覆被分类要优于传统垂直观测数据的分类结果[18]。本文实验使用的多角度数据集覆盖塔里木河中下游地区,该地区属于暖温带极干旱气候区,自然植被覆盖度很低,植被光谱容易受到土壤背景的影响,因此大大影响了分类效果。数据集由4 367个采样点的光谱信息和土地覆被类型数据组成,其中光谱数据包括MISR影像中所有空间分辨率为275 m的9个角度的红光波段和天底角AN的蓝光、绿光、近红外波段共12个波段的地表反射率数据。土地覆被类型主要有灌木、林地、未利用地、草地、耕地和水体6类(表2)。

表2 土地覆被类型Tab.2 Types of land cover

2.2 分类实验

本文实验使用的ABC算法基于JAVA软件实现,其主要参数有: 蜂群规模、迭代次数、最少重复寻找次数、最少规则覆盖度和最小样本覆盖度,根据前人研究的经验[19],分别设置为200,200,5,0.05和5~15。本文实验使用的卫星遥感数据的所有波段值均是由原始DN值经辐射定标和大气校正后转换得到的地表反射率值,数值范围在[0,1]之间,即ABC算法是在解空间[0,1]内寻找不同土地覆被类型在各个波段中的地表反射率的上、下阈值。另外,与ABC算法进行对比的分类算法分别为: ①ENVI[20]软件实现的MLC; ②Weka[21]软件实现的J48决策树(J48是C4.5算法的一个版本); ③LibSVM[22]软件实现的SVM分类。

在分类过程中,首先随机选取数据集中2/3的数据作为训练集,剩余的1/3作为测试集; 然后使用ABC法先对训练集进行规则发现,再使用规则集对测试集数据进行分类; 对其他几种分类法,分别使用训练集进行训练,完成参数选择和调整后,对测试集数据进行分类; 最后分别计算混淆矩阵、总体精度和Kappa系数。

2.3 结果分析

2.3.1 分类精度

4种分类算法的分类结果混淆矩阵见表3—6。

表3 MLC法分类结果混淆矩阵Tab.3 Confusion matrix of MLC classification result

表4 C4.5法分类结果混淆矩阵Tab.4 Confusion matrix of C4.5 classification result

表5 ABC算法分类结果混淆矩阵Tab.5 Confusion matrix of ABC classification result

表6 SVM分类结果混淆矩阵Tab.6 Confusion matrix of SVM classification result

分类结果为: MLC总体精度为0.689 3,Kappa系数为0.585 7; C4.5总体精度为0.701 1,Kappa系数为0.573 9; ABC总体精度为0.713 6,Kappa系数为0.586 1; SVM总体精度为0.771 2,Kappa系数为0.675 1。4种分类算法的分类结果按总体分类精度的大小顺序排列为: SVM >ABC >C4.5 >MLC。实验结果表明,ABC算法的分类精度与C4.5法相当,两者都优于MLC法,但都与SVM有较大差距。比较单个土地覆被类型分类的用户精度,ABC算法只有水体的分类精度比SVM略高,草地的分类精度则是所有分类法中最低的。总体而言,在所有地类的分类精度上,ABC与C4.5算法的结果最为接近。说明ABC算法是一种较好的遥感影像分类方法,能够提供有效的分类结果。

2.3.2 分类规则

ABC分类算法的一个显著特点是可以生成分类规则,部分规则举例如下:

IF AN_NIR >= 0.372 704 AND AA_RED <= 0.306 317 THEN 5

IF AF_RED <= 0.109 989 THEN 3

IF AA_RED >= 0.375 172 THEN 4

IF AF_RED >= 0.211 149 AND DF_RED >= 0.247 13 AND AN_NIR >= 0.343 532 AND AF_RED <=0.269 535 THEN 6

IF DF_RED >= 0.295 815 AND AN_BLUE >= 0.142 819 AND AN_NIR >= 0.316 694 AND AF_RED <= 0.283 237 THEN 1

IF DF_RED >= 0.278 379 AND AN_NIR >= 0.340 475 AND AA_RED <= 0.326 734 AND AN_RED <= 0.294 902 THEN 2

规则中类别1─6分别代表灌木、林地、水体、未利用地、耕地和草地。

分类规则的显著特点是便于理解,不像神经网络等算法为黑箱操作。通过对规则的分析,便于发现隐藏在数据中的规律,从而进一步理解分类过程。

为了更好地理解MISR多角度数据集分类规则中包含的信息,对分类规则中涉及的所有属性按频数统计并做归一化处理后,生成规则属性频数分布曲线(图3)。

图3 ABC算法规则属性频数分布曲线Fig.3 Frequency distribution curves of ABC rule’s attributes

从图3可以看出,绿色植被类型(灌木、林地、耕地和草地)分类规则中都大量使用了近红外波段,所有类型都较多使用了AA后向观测数据,而AN观测角度下的红光、蓝光和绿光波段数据则使用得都较少。这说明对这6类土地覆被类型分类的关键因素主要是近红外波段和AA后向观测,而除天底角AN近红外波段数据外,其他天底角观测数据对区分不同类型帮助不大。另外,灌木、林地和未利用地类型的分类规则中较多使用了CA,CF和DA,DF; 说明C和D这2个观测角利于区分灌木、林地和未利用地这3种空间结构相对复杂的类型。

3 结论

1)人工蜂群(ABC)算法虽然实现方法相对简单,没有复杂的计算公式; 但是通过蜂群个体间的协作,可以完成对复杂数据分类规则的发现。通过使用JAVA语言实现的基于ABC算法的分类软件对MISR影像的分类实验,证明使用ABC算法能够完成对多角度遥感影像的分类任务,且能够提供较好的分类结果。

2)通过与MLC,C4.5和SVM算法分类精度的比较可以看出,ABC算法的分类精度和Kappa系数与C4.5法相当,高于MLC,但低于SVM。ABC分类算法与其他几种算法的比较结果证明,ABC算法可以有效用于遥感数据的规则挖掘和分类。

3)通过对ABC算法分类规则属性频数的分析,发现了规则中包含的规律性问题。据此可以解释不同土地覆被类型在多角度遥感观测下具有的不同反射特性。

与前人的实验结果比较,本文的分类结果的影响因素一方面可能与使用的多角度数据集本身特征有关,另一方面可能与ABC算法参数设置和程序优化方式有关,因此还需要继续进行更多方面的比较,才能更进一步了解ABC算法的特性。此外,ABC算法的执行效率与决策树等算法相比差别很大,这些都是未来研究要解决的问题。

志谢: NASA Langley研究中心大气科学数据中心提供了MISR 数据,在此表示感谢。

猜你喜欢
蜜源多角度波段
林下拓蜜源 蜂业上台阶
最佳波段组合的典型地物信息提取
一道三角函数问题的多角度思考
对一道三角函数题的多角度思考
一道数列题的多角度思考
多角度写好读后感
基于PLL的Ku波段频率源设计与测试
指示蜜源的导蜜鸟
小型化Ka波段65W脉冲功放模块
L波段kw级固态功放测试技术