黄素琴
(广东省国土资源测绘院, 广东 广州 510500)
高光谱遥感影像蕴含着丰富的地物信息,可为地矿深层勘探、土地资源监管、农业生产规划提供重要的数据[1]。由于遥感图像数量巨大,在进行调取应用时需要对其分类检索,从而匹配到具有相似或相同特征的检索图像,从最初的基于文本的图像检索方法发展至目前的基于内容的图像检索技术,遥感影像的检索精度和效率上有了较大提升[2]。
在遥感图像检索方法上,很多学者均提出了自己的见解和观点,最开始的全局特征提取到目前主流的融合局部特征的提取,这大大提升了检索效率、缩短了检索时间[3-4]。卷积神经网络不仅具有强大的特征提取能力,还具有很强的分类能力,是目前在各领域最常用的一种深度学习方法,具有局部连接、权值共享、空间采样等特征,在图像分类和目标识别等工作中得到广泛应用[5-8]。但是,检索出来的图像如何展现给用户又是一个问题,每一个检索到的图像与查询图像之间肯定存在一定的关联,且关联度是互不相同的,需要采用一种方法来对检索到的图像进行排序,然后依次推荐给用户,从而提高用户的检索效率,距离权重算法可实现这一目的,且在测绘领域已有一定的应用[9-10],也为遥感图像分类检索提供了新的方向。
本文基于卷积神经网络和距离权重,提出了一种新的遥感图像分类检索方法,以期能为提升遥感图像的检索效果提供借鉴。
基于内容的图像检索(Content-Based Image Retrieval,CBIR)是通过输入图像,经过对输入图像特征的提取,在检索图像库中寻找与之查询图像的颜色、纹理、布局等具有相似特征的图像,并将其推荐给用户的一种检索方法,具体检索流程见图1。在基于内容的图像检索流程中,最重要的一步就是对图像进行特征提取,并准确、高效地建立图像库与对应特征之间的索引关系,而卷积神经网络(Convolutional Neural Networks,CNN)被证明是一种能够提取更为抽象图像特征的深度学习方法,其可以通过抽象学习来提取图像的全连接层和卷积层特征,从而实现强大的表征能力,但在检索精度上还有待进一步提高。因此,本文在卷积神经网络方法基础上,提出了一种基于距离权重(Distance Weighted,DW)的卷积神经网络图像检索方法。
卷积神经网络作为一种深度学习方法,开始于20世纪80~90年代,并在21世纪得到快速发展,在图像分类、目标识别等领域得到较为广泛的应用。卷积神经网络包括特征提取层和特征映射层两层基本结构,根据功能划分,又可以将其细分为输入层、卷积层、下采用层(池化层)、全连接层和输出层,见图2。输入层的主要作用是获得原始图像信息并转化为像素矩阵,最后将数据传递给卷积层;卷积层的主要作用是利用卷积核对像素数据进行卷积操作,同时利用非线性函数对输出结果进行特征提取;池化层的作用是对卷积层处理过后的特征再进行二次特征提取,降低特征图像分辨率的同时还能提高特征的尺度不变性;全连接层的主要作用是将二维的特征向量转化为一维特征向量,为输出层提供更好分类的数据;输出层的主要作用就是对目标数据库进行分类处理,并将结果推荐给用户。
图2 卷积神经网络结构
距离权重是利用某单元特征值与周围毗邻单元特征值之间的函数关系,根据两单元之间的距离来反推该单元的特征值,距被估点越远的特征所起作用越小。卷积神经网络输出层利用Softmax函数作为输出,并将输出转化为每个类的对应概率值pi
(1)
式中,an表示输出层中输入的N个向量。
当查询图像q输入到微调模型中后,可得到下缓存图像对应的每个类的概率值pq,从而得到每张检索图像r对应的权重值wr
(2)
式中,k表示图像r的类。
那么,查询图像q与检索图像r之间的距离权重就可以表示为
dw(q,r)=w×d(q,r)
(3)
式中,d(q,r)表示常用距离,本文取欧氏距离。
基于CNN-DW的图像分类检索流程主要分为两个部分,一是离线部分,二是在线部分,其检索流程示意见图3。
图3 CNN-DW检索流程
2.3.1离线部分
离线部分主要分为三个步骤:(1)利用经过训练的CNN模型对具有相应标记的数据库进行微调;(2)利用微调后的CNN模型对检索到的图像进行特征提取和标记工作;(3)根据特征提取结果,建立特征向量和具有相似特征的类标签检索数据集。
2.3.2在线部分
在线部分分为四个步骤:(1)用户将需要查询的图像输入到CNN模型中,利用计算机程序计算CNN特征值和对应的类概率;(2)计算检索图像与查询图像之间的距离权重;(3)按距离权重的大小进行图像排序;(4)按排序结果依次进行图像检索,得到检索结果。
试验数据为一个高分辨率的公开数据集,数据集包括飞机、棒球场、篮球场、海滩、桥、墓地、丛林等共计38类,每类又包含800张图像,每张图像的大小为256×256,数据集总共包含38×800=30 400张高分辨率遥感图像,图像的最高分辨率为0.06 m,图像的最低分辨率为4.69 m,该数据集具有尺度高、分辨率高、高类内多样性和类间相似性等诸多特点,是一个理想的可用于测绘研究的遥感图像数据集。
CNN训练在MS Windows 10系统中的MATLAB R2016上进行,使用的工具包为matconvnet,处理器型号为Intel i7-7700,内存大小为16 GB,CPU型号为NvidiaGe Force GTX 1080 8GB。学习率设为0.001,动量大小设为0.9,初始权重值设为0.000 5,采用自适应矩估计(Adam)优化算法来更新权重。CNN特征选用Fc6、Fc7和PooL5,对应的维数分别为4 096、4 096和1×1×2 048。
采用平均查准率(Mean Average Precision, MAP)和平均归一化检索秩(Average Normalized Modified Retrieval Rank, ANMRR)两个参数来对CNN-DW检索方法的检索效果进行评价。
平均查准率的计算公式为
(4)
式中,PM表示平均查准率;N表示查询图像数量;APi表示第i张图像的加权类别值。PM值越大,表明图像检索的精度越高。
平均归一化检索秩计算公式为:
(5)
式中,RA表示平均归一化检索秩;Q表示查询图像;RN(Qq)表示归一化后的检索秩。RA值介于0~1之间,RA越小,表明同类性更好,检索性能越佳。
随机选取两张图像作为查询图像,对比分析了利用CNN法和利用CNN-DW的检索结果,见图4。从图4中可以看到:对于图4(a)的图像1,仅采用CNN法时,只检索出4张相同类的图像,另有五张为不相关图像,而采用CNN-DW检索后,共检索出9张相同类图像;对于图4(b)的图像2,仅采用CNN法时,只检索出3张相同类图像,另有6张为不相关图像,而采用CNN-DW检索后,共检索出6张相同类图像,另有3张为不相关图像。可见,当采用加权距离的遥感图像神经网络检索法的检索效果较传统神经网络检索法有较为明显的提升。
对两种检索方法在不同特征下的所有38类MAP值进行求解,然后得到每一特征下的平均MAP值,见图5。从图5中可以看到:在3个CNN特征中,采用PooL5特征的检索精度最高,其次为Fc7,最差的为Fc6;相同特征下,采用CNN-DW检索方法的检索精度较传统CNN检索法有较大幅度提高,CNN法在三个特征下的平均MAP值为60%,而CNN-DW检索方法在三个特征下的平均MAP值达到91.7%,可见,采用加权距离检索后,神经网络检索法的检索精度得到有效提升,这主要是因为在仅使用CNN检索时,对建筑物、存储仓和网球场等类的检索性能较差,当采用加权距离检索后,对篮球场、护理中心、游泳池等类的检索性能有较大幅度提升,从而使整体检索效果显著加强。
图5 CNN和CNN-DW检索MAP值对比
为了进一步验证CNN-DW检索方法性能的优越性,对两种方法在不同训练集大小(5~100张)下的检索效果进行了对比(特征均选用PooL5),结果见图6。从图6中可以看到:随着训练集图像数量的增加,CNN法的平均查准率和平均归一化检索秩基本保持不变,PM值为68%,RA值为0.33,而采用CNN-DW检索时,平均查准率随训练集数量增加而逐渐增大,当训练集数量为20张时,PM值就能达到90%以上,平均归一化检索秩随训练集数量增加而逐渐减小,当训练集数量为30张时,RA值就低于0.05。可见,随着训练集数量的提高,CNN-DW检索方法的检索性能会逐渐提升,而且较传统CNN检索方法而言,只需要更少数量的训练集就能达到良好的检索效果。
图6 训练集大小对检索效果的影响
针对高光谱遥感图像检索分类问题,提出了一种基于卷积神经网络和距离权重的图像检索方法(CNN-DW法),并将其检索流程划分为离线部分和在线部分,通过图像检索试验,证明了CNN-DW检索法较传统CNN检索法的分类检索效果有显著提升,前者的平均MAP值高达91.7%,而且CNN-DW法的检索性能会随着训练集数量的增大而逐渐提升,相较于CNN法仅需要更少数量的训练集就能达到良好的检索效果。