基于深度学习的多模型遥感影像检索

2023-01-30 13:09郝明达普运伟
城市勘测 2022年6期
关键词:哈希整数检索

郝明达,普运伟

(1.昆明理工大学 国土资源工程学院,云南 昆明 650221; 2.昆明理工大学 计算中心,云南 昆明 650504)

1 引 言

随着遥感数据的增加,从大规模遥感影像中自动化检索感兴趣区域显得尤为重要,提高算法对感兴趣区域检索的质量和效率是核心问题。遥感影像检索可以解决这样的一些问题,如人们想要从数百平方公里范围内的卫星影像中快速精准地定位、识别感兴趣的目标,或是从样本库中,更进一步识别出地物目标的具体型号与类别,以获得一个可解释性的结果。

遥感影像数据检索的发展主要包括两个重要的阶段,特征工程和特征学习。在特征工程阶段,主要是通过人工设计特征描述符对遥感影像进行抽象描述,如尺度不变特征变换(SIFT)等[1,2]优秀的图像检索模型被提出,但是受限于需要人工设计特征,而且准确表示遥感影像语义信息的能力有限。之后,在特征学习阶段,即自2012年以来的深度学习阶段,始于人工神经网络,特别是深度卷积神经网络等优秀模型被提出后。如2016年5月,美国卡耐基梅隆大学的团队发布了Terrapattern,使用在自然图像上已训练模型提取遥感影像特征,用于遥感数据检索。2020年2月,Keisler等人[3]也通过使用卷积神经网络抽取影像特征并与Google cloud提供的数据库服务实现对遥感影像的实时检索(https://search.descarteslabs.com/)。随着Descartes Labs(https://descarteslabs.com/)、Google Earth Engine(https://earthengine.google.com/)、Sentinel Hub(https://www.sentinel-hub.com/)、PIE engine(https://engine.piesat.cn/)等平台存储了大量的遥感数据信息,遥感影像检索算法与这些大型的数据库平台相结合,将有助于对大规模遥感数据检索的应用分析,为了应对海量遥感数据感兴趣区检索,有必要提高遥感影像检索的可扩展性。

针对影像检索算法的改进可以分为模型级和特征级改进。在模型上进行改进包括模型架构改进和模型微调策略改进,特征级方法改进可以分为特征增强方法和特征提取方法改进,但更多的是,同时使用多种方法进行检索。如网络架构的改进,是利用堆叠的线性滤波器(如卷积)和非线性的激活函数,从数据中提取更高级的抽象和语义感知功能[4,5];因全连接层(FC层)和卷积层(CNN层)的神经元具有不同的接受域,可以实现模型特征提取方式的改进,如CNN层的局部特征[6,7],卷积层(通常是最后一层)的特征保留了更多的结构细节,在影像检索中可以获得更多区分性的特征;深度特征增强方法常用于提高深度特征的识别能力,如直接使用深度网络[8]训练哈希编码,哈希方法[9]将实值特征编码为二进制码,可以提高检索效率,特征增强策略对图像检索效率有显著影响;基于模型微调的特征提取方法,是使用在自然图像上已训练的分类模型经过模型微调,迁移到新的数据集上进行检索任务。然而,检索性能受到数据集之间的域转移的影响,因此,有必要将深度网络调优到特定的域[10~12],这可以通过有监督的微调方法实现。

2 多模型遥感影像检索方法

为了提高遥感影像检索的精度和效率,以及对海量数据检索的可扩展性,本文提出一种多模型检索方法,其实验设计流程如图1所示。其中模型的训练过程如图2所示:首先使用Roy S等[13]提出的遥感影像有监督哈希编码方法获取影像哈希编码值,其中通过使用在自然图像上预先训练过的Inception模型,对遥感影像进行预测,通过获取模型最后一层的卷积特征提取遥感影像抽象特征,然后通过有监督方法对一个新的模型进行二次训练,进一步通过三重损失优化模型在遥感影像语义空间上的特征表达,以压缩特征编码量,从而获得多光谱遥感影像的哈希编码值,提高遥感影像检索的精度和效率。另外使用Chen Kun等人[14]提出的无监督整数索引方法以实现对局部最近邻数据的检索,其中在遥感影像上无监督训练VQ-VAE模型,将训练好的VQ-VAE模型对测试集遥感影像执行预测,然后通过对中间特征进行池化、求和、移位等操作获取遥感影像的整数索引,以将整数索引通过Van Emde Boas tree(VEB)进行编码,通过这步操作可以将相似的影像存储为VEB tree中的最近邻。最终测试时,遥感数据通过哈希编码和整数索引,并通过汉明距离进行排序,可以从数据库中获取到与查询影像相似的影像,其中测试时影像检索的结果如图3所示。

图1 多模型遥感影像检索流程图

图2 多模型遥感影像训练过程

图3 多模型遥感影像测试过程

2.1 遥感影像哈希编码方法

当遥感数据的类标签可用时,使用模型微调的方法可以实现更高的精度。可以选用VGG、Inception、Resnet、DenseNet等在自然图像分类任务中已经训练过的模型作为主干模型,然后在遥感数据集上训练新的模型,从而通过损失函数对模型参数进行微调,产生优越的性能。基于深度学习的模型在训练的时候可以使用三元组的方式优化哈希编码精度,从而使得正样本接近锚点,负样本远离锚点。其中三元组的构建思想如图4所示。

图4 三重损失的构建思想(正样本被移动到离锚点更近的位置,负样本则远离锚点。)

本文使用S Roy等人[13]提出的方法对已训练模型提取的遥感影像特征进行二次训练,其中三元组优化的方法是使用一个三重损失实现[15]的。其二次训练使用的模型有三个全连接层组成,每层有 1 024、512、k个神经元,在最后一层中使用sigmoid激活函数来限制输出到[0,1],其中k为所需的哈希编码数(比特数),通过有监督哈希编码的方式降低了特征的维数,这有助于提高检索的精度和效率。其中三重损失的第一个损失公式如(1)所示:

(1)

第二个损失,为了使哈希编码层可以达到激活函数的极值,其目标以最大化输出层激活值与0.5之间的平方误差之和,公式如(2)所示:

(2)

第三个损失,用以激励每个输出神经元有50%的概率触发,这意味中图像的二进制代码将(平均)有一个平衡的0和1的数目,所有的位可以被同等地使用,从而使二进制码均匀分布,最大限度地填充和利用哈希空间,从而使哈希码携带的信息量最大化。公式如(3)所示:

(3)

其中,f(gi)是输出激活值的平均值。

最终的目标函数是三种损失的加权组合,如(4)所示:

L=LMetric+λ1LPush+λ2LBalancing

(4)

其中λ1和λ2为损失的权重参数。对模型进行训练后,通过哈希函数对输入的测试集影像进行量化,可以获得最终的影像哈希码IRK。此时,对于给定的数据库中的存档影像x,设g为利用已训练模型获得的中间特征,v=f(g),v为新模型获取到的特征值,最后的二进制码b=h(f(g))为:

bn=(sign(vn-0.5)+1)/2,1≤n≤K

(5)

为了检索影像xi在语义上相似的影像xq。可以用函数计算h(xq)和h(xj)之间的汉明距离以进行影像匹配。这样模型通过先验知识学习了一个度量空间,从而使语义空间中两点之间的欧氏距离对应与像素空间中相应影像对之间的在视觉上的相似性距离。

2.2 模型主干选择方法

使用模型二次训练的方法,需要对比选取精度更高的模型主干。此时为了选取模型主干,可以先通过将在自然图像上已训练过的模型的中间特征通过一些方法投影到哈希空间,查看模型的遥感影像检索精度。本文使用的投影方法是Tizhoosh H R等人[16]提出的MinMax Radon Barcodes码对卷积层的特征直接进行哈希编码。其中投影二值化的一种最简单的方法是设置一个代表性(或典型的)阈值[17],这可以通过计算所有非零投影值的中值来完成。文章[16]中提出,通过检查投影值是如何在局部极值之间转换的,这能为捕捉在特定角度描述下场景中的图像的形状特征提供更有表现力的线索。图5说明了在给定的角度θ下,MinMaxRadon条码是如何生成的,当然,从min/max到max/min转换的0/1的赋值顺序只是一种惯例,因此在给定的程序中应保持一致。

图5 MinMax Radon条码

在一定角度内的投影影像被平滑求最小值和最大值。最小值和最大值之间的值赋值为0,而在最大值和最小值之间的值都赋值为1。

2.3 整数编码索引方法

为了提高海量遥感数据的可扩展性,本文引入了无监督的整数索引方法—通过无监督(VQ-VAE)模型获取影像整数表示,然后通过VEB tree对整数编码进行索引,在测试时可以获取到相似的最近邻影像。Chen Kun等人[14]提出了用于医学的组织病理学快速无监督影像检索(FISH)模型,使得对医学影像病理切片的检索具有扩展性、同时检索速度恒定。FISH模型首先通过训练无监督模型获取到影像的潜在离散表示来创建整数索引,然后通过使用VEB tree对整数索引进行数据库编码,受益于VEB tree提供的O(loglog(M))搜索速度,其中M是一个固定的常数,FISH模型通过在自然影像上已训练的DenseNet模型[18]提取卷积块特征获取哈希编码特征来保证检索精度。其中整数索引的获得是通过将VQ-VAE中间特征进行平均池化、求和和移位操作组成,通过求和操作可以综合不同层次特征之间的信息。在提取完测试数据库中影像的特征后,通过提出的引导搜索算法可以获得查询影像最近邻的相似性的结果。引导搜索算法的设计原则是利用VEB tree来求出一个固定数目的最近邻,然后通过与预训练模型提取的特征之间计算汉明距离,以获得小于某个阈值θ的近邻,最后再根据汉明距离从小到大排序,获取最相似的影像。

3 实验与分析

3.1 实验数据选取与预处理

(1)实验数据选取

本文在两个RS基准上进行实验,第一个是广泛使用的UC Merced(UCMD)[19]数据集,其中包括21个类别的土地覆盖类别的 2 100副航空影像,每张影像的像素大小为256×256,空间分辨率为 30 cm。第二个是航拍影像数据集(AID)[20],在AID数据集中影像来自在不同地点、不同时间和不同成像条件下的不同的传感器,并且影像分辨率是不一样的(0.5 m~8 m),这些图像包含有 10 000张影像。每一副影像为600×600,每个类别的影像数量在220~420之间。数据集具有更高的类内变异性,不同地区、不同尺度、方向和成像条件的图像存在其中,特别是同一地物上外观上具有差异,这会给算法带来更多的挑战。更小的类间差异性,AID数据集中在不同场景类别中存在更多相似的地物、同时在场景的纹理和颜色上可能更加接近、在场景中存在更多相似的结构分布。更大规模的数据集,针对遥感影像进行标注是非常耗时的,但是如果数据集太小,会导致算法训练不充分,从而影响到算法的精度。

(2)数据集预处理

在遥感影像检索实验中需要将整个数据集进行拆分为训练集、验证集、测试集,并且在验证集、测试集中需要进一步拆分为查询影像和数据库。因此,本文首先从数据集中不同的类中随机抽取,按照训练集:验证集:测试集(4∶3∶3)的比例进行拆分,在验证集和测试集中按照查询影像:数据库(1∶2)的比例进行进一步拆分,从而保证检索算法的精度,UCMD数据集可以直接加载到内存中用于模型训练,对于AID数据集本文采用加载路径的方法按批次加载到内存中以供模型训练。

其中在UCMD数据集中训练数据有830张影像,验证集中查询影像有126张,数据库中影像有484张,测试集中查询影像有126张,数据库中影像有484张。在AID数据集中训练数据有 4 000张影像,验证集中查询影像有612张,数据库中影像有 2 388张,测试集中查询影像有612张,数据库中影像有 2 388张。

3.2 实验设置

(1)已训练模型遥感影响检索精度评定(均使用MinMax Radon编码进行哈希编码)

①为了评定模型同一模型但不同型号的已训练模型对遥感影像检索的性能的影响,本文选定VGG模型、DenseNet模型、Resnet进行实验;

②为了评定对于同一任务但不同精度的已训练模型对遥感影像精度检索的性能影响,本文增加了Inception-v3模型进行实验。

③由于UCMD数据集和AID数据集的影像大小不同,因此不同的模型结尾处连接的池化层会有所不同,其中VGG模型使用7×7卷积核的池化层,Resnet模型不使用池化层,DenseNet模型在UCMD数据集中使用6×6卷积核的池化层,在AID数据集中使用11×11的卷积核,Inception-v3提取的是最后池化层的特征。

(2)对已训练模型进行二次训练(模型微调)

①使用S Roy等人[13]提出遥感影像训练方法作为基准,查看在新数据集上遥感影像检索的精度。

②使用本文提出的多模型遥感影像检索方法,评定遥感影像检索的质量和效率。由于UCMD数据集和AID数据集的影像大小不同,因此VQ-Vae编码后的离散整数图像大小不同,UCMD的整数图像为(64×64),AID的整数图像为(150,150),由于内存的限制,UCMD数据集池化层相乘的等级为[0,0,1e3,1e5],AID数据集池化层相乘的等级为[0,0,1e2,1e4]。算法在Tensorflow、Pytorch框架[21]上实现,在Colab平台提供的Tesla K80 GPU上进行测试。

3.3 评价指标选取

本文采用平均精度(mean Average Precision,mAP)对所有的查询图像进行评估,

(6)

其中Q是查询图像的数量,平均精度(AP)是指在精度-召回曲线下的覆盖面积。较大的AP意味着较高的查全率和较高的检索精度。AP的计算为:

(7)

其中R表示查询影像的相关结果数占总数N的比例。P(k)是检索到的前k张影像的精度,rel(k)是一个指示函数,如果第k位内的图像是相似图像,则为1,否则为0。

4 实验结果

由表1可知,直接使用已训练的模型在遥感影像上进行检索,对于遥感影像检索任务仍可以发挥很好的性能,此时已训练模型中的结构对遥感影像检索具有重要影响,通过对比可知Inception_v3模型可以用于提取遥感影像特征,通过有监督方式训练新的模型有助于提高遥感影像检索的精度,本文提出的多模型遥感影像检索方法,因检索时采用的是局部最近邻值,会比全局哈希检索时精度有所下降,由图6可知,无监督VQ-VAE模型生成测试影像数据库的整数索引在类别和整数区间上呈现出一定聚类性,这有助于提高遥感影像检索的可扩展性,但是某些类别仍是难以区分,这与VQ-VAE模型的训练好坏具有密切联系。其中在UCMD和AID数据集上的多模型检索结果如图7所示。

表1 遥感影像检索精度

图6 无监督模型生成整数索引(Integer indices)与类别(classes)关系图(使用AID测试数据库中的 2 388张影像的整数索引生成。)

图7 多模型遥感影像检索结果

5 结合GEE平台的遥感数据检索管道

本文通过与GEE遥感数据平台相结合,提出了一个用于遥感影像检索的管道,从而有助于使人们可以使用任何数据集和模型对遥感数据进行检索实验。其中GEE平台上提供许多公开的遥感数据,本文选用NAIP航空遥感数据集的一部分进行实验,首先选取感兴趣区域,并对感兴趣区域的栅格影像进行多层的格网划分,从而获取遥感影像块,以影像块的方式对遥感影像进行检索,数据需要传输到Colab平台中进行特征编码,本文选用在自然图像上已训练的Densenet-121生成影像的特征编码,并通过MinMax Radon编码转换成哈希编码,以减少数据存储和计算需求。通过选定查询区域可以获得相似的影像斑块。这种方法的优点是具有更高的灵活性,可以通过生成格网自由的选定感兴趣区域,有助于各种检索算法在不同的数据集上进行实验,且具有一个可视化界面,用于对检索区域进行定位识别。但是这个检索管道仍然有改进的空间,首先数据从GEE平台传输到Colab平台中进行特征编码,这个过程受影像大小和网速的限制,本文使用多线程的方法传输数据,以弥补数据传输的速度。本文结合GEE平台的遥感影像检索管道如图8所示。

图8 结合GEE平台的遥感影像检索管道

6 结 论

本文提出了多模型遥感影像检索方法,通过有监督哈希编码有助于提高遥感影像的检索算法的质量和效率,同时采用整数索引方法,有助于应对海量遥感数据检索,使其具有可扩展性。同时本文提出了一个用于遥感影像检索的管道,有助于灵活地对多种遥感数据和检索算法进行实验。未来我们将针对无监督整数索引方法进行优化,提高遥感相似性聚类效果,并提出新的无监督遥感影像检索训练方法以自动化地提取遥感影像特征,减轻人工标注的工作量。

猜你喜欢
哈希整数检索
基于特征选择的局部敏感哈希位选择算法
哈希值处理 功能全面更易用
文件哈希值处理一条龙
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
一类整数递推数列的周期性
专利检索中“语义”的表现
巧用哈希数值传递文件
答案
求整数解的策略