王华秋,刘 倩
(重庆理工大学 两江人工智能学院, 重庆 401135)
随着计算机和多媒体技术发展,信息的种类、规模迅速增加。图像为信息的重要载体,因此,如何从海量的图片库中快速、准确检索出与用户查询主观含义一致的图像,已成为国内外研究者的研究热点。图像检索主要分为基于文字的图像检索(text-based image retrieval,TBIR)和基于内容的图像检索(content-basedimageretrieval,CBIR)2个方向。前者的检索技术已发展得非常成熟,但海量图像的产生将消耗大量伴随着较强主观性的人工标注工作,并且已无法满足人们对图像检索系统与日俱增的需求。90年代以后,基于内容的图像检索技术逐渐发展起来[1-5],然而传统的基于内容的图像检索技术无法避免“语义鸿沟”的问题。针对此问题,不少研究者以基于距离度量学习方式[6-8]替换传统单一的相似度度量方式,还提出多种特征表示方法[9-13],尤其是近年来深度学习技术广泛应用于CBIR任务提取图像高层语义特征。
这些技术仍然无法很好地贴合用户查询的主观含义,为此,相关反馈技术(relevance feedback,RF)被大量引入到CBIR任务中,如医学图像识别、卫星影像分类等[14-15],通过用户与系统多次交互,获取用户的偏好信息,使检索结果更符合用户需求。近期已有大量RF问题的方法被提出:不少研究者结合深度学习技术和相关反馈技术获得了更好的检索精度[16-17],但是未能很好地利用反馈信息。Wang等[18]设计了自适应权重检索系统,验证了特征权重估计的有效性;Tzelepi等[19]改进了基于NN范式的相关反馈算法,但它们的重点工作是区分好坏特征,使好特征具有更高权重,容易陷入局部最优。为降低用户的操作复杂度,反馈的样本往往较小,训练的样本的正负反馈样本通常不均衡,为了解决这几个问题,Broilo等[20]将期望最大化参数应用于基于SVM分类的相关反馈图像检索中;Arevalillo-herráez等[21]提出了一种半监督主动学习算法,将未标记的图像融入学习以构建更好的分类模型;Kanimozhi等[22]提出了一种基于特征重构的支持向量机相关反馈算法,利用了基于协方差矩阵的核经验正交互补分量分析;Razavian等[23]通过卷积神经网络结合用户反馈重新训练全连接层,但这些方法不能很好地利用特征空间中的未知区域,即没能充分利用用户反馈的信息,无法满足用户的检索需求。针对上述问题,近年来不少研究者已将优化算法结合RF技术应用于CBIR任务中:Yandex等[24]和Gordo等[25]分别构建粒子群与遗传算法优化器来跟踪用户的检索偏好,但它们都易滞于局部最优。Filip等[26]用萤火虫算法集SVM算法于RF技术,达到较好的检索性能,但未充分利用反馈信息,且参数复杂,检索时间长。
综上,现有方法存在参数繁多,不满足检索实时性需求,无法充分利用反馈信息以探索特征空间等问题。为此,本文将查询点移动建模成一个优化问题,通过引入多尺度量子谐振子算法(MQHOA)在特征空间中探寻更优查询点,利用其需设参数少,不易陷入局部最优解,能快速收敛等优点,再将其与SVM算法结合,数轮后将图像检索视为图像二分类任务,同时继续探索未知相关区域。为解决样本不均衡等问题,采用SVM间隔带TOP-K算法,利用前几轮反馈的图像信息对训练集进行有效筛选,可获得更好分类效果。实验表明,在用户反馈过程中,利用MQHOA能对特征空间进行有效搜索,引入SVM后,大部分图像已被标记为相关时仍能对未知的特征空间进行有效探索,该方法结合两者的优势,使反馈信息与特征空间点的相关性最大化,能有效提高图像检索的性能,检索到更多相关图像。
图像特征提取工作对于图像检索任务非常重要,近年来许多研究者已成功将卷积神经网络应用于图像特征提取工作[27-30],由卷积层和池化层可以构成一个通用性较强的特征提取器,能够提取图像中高度抽象性的深层特征。Su等[30]研究证明,VGG16模型比其他常见模型具有更强的可迁移学习能力,Babenko等[31]通过实验发现,fc7特征相比fc8特征在不同的数据集中具有更强的泛化能力。因此,采用预训练的VGG16模型,提取其fc7层1 024维图像特征,为了降低检索复杂度的同时不损失图像特征质量,通过奇异值分解求解特征向量协方差矩阵的特征值和特征向量,选取前128个特征值对应的特征向量为图像特征,从而将VGG16网络提取的4 096维特征降维为128维,实验表明,此情况下的特征仍优于传统方式提取的特征[32-33]。
由于特征向量内不同特征分量的物理意义不同,为保证各特征分量在相似度匹配加权时处于相同地位,将特征进行z-score标准化:
(1)
式中:q=[x1,x2,x3,…,x128];xi表示第i个特征分量;σ表示图像集特征的标准差;μ表示图像集特征的均值。
为减小计算复杂度,图像相似度模型以余弦距离为基础,计算方式如下:
(2)
式中:Q、qi分别表示检索图像和被检索图像的特征向量;F={q1,q2,q3,…,qn},表示图像集特征集合。
将图像检索建模成一个优化问题,与经典优化问题的一个重要区别是,需要优化的对象是从每次用户反馈中收集而来。若仅考虑用户标记的相关的图像,如果展示给用户的相关图像数量较少,那么停滞的风险就非常高,所以综合考虑用户反馈的相关与不相关图像信息,将第k轮查询向量定义为式(3)。
Qk=α*Q0+β*relfk-γ*irrfk
(3)
其中,relf与irrf计算方式如下:
(4)
(5)
其中,v计算方式如下:
(6)
(7)
其中,qi∈XREL,qj∈XIRR,NREL表示XREL大小,NIRR表示XIRR大小,Qk表示查询向量。适应值越小,表明该特征点更远离不相关图像在特征空间中的区域,更靠近相关图像在特征空间中的区域,即每轮反馈所寻特征点为:
(8)
训练集对于SVM分类器构造十分重要,设计SVM间隔带TOP-K算法,其旨在筛选靠近SVM间隔带的图像作为训练集。如果将图像检索视为二分类任务,则图像库中的图像仅分为2个集合:与图像相关的图像集合,与图像无关的图像集合,它们在数目上相差悬殊。运用相关反馈技术,对检索结果进行标记,检索结果中已经标记为不相关的图像,为与图像无关的图像集合中最靠近检索图像的图像,所以它们靠近SVM间隔带;而已经标记为相关的图像,是与图像相关的图像集合中最靠近检索图像的图像,因此这些图像远离SVM间隔带。基于以上分析,如果用所有反馈图像信息作为训练集,无法训练出理想的超平面,若出现样本不均衡问题,分类效果将进一步降低。本文充分利用相关反馈图像集(相关图像集与不相关图像集),训练集选择不相关图像集中最靠近检索图像的K个图像,以及图像库中除去反馈图像集后离检索图像最远的K个相关图像。
为了进一步保障训练集的质量,考虑采用多距离结合方式选择TopK图像。其基本思路如下:
1) 采用VGG16模型提取图像特征,除前文提到的余弦距离模型,同时引入以下几种相似度度量模型对图像集合与检索图像进行距离度量:
曼哈顿距离模型:
(9)
欧式距离模型:
(10)
2) 以加权思想分析以上距离模型的度量结果:针对度量结果分别按不同的距离模型以升序排序,即排列越靠前,越靠近检索图像。每幅图片在所有距离模型中排序的序号之和视为该图像的权重,最后再依据图像权重排序,选择排列于前K的图像。
前几轮反馈中,主要包括MQHOA算法优化查询点、用户反馈2个过程,随后将伴随SVM图像二分类过程。本文图像检索系统算法流程如图1所示。
图1 基于MQHOASVM的相关反馈图像检索系统算法流程框图
为验证算法的有效性,选择UC Merced Land-Use遥感数据集作为测试图像集,其中UC Merced Land-Use数据集共有21类遥感图像,每类100幅图。从UC Merced Land-Use数据集中每个类别随机选取5幅图片组成105幅图像查询集。
为了验证算法的检索效果,选取以下算法作为对比算法进行比较:
MQHOASVM-RF与PSOSVM-RF分别表示以MQHOA与PSO算法修改查询特征以及以反馈信息作为SVM训练集构造分类器集成的检索算法,PSO算法参数c1=c2=2,ω=0.7。
MQHOA-RF与PSO-RF[23]分别表示基于MQHOA与PSO算法修正查询特征点的相关反馈图像检索算法。
SVM-RF表示结合用户反馈信息,采用TOP-K筛选间隔带附近的图像作为训练集构造分类器,将图像检索视为二分类问题,每轮将分类结果展示给用户。
QV-RF[16]表示不使用优化算法修正查询特征点的相关反馈图像检索算法,采用固定的α、β、γ值。
为保证实验公平性,本文算法、PSOSVM-RF、MQHOASVM-RF与MQHOA-RF,优化算法的种群大小为30。所有算法每轮反馈图像数目N=50,反馈次数取10,所有实验在Intel(R)Core(TM)i5-9500CPU、16G内存,windows10系统64位操作系统上完成,图像检索系统由MATLABR 2020a编写。
为了评估算法有效性,选取如下评价指标:查准率、查全率,其计算公式分别如下:
(11)
(12)
式中:S(i)表示第i轮反馈时展示图像中相关图像的数量;N表示展示给用户的图像数;Nq表示该类图像在图像查询集中所有相似图像数量。
由于优化算法是随机算法,公平起见,本文算法、PSOSVM-RF、MQHOASVM-RF、PSO-RF和MQHOA-RF重复运行5次取平均值与另外2种算法进行对比。不同方法在查询集上的检索精度如图2所示。
图2 不同方法在查询集上10轮反馈的检索精度曲线
由图2(a)可知,与SVM-RF相比,MQHOASVM-RF与本文算法分别在其基础上结合了MQHOA算法,所以不易滞于当前特征区域,能对特征空间进行有效搜索,从而不断靠近理想查询点,在后几轮反馈中查准率仍不断提升,PSOSVM-RF结合了PSO算法,容易陷入局部最优,后期检索精度略低于MQHOASVM-RF和本文算法。由图2(b)可知,相比其他算法,MQHOASVM-RF、PSOSVM-RF与本文算法的查全率显著高于其他算法,可见集成优化算法与SVM算法的检索系统具有较好的检索精度。集成算法里,未筛选训练集的算法由于训练样本小、不均匀等问题造成了分类器及特征在前期比较稳定,在后期最高适应度对应最佳参数不变,导致在后几次反馈里查准率几乎不再增长,分类效果差。两轮反馈后,本文算法对训练集进行了有效筛选,得到更优的超平面,使得分类效果更显著,查准率高于MQHOASVM-RF与MQHOA-RF,查全率远高于其余算法。
由于本文算法、MQHOASVM-RF与MQHOA-RF的查准率都显著高于其余对比算法,为了进一步验证所提算法的有效性,图3为在第5轮反馈时3种算法在UC Merced Land-Use查询集上7个类别的检索精度。这些类别在数据集中包含分别与之特征相似度较高的类别,比如高尔夫球场和棒球场特征相似度较高,河流和森林的特征相似度较高。由图3(a)可见,3种算法用于上述类别图像的检索,仍能取得良好的查准率,对于高、中密度住宅区,本文算法表现更突出。由图3(b)可知,本文算法在大部分类别中的查全率均显著高于其余2种算法。
图3 不同类别遥感图像上第5轮反馈的检索精度直方图
大部分图像已相关的情况下,查全率决定了其能否进一步探索空间,为了进一步对比上述3种算法的检索相关图像的能力,表1列举了本文算法(1),MQHOASVM-RF(2)以及MQHOA-RF算法(3)在上述7个类别上的平均查全率。其中1~7类分别表示高密度住宅区、中密度住宅区、移动家庭公园、跑道、高尔夫球场、河流和网球场类别。由表1可知,MQHOASVM-RF与MQHOA-RF在后面几次反馈里无法继续对特征空间进行有效搜索。而本文算法不容停滞于特征空间中的某一区域,能不断探索出新的相关图像区域,对特征空间进行有效搜索。
高密度类别图像上各算法的平均查全率如图4所示。
表1 UC Merced Land-Use查询集7类的平均查全率
图4 高密度类别图像上各算法的平均查全率直方图
随着图像集规模逐渐增大,检索效率也成为图像检索系统的重要评判标准,图5为上述算法分别在查询集10轮反馈的平均时间。由于没有优化过程,QV-RF耗时最短,其次是MQHOA-RF。MQHOASVM-RF、PSOSVM-RF与本文算法均集成了2种算法,耗时高于其他几种算法,由于PSO所有粒子需要不断迭代来更新自己,所以PSOSVM-RF检索耗时最长。由于对训练集的有效筛选,本文算法效率高于其余几种集成算法。综合考虑检索精度与检索效率,本文算法能有效提升系统的检索性能。
图5 不同算法平均检索速度直方图
针对现有相关反馈图像检索系统需设参数多、无法充分利用用户反馈信息对特征空间进行有效搜索、检索性能低等问题,利用迁移学习提取图像深层特征,引入SVM算法应用于基于MQHOA算法修正查询特征点的图像检索系统中,并依据用户反馈信息对训练集进行有效筛选,保证对特征空间的有效搜索,从而获得更高的检索性能。在UC Merced Land-Use遥感数据集上的实验结果可证明本算法能有效提升检索性能,尤其是在特征相似度较高的类别上,检索精度显著高于其他方法。下一步的工作就是进一步提升系统的检索效率,将提出的算法应用到更多领域的大型图像库中。