徐娟娟, 陈 晨, 杨洪军
(1. 内蒙古大学 满洲里学院, 内蒙古 满洲里 021400; 2. 吉林大学 仪器科学与电气工程学院, 长春 130061)
基于Gabor滤波器和深度学习的图像检索方法*
徐娟娟1, 陈 晨2, 杨洪军1
(1. 内蒙古大学 满洲里学院, 内蒙古 满洲里 021400; 2. 吉林大学 仪器科学与电气工程学院, 长春 130061)
针对图像数据库日渐庞大的问题,研究了将特征提取与深度学习相结合进行图像检索的方法,提出了基于Gabor小波变换和受限玻尔兹曼机(RBM)的特征提取和降维模型.将整幅图像划分成局部图像块,利用Gabor滤波器组提取图像特征,通过RBM对特征进行学习和编码,从而实现图像特征的降维处理.采用基于深度信念网络(DBN)和Softmax分类器的图像检索算法,利用Corel图像库进行新方法的图像检索实验,并与其他两种方法进行比较.结果表明,本文方法在准确率、查全率和检索时间上均具有较好的性能,能得到更好的图像检索结果.
图像检索; Gabor小波; 特征提取; 降维; 深度学习; 受限玻尔兹曼机; 深度信念网络; 分类器
随着信息技术的发展和互联网的普及,每天都会产生数以万计的图像和视频数据.如何快速且准确地从多媒体数据库中寻找用户所需要的图片是一个非常重要的现实问题.因此,图像检索技术[1]已经成为了多媒体研究领域中的热点.
图像检索的定义就是依据对图像内容的描述,从特定的图像集合中找出具有指定特征或指定内容的图像[2].很多学者都在这个领域开展了广泛研究.张永库等[3]提出了基于底层特征(局部颜色特征、形状特征和纹理特征)综合分析的检索算法,该方法的准确度较高,检索速度较快;孙世然等[4-5]利用图像信息熵和Gabor滤波器来分别提取颜色和纹理特征,并通过改进的猴王遗传算法来选择权值,能够有效地提高查全率和查准率;邵虹等[6]研究了医学图像检索方法,利用感兴趣区域的灰度统计量作为特征来查找在相同位置具有相似病理特征的颅脑CT图像;张刚等[7]改进了利用共生矩阵提取纹理特征的方法,在显著方向集合间和纹理特征向量间计算相似度,该方法对有向和无向纹理的图像均具有较好的检索性能;许喆等[8]使用多探寻LSH(局部敏感哈希)对图像特征点进行聚类,并基于嵌入汉明码的单词映射链投票来对图像进行检索,提高了检索精度.虽然上述图像检索方法得到了很好的发展,但是伴随着图像数据库的日渐庞大,考虑到计算机的性能,最新的检索系统也只能同时处理最多几千幅图像,检索速度己成为该领域需要重点关注的问题.针对特征维度过多导致的维数灾难和图像特征表达能力不足等问题,部分学者提出了将深度学习的理论应用到图像信号处理领域中[9-13].
深度学习来源于人工神经网络,是一种多层神经网络学习算法,它由多层运算架构组成,较低层的输出是更高层的输入,可以将低层特征组合不断学习得到较抽象的高层特征,实现对数据更本质的描述,从而有助于解决分类、回归和信息检索等问题.本文提出了将特征提取与深度学习结合起来进行图像检索的方法,利用Gabor滤波器和受限玻尔兹曼机来提取图像的特征并进行降维处理,从而更好地反映图像本质内容的特征,然后利用深度信念网络和Softmax分类器来设计快速有效的图像检索算法,并且给出了实验结果的详细比较分析.
1.1 Gabor小波
Gabor小波结合了Gabor变换和小波理论,具有Gabor变换的空间局部性、方向性与小波变换的多分辨率特性,对图像的分类和识别能力较强,能够较好地提取目标的局部空间和频率域信息,且对光照不敏感,在图像处理和模式识别等领域得到了广泛应用[14-16].Gabor小波的核函数表达式为
(1)
式中:k*=kweiφu为Gabor内核,kw=Kmax/fw表示采样尺度,Kmax为最大频率,fw为频域的内核间隔因子,φu=πu/m表示采样方向,u=0,1,…,m-1和w=0,1,…,n分别为方向标号和尺度标号;z=(x,y)表示图像像素点;σ为常数,与小波频率带宽有关.
使用Gabor小波来提取图像特征时,可将图像I(x,y)与多个不同方向和不同尺度上的Gabor滤波器进行卷积,其表达式为
Gu,w(x,y)=I(x,y)*gu,w(k*,z)
(2)
式中,Gu,w(x,y)为图像的Gabor特征.
1.2 特征提取和降维处理
对于一幅640×480像素的图像,如果使用全输入全连接的多隐层网络,频谱数据非常多,训练难度非常大.考虑到在同一目标的不同图像之间,大部分区域的结构几乎相同,而且在一幅图像中,空间的联系是局部的,类似于视觉系统用局部去感受外界事物,那么可以使用每个神经元去感受图像的局部区域,无需感受全局图像.因此,先将图像分块处理,用Gabor小波的核函数与每块图像作卷积,再使用受限玻尔兹曼机来编码和学习数据,得到更本质的特征,从而实现对高维图像特征的降维.
(3)
用式(3)中的特征作为RBM的可视层节点来进行训练,即可得到降维之后的特征向量为V(f1,f2,…,fk).模型结构如图1所示.
图1 特征提取和降维模型Fig.1 Model for feature extraction and
受限玻尔兹曼机是构成深度信念网络的基本模型,其能量函数表达式为
E(v,h|θ)= -vTWh-bTv-ah=
(4)
式中:θ={W,b,a}为RBM的参数;向量v和h分别为可视和隐层节点状态;m′和n′分别为可视和隐层节点数;bi和aj分别为可视节点和隐层结点的偏置;Wij为两种节点之间的连接矩阵.式(4)表明,可视节点和隐层节点之间存在能量连接.当参数确定时,联合组态(v,h)的联合概率分布为
(5)
式中,P(v,h|θ)为玻尔兹曼分布函数.考虑到RBM模型是BM模型的一种特殊形式,同一层内的节点没有连接,则有
(6)
(7)
根据可视层v,可以得到第j个隐层节点hj的激活概率,即
(8)
式中,σ(x)=1/[1+exp(-x)]为sigmoid激活函数.根据隐层h,也可以得到第i个可视层节点vi的激活概率,即
(9)
(10)
(11)
(12)
根据这三个偏导数,用对比散度算法[17]迭代K*次求得模型参数,具体步骤如下:
1) 初始化模型参数,即θ=0;
3) 根据式(13)更新权值,即
(13)
深度学习具备多隐层神经网络的特征学习能力,学习得到的特征更具有本质特性,极大地有助于分类和检索.深度信念网络(DBN)是一种混合了无监督和有监督的深度结构学习模型,通过构建的多层神经网络学习模型和训练数据,学习到更本质的特征,极大地提高了识别和检索的准确性.DBN包含了多个RBM,每一层都能够从上一层的隐层节点中获取高度相关的关联.DBN的结构如图2所示.
图2 DBN结构Fig.2 DBN structure
使用上文得到的降维之后图像特征向量来训练DBN,检索算法的具体过程如下:
1) 设定相关参数,隐层数取为2,初始学习率为0.01,采用自适应的学习控制率,让网络根据情况自动调整,即若重构误差下降,则学习率保持不变;若重构误差不变或增加,则学习率除以2;若学习率低于0.000 1,则停止学习训练.
2) 将底层图像特征作为第一层RBM的输入进行无监督训练,获得该层的最优网络参数.
3) 高层的RBM依次以下一层的RBM的输出作为输入,同样进行无监督训练,获得该层的最优参数.
4) 当DBN学习完成之后,再将降维之后的图像特征向量作为DBN可视层的输入,使用优化之后的网络进行由下至上的多层次学习,并提取出图像样本的抽象特征.
(14)
通过最小化式(14)来计算训练网络参数,即
θ*=argminθH(r,S)
(15)
H(r,S)对W和b的偏导数分别为
(16)
(17)
式中,X为隐层各单元状态.用梯度下降法来更新权值,其表达式为
W′=W-η[(S-r)TX+λW]
(18)
b′=b-η(S-r+λb)
(19)
式中,λ和η分别为权重衰减因子和学习速率.
采用实验来验证本文算法的有效性和可行性.在开展实验之前,先给出图像相似度度量的准则和图像检索的评判标准,其表达式分别为
(20)
(21)
(22)
(23)
式(20)为特征向量之间的欧式距离,式(21)所示的准确率是评估捕获的结果中目标所占的比例,式(22)所示的查全率就是从关注领域中返回目标的比例,准确率与查全率互逆.式(23)所示的F值则是这两个指标的综合评估指标.
选用Corel图像资源库中的1 000幅自然图像(分为10类,每类100张)进行图像检索实验,图像内容分别为花卉、非洲土著居民、海滩、汽车、建筑、树木、山川、马、恐龙和大象.实验中,Gabor滤波器组为8个方向和4个尺度,且取σ=π,图像均匀分为32×32的局部图像块.计算待检索图片的特征向量与图片库特征向量的欧式距离来得到检索结果.
为了确定相似度度量的阈值选取范围与图像检索的准确率、查全率和F值之间的关系,选用花卉和大象来进行测试,结果分别如图3、4所示.
图3花卉的相似度度量的阈值与准确率、查全率、F值之间的关系
Fig.3Relationshipamongthresholdofsimilaritymeasurement,precisionrate,recallrateandFvalueofflower
图4大象的相似度度量的阈值与准确率、查全率、F值之间的关系
Fig.4Relationshipamongthresholdofsimilaritymeasurement,precisionrate,recallrateandFvalueofelephant
从图3、4中可以看出,花卉的相似度度量的阈值在[0.35,0.55]时,F值能取到较好值;大象的相似度度量的阈值在[0.3,0.5]时,F值能取到较好值.综合这两种情况,将相似度度量的阈值取为0.4.
选用上述相似度度量的阈值进行实验,从每类图像中抽取10幅图像进行检索,分别计算每一幅待检索图像的准确率和查全率,再计算每类图像的平均准确率和平均查全率,并且分别与文献[3]的多特征融合检索方法和文献[4]的基于信息熵的检索方法进行比较,得到的实验结果分别如图5、6和表1所示.
图5 三种图像检索算法的平均准确率比较Fig.5 Comparison in average precision ratefor three image retrieval algorithms
图6 三种图像检索算法的平均查全率比较Fig.6 Comparison in average recall rate forthree image retrieval algorithms
s
由图5、6可以看出,本文算法在对10类图像的检索过程中,在平均准确率和平均查全率上均高于另外两种算法.而从表1可以看出,本文算法在检索时间上均低于另外两种算法.实验结果表明,该算法利用Gabor滤波器和RBM提取出降维的图像特征之后,再使用深度信念网络进行学习,能够得到反映图像本质的特征,可以更加有效地表达图像中所传递的信息,在此基础上再采用Softmax分类器,不仅提高了图像检索的精度,而且缩短了图像检索所消耗的时间.而文献[3]和文献[4]在检索图像时,虽然融合了多种特征,但由于特征的相位会由于图像的旋转或缩放变得不稳定,导致识别时的错误信息匹配,从而降低了检索的准确度.因此,综合考虑检索准确度和检索速度,本文方法具有更优越的检索性能.
本文研究了一种新的图像检索算法,提出了利用Gabor滤波器组和受限玻尔兹曼机来得到降维之后的图像特征,并结合深度信念网络和Softmax分类器来对图像进行有效检索.在实验分析中,基于Corel图像资源库中10类不同图像,分别与传统的多特征融合检索方法和基于信息熵的检索方法进行了详细比较,结果表明,本文检索方法能够提取出反映图像本质内容的特征,具有较高的检索准确度和较快的检索速度.
[1] Dahane G M,Vishwakarm A S.Content based image retrieval system [J].International Journal of Engineering and Innovative Technology,2012(5):92-96.
[2] 陈天华.图像检索技术研究与发展 [J].北京工商大学学报(自然科学版),2008,26(6):52-58.
(CHEN Tian-hua.Research and development of image retrieval technology [J].Journal of Beijing Technology and Business University(Natural Science Edition),2008,26(6):52-58.)
[3] 张永库,李云峰,孙劲光.基于多特征融合的图像检索 [J].计算机应用,2015,35(2):495-498.
(ZHANG Yong-ku,LI Yun-feng,SUN Jin-guang.Image retrieval based on multi-feature fusion [J].Journal of Computer Applications,2015,35(2):495-498.)
[4] 孙世然,艾斯卡尔艾木都拉,刘文华.基于信息熵和Gabor滤波器的图像检索 [J].激光杂志,2011,32(2):24-26.
(SUN Shi-ran,ASKAR Hamdulla,LIU Wen-hua.Image retrival based on the entropy value and the Gabor filters [J].Laser Journal,2011,32(2):24-26.)
[5] 孙世然,卡米力木依丁,刘文华,等.基于区域加权信息熵和改进遗传算法的图像检索 [J].激光杂志,2012,33(1):38-40.
(SUN Shi-ran,KAMIL Moydin,LIU Wen-hua,et al.Weight region information entropy and imporved genetic algorithm for image retrieval [J].Laser Journal,2012,33(1):38-40.)
[6] 邵虹,李绍柱,崔文成.基于感兴趣区域灰度统计量的颅脑CT图像检索 [J].沈阳工业大学学报,2008,30(5):564-567.
(SHAO Hong,LI Shao-zhu,CUI Wen-cheng.Brain CT image retrieval based on gray statistic features of interested region [J].Journal of Shenyang University of Technology,2008,30(5):564-567.)
[7] 张刚,马宗民,阚洪敏,等.采用共生矩阵的纹理特征提取方法 [J].沈阳工业大学学报,2010,32(2):192-195.
(ZHANG Gang,MA Zong-min,KAN Hong-min,et al.Texture feature extraction approach using co-occurrence matrix [J].Journal of Shenyang University of Technology,2010,32(2):192-195.)
[8] 许喆,陈福才,李邵梅,等.基于多探寻局部敏感哈希和单词映射链投票的图像检索方法 [J].计算机科学,2014,41(5):82-85.
(XU Zhe,CHEN Fu-cai,LI Shao-mei,et al.Image retrieval based on multi-probe locality sensitive hashing and word map chain voting [J].Computer Science,2014,41(5):82-85.)
[9] 张建明,詹智财,成科扬,等.深度学习的研究与发展 [J].江苏大学学报(自然科学版),2015,36(2):191-200.
(ZHANG Jian-ming,ZHAN Zhi-cai,CHENG Ke-yang,et al.Review on development of deep learning [J].Journal of Jiangsu University(Natural Science Edition),2015,36(2):191-200.)
[10]郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展 [J].中国图像图形学报,2014,19(2):175-184.
(ZHENG Yin,CHEN Quan-qi,ZHANG Yu-jin.Deep learning and its new progress in object and behavior recognition [J].Journal of Image and Graphics,2014,19(2):175-184.)
[11]孙志军,薛磊,许阳明.基于深度学习的边际Fisher分析特征提取算法 [J].电子与信息学报,2013,35(4):305-311.
(SUN Zhi-jun,XUE Lei,XU Yang-ming.Marginal Fisher feature extraction algorithm based on deep learning [J].Journal of Electronnics and Information Technology,2013,35(4):305-311.)
[12]梁淑芬,刘银华,李立琛.基于LBP和深度学习的非限制条件下人脸识别算法 [J].通信学报,2014,35(6):154-160.
(LIANG Shu-fen,LIU Yin-hua,LI Li-chen.Face re-cognition under unconstrained based on LBP and deep learning [J].Journal on Communications,2014,35(6):154-160.)
[13]余永维,殷国富,殷鹰,等.基于深度学习网络的射线图像缺陷识别方法 [J].仪器仪表学报,2014,35(9):2012-2019.
(YU Yong-wei,YIN Guo-fu,YIN Ying,et al.Defect recognition for radiographic image based on deep learning network [J].Chinese Journal of Scientific Instrument,2014,35(9):2012-2019.)
[14]Pang Y,Yuan Y,Li X.Gabor-based region covariance matrices for face recognition [J].IEEE Transactions on Circuits and Systems for Video Technology,2008,18(7):989-993.
[15]孔锐,张冰.Gabor滤波器参数设置研究 [J].控制与决策,2012,27(8):1277-1280.
(KONG Rui,ZHANG Bing.Design of Gabor filters’ parameter [J].Control and Decision,2012,27(8):1277-1280.)
[16]牛连强,赵子天,张胜男.基于Gabor特征融合与LBP直方图的人脸表情特征提取方法 [J].沈阳工业大学学报,2016,38(1):63-68.
(NIU Lian-qiang,ZHAO Zi-tian,ZHANG Sheng-nan.Extraction method for facial expression features based on Gabor feature fusion and LBP histogram [J].Journal of Shenyang University of Technology,2016,38(1):63-68.)
[17]Huang G B,Lee H,Learned M E.Learning hierarchical representations for face verification with convolutional deep belief networks [C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pat-tern Recognition.New York,USA,2012:2518-2525.
(责任编辑:钟 媛 英文审校:尹淑英)
ImageretrievalmethodbasedonGaborfilteranddeeplearning
XU Juan-juan1, CHEN Chen2, YANG Hong-jun1
(1. Manzhouli College, Inner Mongolia University, Manzhouli 021400, China; 2. College of Instrumentation & Electrical Engineering, Jilin University, Changchun 130061, China)
To solve the problem that the image database is becoming larger, an image retrieval method combined with both feature extraction and deep learning was investigated, and a model for feature extraction and dimensionality reduction was proposed based on Gabor wavelet transformation and restricted Boltzmann machine (RBM). The whole image was divided into local image blocks, and a set of Gabor filters were used to extract the image features, and the image features were studied and encoded with RBM. Hence, the dimensionality reduction of image features could be achieved. An image retrieval algorithm based on both deep belief networks (DBN) and Softmax classifier was adopted. In addition, the Corel image database was used to perform the image retrieval test for the new method, and was compared with other two methods. The results show that the proposed method has better performance in precision rate, recall rate and retrieval time, and can obtain better image retrieval results.
image retrieval; Gabor wavelet; feature extraction; dimensionality reduction; deep learning; restricted Boltzmann machine(RBM); deep belief network(DBN); classifier
TN 911.73
: A
: 1000-1646(2017)05-0529-06
2016-07-05.
国家自然科学基金资助项目(61403160); 内蒙古高等学校科学研究基金资助项目(NJZY6558).
徐娟娟(1982-),女,内蒙古赤峰人,讲师,硕士,主要从事图像与信息处理和计算机教育等方面的研究.
* 本文已于2017-01-19 17∶56在中国知网优先数字出版. 网络出版地址: http:∥www.cnki.net/kcms/detail/21.1189.T.20170119.1756.008.html
10.7688/j.issn.1000-1646.2017.05.10