●周 敏(重庆理工大学计算机科学与工程学院,重庆400054)
数字图书馆的图像检索模型研究
●周 敏(重庆理工大学计算机科学与工程学院,重庆400054)
数字图书馆;图像检索;分布式;模型
为了提高数字图书馆图像检索的效率,建立了一种新的图像检索模型,而且为了模拟图像检索模型在数字图书馆中的实际使用效果,还设计了一个图像检索原型系统。实验结果表明,设计的图像检索原型系统具有较高的相似图像查准率。
图像是一种直观、信息丰富、易于理解的常见数据形式,图像信息比文本信息的结构要复杂得多,在信息的表达和特征提取上,图像信息也比文本信息更加困难。因此,与文本信息的检索相比,图像的检索更有挑战性。在图像的检索方式中,基于关键词的传统图像检索方式已远远不能满足用户越来越高的图像检索需求,如用户想检索一幅图像的出处或想检索到一幅与原图像相似的图像。由于以关键词为导向的图像检索方式存在明显的局限性,基于内容的图像检索方式逐渐得到重视并逐步发展起来,[1]一些知名的搜索引擎公司相继使用了基于内容的图像检索技术,然而这种图像检索技术尚处在测试阶段,图像检索的效果离理想要求还差得太远。基于内容的图像检索技术包含较多关键问题,除了要对图像的内容进行有效提取外,还要充分考虑实际检索过程的检索效率问题。一方面,检索系统因为要面向大量的用户,就必须搜集大量的图像来组建图像数据库;另一方面,当图像数据库大到一定程度时,满足用户要求的图像就很有可能根本无法在给定的时间内被检索系统处理到,这时,图像特征提取得再准确也没有意义。目前,图像检索的研究主要集中在四个方面:(1)寻找描述图像的合适特征以及研究图像特征的比较匹配方法;(2)提取图像的局部特征来描述整幅图像(图像分割技术);(3)在图像检索时加入用户反馈,根据用户的反馈实时调整相关准则,让评价相似性的标准更加贴近用户期望;(4)研究如何提取诸如语义信息等图像的高级特征。[2-8]为了在有限的检索时间内提高相似图像的检索效率,本文建立了一个分布式的图像检索模型,并设计了一个基于该模型的图像检索原型系统,可以在原型系统上进一步开发用于数字图书馆的图像检索系统。
本文设计了一种新的图像检索模型,基于该模型的图像检索系统包括以下几个部分:(1)终端,是用户和系统进行交互的关键设备;(2)接收服务器,主要功能是接收用户终端的检索请求,根据存储在其上的资源分布信息,把检索请求分发给对应的检索服务器,由检索服务器执行具体的图像检索任务;(3)检索服务器,接收来自接收服务器的检索请求并执行图像检索任务、把检索到的相似图像有关信息记录下来;(4)备份服务器。如果因检索服务器忙而不能响应检索请求时,接收服务器会将检索请求发向备份服务器,由备份服务器代替检索服务器执行图像检索任务。通常,图像检索任务会由多个检索服务器上同时执行,检索任务完成后将得到的结果返回给终端。
在该图像检索模型中,每个检索服务器上存储的图像会有不同的概率分布,和理想概率分布完全不同,必须先用合适的概率估计方法进行估计。
1.1 图像存放位置估计
图像存放位置估计是指对图像存储在什么地方的概率估计。先对图像进行聚类处理,再把图像按类别分别存储到某类数据库中,同时统计出每个数据库中图像的数量。设数据库n中的图像数量是Bn,计算每个数据库的类中心,设数据库n的类中心为Xn,把该数据库里存储的所有图像和类中心进行逐一比较,得出距离后再映射到对应的各个区间上(如果图像和类中心的距离为6,就会被映射到6个区间上)。各个数据库不但要存储图像本身,还要存储图像的附加信息,如图像数量、图像类中心(以向量形式存储)、划分成多少个区间、每幅图像分别属于哪个区间、每个区间分别有多少幅图像等,这些附加信息可以帮助估计概率分布。设某幅图像与数据库n中的类中心相比的距离为p,它被映射到区间p,设区间p中图像数量为Yp,这样,区间p及其相邻区间的图像一共就有Cn幅图像,见(1)式。
如果p为1或J,那么只加范围内的区间,若超出J则按J计算。Cn为在数据库n中和某幅图像相似的图像数量,这时用来估计目标图像在数据库n中的概率P(n),见(2)式。
这种概率估计方法只需充分利用图像数据的一些先验知识,不需要基础的训练过程,就算缺乏训练还是能够正常工作。
1.2 图像所属类别估计
图像类别估计是指对图像所属类别进行初步的概率估计。为了确定检索图像的类别,首先要为每个类别作资源分配,然后在此基础上作进一步的资源分配。针对图像类别进行的分配需要先对初始概率分布进行估计,这种估计不能依照图像的内容特征作出,因为图像的内容特征往往不能充分反映图像的所属类别信息。如果不同类别的图像之间没有十分明显的差异,那么,仅仅根据图像内容所作出的概率估计就会出现相当大的偏差,这时不得不用到语义信息。本文在图像类别的估计上,用支持向量机作分类器,为了处理每一类问题,使用与图像的类别相同数量的分类器,每个分类器会根据经过的图像特征计算出决策函数值,这个函数值可以用于判断某幅图像与每个类别的相似度,从而基本估计出概率分布。进行图像分类时,需要对分类器进行训练,即选择径向基内积核函数(具有很强的分类能力、只需少量的确定参数),训练样本是从每一类图像里选取的30张图像,输入向量是提取的32维颜色直方图。进行训练时,以鸟图像为正例,其余图像为反例,部分训练结果为:鸟类准确度85%,牛类准确度94%,风景类准确度65%,房屋类准确度98%。
如果对图像的类别进行判断时出现了错误,就会因为在图像的错误类别上投入了检索资源,而导致检索资源的严重浪费。为了避免这种错误的发生,先用支持向量机算出决策函数值,再根据决策函数值来判断图像属于哪个类别的概率分布。设第j个类别对应的支持向量机返回一个分类结果fj,则fx图像属于第j个类别的概率P(j)可用(3)式进行估计。
本文设计了一个图像检索原型系统,它包括了图像检索系统的主要功能模块。用户通过系统界面输入待检索的图像、设置有关的检索参数。图像检索系统先从用户输入的图像及相关参数中提取出图像的内容特征,再利用有效的搜索算法对检索资源进行分配,然后系统按照检索资源的分配方案向相关检索服务器提交图像检索请求,最后检索服务器在图像数据库中查找出所有的相似图像,同时将这些相似图像按照与待检索图像的特征相似度从高到低的顺序排列后返回给用户。[9-11]图像检索原型系统的主要模块由系统界面模块、图像特征提取模块、资源分配模块、数据存储模块、图像检索模块组成。原型系统的模块图如图所示。
图原型系统主要模块
(1)系统界面模块。主要为用户提供可视化的操作界面,用户可以在系统界面上选择检索时使用图像的哪些特征,还可以方便地设置其中每一个特征的权重。同时,用户也可以选择使用什么样的检索方式(是一般检索方式还是优化检索方式),如果用户选择了优化检索方式,就需要再输入用户所能接受的检索时间。系统检索完成后,用户还要对检索出的图像与输入的待检索图像是否相似进行评判并作出标记,同时将用户的意见通过界面上的反馈按钮返回给系统;原型系统中,程序的设计和界面的实现是分开的,因此,系统实现的模块和检索算法都可以在以后的实验中被重用,系统的扩展性好。
(2)图像特征提取模块。包括图像特征的表示和图像特征的提取,本文的系统中,图像的特征用一个N维向量来表示,如(X1,X2,X3,……,XN),图像特征的提取由相关的类来完成。
(3)资源分配模块。该模块主要完成基于优化搜索理论的概率估计(估计图像存储的位置、估计图像所属的类别),以及探测函数的确定和使用参数的设置,并按照优化分配方式分配检索资源,具体的检索任务由检索模块执行。
(4)数据存储模块。每一类图像的数据信息存储在数据库中,每一类图像都有一个总数据表,存放图像本身的信息(包括图像的id、图像的长宽、图像的像素等数据),见表1。首先为该类图像的每种特征建立一个总索引,总索引之下又建立多个子索引,便于对图像进行适当的分类;然后根据本文建立的模型,聚类的中心、离聚类中心最远的距离、离聚类中心最近的距离等信息也存储在数据库中,见表2。
表1 图像的信息表
表2 聚类的信息表
(5)图像检索模块。该模块主要功能是检索到存储在数据库中的图像数据,通常按照优化分配模块提供的分配方案来进行检索,即只在分配方案规定的检索时间里执行针对某一类图像或是某一个聚类的检索,而不像一般检索方式那样把所有的图像都从头到尾检索一遍。检索完成后,先按照用户事先设置的每个特征的权重来加权,再把结果按照从高到低的相似度排序后返回给用户。本文设计的图像检索模块中,不同类别的图像被存放在不同的区间,系统认为比较相似的图像才被存放在相同的区间里,那些差别越大的图像也就被存放在相距越远的区间里,所以,该模块在检索图像时每次都从该图像在聚类中的初始区间开始并依次扩展到相邻区间和其他更远的区间的话,在初始区间里找到相似图像的概率最大、在相邻区间里找到相似图像的概率次之、在其他区间里找到相似图像的概率随距离增加而递减直至最后为零。采用这种检索方式可以保证在较短时间内检索到相似图像。
图像数据库里一共有4类图像,分别为鸟、牛、风景、房屋,每类图像200幅。当用户选择了检索某类图像并确定了所采用的检索方式时,图像检索原型系统将进行检索。在用户选择用优化检索方式检索图像时,由于用于实验的图像数量还不够多,所以,事先设置了每秒钟处理1条数据的图像检索速度。也就是说,如果设定检索时间为10秒就会检索到10幅图像。如果用户选择了检索所有的图像,那么,所有种类的图像都会被列入检索范围。首先,检索系统会在图像的类别上作最优分配,然后检索系统继续在所有类别上进行最优分配,最后检索系统把图像按照相似度由高到低排序后返回给用户。共选取鸟、牛、风景、房屋4种类别的图像进行实验,在每种类别的图像里随机选取10幅不同的图像进行实验测试,分别对每种类别的图像执行10次检索,并将10次检索查询的平均查准率作为检索系统的检索准确率,最后的统计结果如下:鸟类18.8%、牛类28.9%、风景类43.6%,房屋类16.9%。而一般检索方式得到的检准率分别为鸟类11.2%,牛类24.5%,风景类33.2%,房屋类11.3%。
实验结果表明,本文采用的优化检索方式的平均查准率明显高于一般的检索方式。
[1]Zaheer Y.Content-based image retrieval[C]//Second International Conference on Digital Image Processing.InternationalSocietyforOpticsandPhotonics,2010.
[2]Flickner M,et al.Query by image and video content: The QBIC system[J].Computer,1995,28(9): 23-32.
[3]Carlson B.Taking on visual recognition's tough on-line test:Web still&video image content search&retrieval[J].Advancedimaging,1997,12(4):3.
[4]Bach J R,et al.The virage image search engine:an open framework for image management[C]//SPIE Storage and Retrieval for Image and Video Databases IV. 1996:76-87.
[5]Pentland A,et al.Photobook:Content-based manipulation of imagedatabases[J].InternationalJournalofComputerVision,1996,18(3):233-254.
[6]Smith J R,Chang S F.VisualSEEk:a fully automated content-based image query system[C]//Proceedings of the fourth ACM international conference on Multimedia,ACM,1997:87-98.
[7]Ma W Y,Manjunath B S.Netra:A toolbox for navigating large image databases[C]//Image Processing, InternationalConference on IEEE,1997(1):568-571.
[8]Mehrotra S,et al.Multimedia analysis and retrieval system[C]//Proc.of The 3rd Int.Workshop on InformationRetrievalSystems,1997.
[9]何蕾.基于对称性和GC矩的数字图书馆图像检索技术[J].图书情报工作,2012(7):135-139.
[10]贾伟,等.一种基于改进的CS—LBP算子纹理图像自适应检索方法[J].微电子学与计算机,2013(9):75-78.
[11]徐朝辉,等.一种基于加权颜色聚合向量的图像检索方法[J].微电子学与计算机,2014(2):31-34,38.
G250.76
B
1005-8214(2015)06-0106-04
周敏(1971-),女,重庆理工大学计算机学院讲师,研究方向:信息安全。
2014-10-10[责任编辑]阎秋娟
本研究获2014国家社科基金项目“数字图书馆的智能图像检索系统研制”(项目编号:14BTQ053)支持。