吕英丽 徐小君 顾 勇
(河北建筑工程学院,河北张家口075000)
随着网络技术和成像技术的迅猛发展,基于内容的多媒体图像资料的搜索需求日益强大[1].现有的搜索引擎如百度、谷歌等对图像资料的搜索主要依赖于图像对应的标注信息,使得搜索结果不尽准确.而手工进行图像标注的方法费用太过昂贵,仅仅根据标注的文本信息检索图像资料已经不能满足搜索的需求.新兴的研究主要集中在基于内容的图像检索系统上,即通过分析图像内容数据确定图像的检索信息进而进行图像检索[2][3].这些研究将促进基于图像内容搜索技术的应用,带来很大的经济效益,同时能引起人们生活方式的变革进而产生巨大的社会效益[4][5].正是在这样的背景下,本文应用LDA(latent Dirichlet allocation)模型对基本图像特征进行建模,然后应用且具有良好分类效果的支持向量机SVM(Support Vector Machine)算法进行分类.
本文利用图像低层特征和图片文件数据建立图片的LDA模型.把模型参数送到LDA模型数据库进行检索,返回根据图像内容检索到的类似图像结果.寻找图像的重要特征并构建图像的语义模型.应用shift特征结合低层特征进行特征融合.建立图像的改进LDA模型.根据语义模型进行图像库的预分类技术加快检索速度.其中LDA模型是系统的核心模型.
LDA即隐狄立特雷分配[6],是David Blei,Andrew Ng和Michael Jordan在2002年首先提出的一种生成模型.它是为文本处理领域引入的一个采用无参数分级贝叶斯方法产生的主题模型.在2006年,加州理工大学的李菲菲教授[7]将其引入图像检索领域并取得较好的效果.该模型每个主题下的文档θi服从多项式分布Multi(θ),语料库中的每个主题服从多项式分布p(w|zi),将其应用到图像处理领域时,语料库对应图像领域的图像库,主题对应类别,文档对应一幅图像.α,β,θ,和φ是系统对应的参数.
用户输入图片到计算机,在本地先进行预处理,对图片格式及其他图片信息进行检测.提取图像低层特征包括颜色、纹理及SIFT特征,然后把图像低层特征和图片文件送入服务器端,在服务器端建立图片的LDA模型.把模型参数送到LDA模型数据库进行比对,确定图片属于的类别,在同类别中根据与输入图片相似度进行排序输出前几幅图像.同时LDA模型数据库匹配的文字信息也一起传送到用户端.如果用户采用的是文字检索方式,则直接用文字同模型数据库中的文字进行检索匹配.
本系统提取SIFT特征的实验部分使用SIFT-VC程序进行,该程序是Rob Hess编制的VC界面下的特征提取程序,具有特征提取速度快并与Lowe,D.的SIFT特征接近的效果.LDA建模部分采用GibbsLDA++进行,SVM部分使用台湾林智仁教授的LIBSVM程序软件包进行开发.这些软件包均是目前这些应用的主流软件包,最贴近算法设计者的原算法且应用简单.
实验用的数据库是ImageNet数据库,该库是2008年普林斯顿大学的李菲菲教授团队开始建立的数据库,该库目前仍在建设中,不过已经具有相当的规模.ImageNet根据WordNet分级机制组织数据库.每个节点选取几百到上千幅图像描述该节点并由人工进行标注以确保数据库数据的准确性.
实验中我们由ImageNet数据库中选却了8类图片进行检索实验,分别是哺乳动物、山、鸟、花、飞机、汽车、船和房屋.每类图片选取500个样本图片.图3给出了汽车类别和花类别的图片的基本特征对比情况,由图中可以看出同类别图片的特征较不同类别有较大相似性.
在检索率试验中,由8类图像中每类选取500幅图像,按照检索试验方法进行试验,表1列出了各类图片的检索率值.由表中可以看出不同类别的检索率不同,这是由于不同检索类别的特征特点不同,且与其他类别的区分度有差异造成的.
表1 八类图片的检索率
表2给出了当图像训练数据量变化时对检索率的影响.训练数据样本量越大,检索率越高.但训练数据样本量越大,检索系统构建时的计算量也越大,系统构建的时间也越长.
表2 训练数据变化时检索率提高表
本文在数字图像内容研究的基础上提出了一种基于LDA模型的图像检索方法.该方法提取出图像的颜色、纹理及SIFT特征进行混合得到图像的复合特征,使用这些特征与图像和图像库构建LDA模型.根据不同类别的LDA模型参数的不同进行图像检索.实验表明该方法对基于内容的多媒体图像资料检索效果良好.
[1]Datta R.,D.Joshi,J.Li,etc.Image retrieval:ideas,influences,and trends of the new age[M].New York:Association for Computing Machinery,2008,1971 ~2035
[2]Russell,B.C.,Torralba,A.,Murphy,K.P.,etc.LabelMe:A database and web -based tool for image annotation.International Journal of Computer Vision,2008,77(1-3):157~173
[3]Vedaldi,A.,Gulshan,V.,Varma,M.,etc,A.Multiple kernels for object detection[C].Kyoto:In Twelfth International Conference on Computer Vision,2009
[4]Kinh Tieu,Paul Viola.Boosting Image Retrieval.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2000
[5]James Z.Wang,Jia Li,Gio Wiederhold.SIMPLIcity:Semantics-sensitive Integrated Matching for Picture Libraries[J].IEEE Trans.on Pattern Analysis and Machine Intelligence,2001,23(9):pp947 -963
[6]D.Blei,A.Ng,M.Jordan.Latent dirichlet allocation.Journal of Machine Learning Research,2003,3:993 ~1022
[7]Fei- Fei.L.,Perona.P.A Bayesian Hierarchical Model for Learning Natural Scene Categories.CVPR,2005,6:524 ~53