焦 蕾,殷锋社
(陕西工业职业技术学院 陕西 咸阳 712000)
图像搜索引擎检索模式分析与研究
焦 蕾,殷锋社
(陕西工业职业技术学院 陕西 咸阳 712000)
文中研究如何从HTML文档中提取图片相关信息,保证高效和准确的实现图片检索。在对图像搜索引擎检索模式分析的基础上,提出了若干关键技术,设计并实现了一个基于文本的Web图片搜索引擎,给出了系统的总体结构图,并对获取网页、提取信息、图片抓取、建立索引和提供查询进行了详细的描述,分析了图像搜索引擎的检索模式。
图片检索;搜索引擎;关键技术; 总体结构图
图像搜索引擎的检索模式[1]就是它的检索方式,根据这些检索方式来确定不同的检索策略。图像检索模式的核心问题是降像特征的抽取和降像检索。前面的降像搜索引擎的案例代表了两种不同的检索模式:基于文本的检索模式和基于内容的检索模式,此外还有基于两者结合的综合特征的检索模式。下面就对图像搜索引擎检索模式进行分析,并探讨不同的应用状况。
图像检索自二十世纪70年代以来就成为信息检索中一个非常活跃的研究领域。基于文本的图像检索模式最先应用于图像检索中。
原始图像特征的数量可能很大,或者说是处于一个高维空间中,通过映射(或变换)的方法可以用低维空间来表示图像,这即为图像的特征抽取。要想快速和方便地检索到图像,就要对图像数据库中的图像进行特征抽取,并建立相应的索引,以方便用户的检索。
基于文本的图像检索[2]是对图像的名称、编号、内容描述、图像大小、图像所在文件的大小、图像来源、作者、建立图像的时间、存储地点等关键性的信息采用自动标引或进行人工注释,并进行图像的特征抽取,建立图像索引数据库,然后按全文数据库管理,采用全文数据库检索方法。
现在基于网络的图像搜索引擎大都采用这种基于文本的检索模式。网络上的图像文件通常以GIF,JPG,PNG等作为扩展名的。提到的网络图像搜索引擎 (Google,Corbis)通过IMGSRC和HREF两个HTML标签检测是否存在可以显示的图像文件。因为凡是在超文本中可以直接显示的图像,通常都是用这两种标签导向这个图像文件的。IMGSRC表示“显示下面的图像文件”,而 HREF标签则表示“下面是一个链接”,搜索引擎通过检查文件扩展名来确定链路所链接的是否是图像文件。如果文件后缀是GIF,JPG或者PNG,那么它就是一个可显示的图像。但是依据文件扩展名和超文本标识符检到的图像,不是图像本身具体的内容。如Google抽取图像的题名、图像大小、图像内容的描述语言、图像所在文件的大小、图像来源、作者、建立图像的时间、存储地点等信息,专门针对这些图像信息建立索引。Corbis通过人工对图像信息标注。
基于文本的检索模式采用的是全文数据库的检索方法。检索方式[3]分为关键词检索和分类检索。
关键词检索有简单检索和高级检索两种。
Google用关键词检索图像,延续了文本检索的方法。可以使用布尔逻辑检索、限制检索,可以通过关键词的组配和高级检索中提供对图像大小、格式、颜色等的限制的检索。
每个网页都有一个标题,标题有时能概括该网页的内容,该网页则又是有图像的网页,那么就可以利用标题来检索。
还有通过人工辅助将图像按照图像所在的文件名、路径名、图像内容描述等加以标注,然后搜索引擎通过读取文件名、文件名使用的路径,或者是跟在IMGSRC标签后的ALT标签,来逐步导向要搜索的图像。或者是先由搜索器自动搜索网络上的图像,再由专业人员对搜索器自动搜索到的图像进行人工鉴别和分类,利用用户的相关反馈的方法将更新的信息不断地加入到数据库中。
基于文本的图像搜索引擎的检索模式分为两部分[4]:首先搜索引擎对图像语义特征的提取,放入语义库中。图像往往带有标题和文字说明,这些信息也可作为检索图像的线索,图像的文字解说包括的内容更丰富一些,可供检索之用。在超文本文件中的IMG标识中设立ALT选择符的本来目的是用文字告知只显示网页文字内容的用户在某个位置原来应该有什么图像。但是正是这些标识符为图像检索提供了途径。其次用户提交查询关键词,搜索引擎对关键词进行语义特征提取。对用户提交的关键词和图像中抽取的关键词进行特征匹配,根据相关度排序,得到检索结果,用户的相关反馈将更新的信息不断的加入到数据库中。基于文本的图像搜索引擎的检索就是将图像检索转化成文本检索。图1表示出了基于文本检索模式的基本框图。
图1 文本检索模式的基本框图Fig.1 Text retrieval model of the basic block diagram
但是,这种基于文本的检索是借助传统的文本信息检索技术来实现多媒体检索的,它存在着局限性:1)要对所有的图像进行关键词标注,然后才能利用全文检索技术对图像进行搜索,随着网络图像信息的增加,这种方法需要较多的人工参与;2)图像中所包含的信息很丰富,不同的人对同一幅图像的理解不同,文字描述仅是一种特定的抽象,也就是特定的描述针对特定的对象。目前这种文字的描述是靠人主观观察得到的,不同的人对同一幅图像的特定描述是不同的,这就导致了对图像标注没有一个统一的标准,造成检索结果不能够符合用户的需求。
基于图像内容的检索[5]指的是查询条件本身就是一个图像,或者是对图像内容的描述,建立索引的方式是通过提取底层特征,然后通过计算机比较这些特征和查询条件之间的距离,来决定两个图片的相似程度。前面提到的WEBSEEK和QBIC都是基于内容检索的图像搜索引擎。
图像是平面上像素的集合,表示像素的数据是最基本的图像内容,但不能用于检索,因为像素数据太多,与人的视觉感知没有直接的关系。图像的视觉特征是在像素数据基础上提取的,与人的视觉感知相关,而是人的视觉感知进行高级抽象的基础。
1)颜色特征
颜色是描绘图像的一个最简便的特征,具有与生俱来的旋转不变性和尺度不变性。典型的颜色特征有颜色直方图特征、颜色矩特征、颜色相干特征矢量等。
2)纹理特征
纹理特征表示视觉的基本结构,尤指复杂的精致的基本结构或组成,或表面外貌和表面感觉、不平或粗糙的表面特征。纹理特征包括粗糙性、对比度、周期性、凸凹性等。典型的纹理特征包括纹理特征、小波纹理特征、共现自回归纹理特征等。
3)形状特征
形状特征是某一对象的表面配置、轮廓或周线,对象的外形通过其轮廓和形状与其周围的对象相区别。形状包括图像对象边界、边界拐点、形状的质心和各阶矩等。
这些低层特征通过各种方法抽取出来,形成一组特征向量,建立相关索引并存储到数据库中。目前对于图像内容索引采用多维索引算法,根据特征数据集在特征空间中的分布特性,将数据切分成子数据集,并对子数据集建立描述,把图像特征的主要成分抽取出来,然后再建立索引,存入数据库当中。
基于内容的图像特征的抽取决定了基于图像内容的检索方式,下面以基于物理层特征的图像检索方式来说明基于内容的图像检索模式。
WEBSEEK先通过图片浏览得到所想要的图像的范围,然后可以通过颜色来检索,它的“col”检索方式就是根据该图颜色在检出图像列表中搜索相关图像,“his”检索方式则通过手动调整检出图像的颜色直方图来进行另一新的检索,“web”检索就是要在整个Web SEEK目录中根据该图颜色再次检索相近图像。QBIC把颜色作为缺省的检索手段。如在需要检索大海时,指定图像中的主要颜色蓝色(对应海水)的大致比例就可以此为根据查找与此颜色分布类似的图像。
纹理检索也是基于内容检索的一个主要方式。纹理检索和纹理分类技术是密不可分的。针对不同系统的应用要求在纹理检索的实现中采用不同的纹理识别方法。前面的提到的QBIC提出3种纹理描述:粗糙度、对比度、方向性。
示例检索和草图检索就是典型的形状检索。前面提到的俄罗斯国家艺术博物馆搜索图像就可以利用形状检索的方式。用户可以向QBIC系统提供一幅草图,就可以检索到相关的图像。如需要检索海边口落,就可以提供红色太阳的形状,蓝色大海的形状,然后就可以据此查找了。
用户提交查询,系统根据提交的查询,在图像数据库中找到一些最相似的图像返回给用户。提交的查询将转化为一个由低层特征和高层特征结合的向量,然后分别与数据库中图像的向量计算相似度。相似度的计算分为两步[6]:一是计算低层特征的相似度,二是计算高层语义特征的相似度,然后采用线性组合的方法得到最后的相似度。相似度高的图像成为检索的结果。基于内容的检索模式的基本框图如图2所示。
图2 内容的检索模式的基本框图Fig.2 Content retrieval model of the basic block diagram
基于内容的检索模式主要依据图像的画面内容特征和主题对象特征(即图像的实际内容)来标引和检索。这种技术由图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立索引库,检索时可依据用户输入的图像某一特征(例如绘制的草图、轮廓图或调用的相似图像)自动比较特征索引库中的对应特征信息,将最佳匹配结果和相关信息输出,其过程不需要过多的人工干预,具有较强的客观性。
但是基于内容的检索也存在着不足:用户通常使用高层语义概念来判断图像之间的相似性,虽然低层视觉特征具有直观性,但是这些特征并不能真正代表图像的语义特征,ifu}_图像的低层视觉特征和高层语义特征概念不存在直接的联系,所以基于内容的图像检索结果也不能令用户很满意。所以,图像检索模式仍然是以基于文本的检索为主,网上少数图像数据库检索是基于内容的检索。
[1]熊回香.基于内容的图像检索技术的发展方向[J].现代图书情报技术,2004(12):30-33.
XIONG Hui-xiang.Image retrieval technology based content development direction[J].New Technology of Liberary and Information Service,2004(12):30-33.
[2]何洁.图像搜索引擎[J].化工之友,2003(10):34-38.
HE Jie.Image search engine[J].Friend of Chemical Industry,2003(10):34-38.
[3]HAI Zhu-ge.Retrive wages by understanding semantic links and clustering image fragments[J].The Journal of System and Software,2003(12):32-36.
[4]刘伟成,孙吉红.基于内容的图像信息检索综述[J].情报科学,2002(4):431-435.
LIU Wei-cheng,SUN Ji-hong.Summary on content based image retrieval[J].Information Science,2002(4):431-435.
[5]李国辉,汤大权,武德峰.信息组织与检索「M].北京:科学技术出版社,2003.
[6]土朝晖,龚声蓉,唐国维.基于内容的图像检索中的一种多维索引算法[J].计算机工程与应用,2003(9):112-114.
TU Zhao-hui,GONG Sheng-rong,TANG Guo-wei.The content based image retrieval in a multidimensional indexing algorithm[J].Computer Engineering and Applications,2003(9):112-114.
Analysis and design of image search engine retrieval mode
JIAO Lei,YIN Feng-she
(Shanxi Polytechnic Institute,Xianyang712000,China)
Study on how to extract images from the HTML document related information,to ensure efficient and accurate image retrieval.The image search engine retrieval mode on the basis of the analysis, put forward some key technology, design and realization of a text based Web image search engine,gives the overall structure of the system,and access to information extraction, webpage, picture crawling, indexing and query provided a detailed description, analysis image search engine retrieval model.
image retrieval; search engine; key technology; system structure diagram
TP3-05
A
1674-6236(2012)05-0132-03
2012-01-08稿件编号:201201028
焦 蕾(1981—),女,陕西紫阳人,助教。研究方向:软件设计。