图像检索研究的知识图谱分析

2016-11-30 05:52夏红玉李玉海
大学图书情报学刊 2016年6期
关键词:热点图谱检索

夏红玉,李玉海

(1.湖北工业大学,武汉 430068;2.华中师范大学信息管理学院, 武汉 430079)



图像检索研究的知识图谱分析

夏红玉1,李玉海2

(1.湖北工业大学,武汉 430068;2.华中师范大学信息管理学院, 武汉 430079)

以Web of ScienceTM 核心合集数据库收录的关于图像检索领域研究近十年的论著为基础数据。利用Citespace和Spss软件,对所采集的数据进行共引分析和聚类分析,绘制出图像检索领域的著作机构图谱、文献共被引网络图谱,展示了该领域的研究力量分布,确定了该领域的代表人物、代表作品;同时利用软件提供的词频探测技术绘制出图像检索领域的研究热点知识图谱以及研究前沿与发展知识图谱,揭示了该领域近十年的研究热点、研究前沿及其发展趋势。

图像检索;研究热点;研究现状;可视化;CiteSpace

引言

图像检索就是根据对图像内容的描述,在目标图像集合中找到具有指定特征或包含指定内容的图像[1]。早在20世纪70年代,人们就开始研究如何对图像数据进行有效的管理和检索。经过几十年的发展,近十年内图像检索的研究出现了哪些研究热点,涌现出了哪些核心作者群,研究的现状如何?在此背景下,本文在文献挖掘和可视化软件平台的基础上,通过对近年来相关文献的数据分析和重要文献信息的解读,对我国近10年图像检索领域的研究现状进行系统梳理。

1 数据来源和研究方法

1.1 数据来源

本研究所采用数据来源于美国科学情报所(Institute for Scientific Information)出版的 Web of Knowledge。在其下的 Web of ScienceTM核心合集数据库中进行检索,数据库包括引文数据库 SCI-EXPANDED,SSCI,A & HCI,CPCI-S以及CPCI-SSH,数据检索起止时间段设定为“2005”到“2014”,采集数据的时间为2014年8月28日,检索时分别以标题=Image retrieval、标题=multimedia retrieval AND image、标题=CBIR检索式进行检索,去重后得到1424条题录数据,然后选择学科类别为“Computer Science”。本研究以检索到的1424条题录数据(包括题目、摘要和被引文献等)为数据源。每个文献记录代表一篇引文(Citingarticle),而在每条记录中的参考文献被称作被引文献(Cited article)[2]。

1.2 研究方法

科学文献之间的相互联系形成了引证与被引证的关系,本文主要对文献进行共被引分析及聚类分析。共被引文献是指被同一篇论文同时引用的文献,具有共被引关系的两篇论文往往具有类似的研究内容,而共被引的次数可以用来衡量不同文献研究内容的相似程度[3]。聚类分析是依照“物以类聚”的原理,根据事物本身的特性研究个体的分类[4]。对文献进行聚类,使同一类内的文章具有类似的研究内容,可以得到学科领域内的研究热点。通过共引分析结合聚类分析,可以观察到研究领域随着时间的发展趋势,对研究热点与前沿的跟踪具有重要意义[5]。

本文采用文献计量学分析软件CitespaceII和Spss相结合,分析图像检索研究领域的进展和主要研究热点。在目前常用的文献信息分析与挖掘软件中,Citespace 在可视化的算法和展示效果方面具有优势,而Spss可以弥补Citespace在数据清洗功能方面的不足,便于对文献主题进行分析。

2 图像检索领域的研究力量分布

对开展图像检索研究的国家和机构进行可视化分析,可以明确该学科的研究力量分布。在CiteSpace软件的界面上,导入下载的数据源,时区确定为2005-2014年,设置时间跨度为1,即将2005-2014年分为10个时间段进行处理,网络节点确定为Country和 Institution,数据抽取对象为top30,阈值选择为(2,2,20),(4,3,20),(3,3,20),运行CiteSpace,得到数字图像检索研究的国家和机构综合性分析图谱,其中,大的圆形节点代表国家,处于分支上的小的节点代表机构,共有143个节点,151条连线,如图1所示。表1中的数据为从Citespace中导出,经过spss软件进行数据清洗、再聚类的图像检索领域研究力量区域分布统计。

图1 图像检索研究的国家机构图谱

图1显示了数字图像检索领域的研究力量来自多个国家和机构,中国和美国为该领域论文发表的主要国家,结合表1,从发文频次、中心性两个方面对结果进行分析。首先,从发文频次来看,我国大陆地区的发文量最多,为585篇,位居第二位的是美国,发文364篇,紧随其后的是我国台湾地区、韩国、印度、新加坡、法国、日本、德国等。由此可见,中国和美国的文献贡献率最大,并且远高于其它国家。

在Citespace中,中心度指某一节点所在网络中通过该点的任意最短路径的条数,是网络中节点在整体网络中所起连接作用大小的度量,在相同的分析频次中,中心性越大,其作用越大。从中心性来看,在整个网络中,美国的节点中心性最大为0.99,这表明在整个共现网络中绝大部分国家都直接或间接地与其有合作关系,图1中绝大多数国家节点与美国节点之间都有连线,这一现象更加证明了这一点,再重新聚类后,合并了许多处于同一地区的研究机构,也就是说,与美国相连的实际节点数大于图1中所显示的节点数。紧随其后的是中国,中心性为0.66。由此可知,虽然我国的发文频次大约是美国的两倍,但我国的中心度却小于美国。说明我国在图像检索领域的研究成果虽多,但平均研究水平低于美国。与德国相比而言,虽然其发文频次只有71,但其中心度却有0.5,说明在图像检索领域,其研究成果虽不多,却具有很高的影响力。在中心度方面,排在前几位的国家还有:韩国、瑞士、英国、新加坡、印度。总体而言,我国及美国在图像检索领域中的研究具有重要的作用。

3 图像检索领域的文献共引分析

利用CiteSpace信息可视化软件对前面确定的1424条文献数据信息进行可视化分析,将网络节点选为Cited Reference,数据抽取为top20,其他条件不变,运行得到数字图像研究的文献共被引网络知识图谱(图2),其中节点111个,连线244条。

图2 图像检索的文献共被引网络图谱

3.1 数字图像领域的早期研究者及其代表作品

运用CiteSpace软件对学科领域的文献信息可视化,能够较为直观地识别学科领域的经典基础文献[6]。由图3可知,图像检索最早期的研究可以追溯到1962年,M.K.HU首次提出图像识别的几何矩理论,并证明了所提出的7个矩对图像的平移、旋转和比例变化均保持了不变[7],为目前图像检索领域奠定了研究基础。1991年SWAIN MJ等人提出了颜色检索的基本思想和算法,并进一步证明了颜色直方图的像素数目相同时,直方图相交的运算结果反映了两个直方图的街区距离,进一步说明了算法的含义[8]。这开创了图像检索领域研究的新起点——基于内容的图像检索。

3.2 数字图像领域高频文献及关键节点文献

在文献共被引网络中,不同聚类之间通过关键节点相连接。根据陈超美博士的定义,共被引网络图谱中的关键节点是图谱中连接两个以上不同聚类,且相对中心度和被引频次较高的节点。这些节点可能成为网络中由一个时间段向另一个时间段过渡的关键点[9]。基于此,结合表2对图2中的节点文献进行分析,确定了中心度和被引频次相对较高的10篇关键节点文献。

从表2可以看出,在中心度和被引次数相对较高的前十篇文献中,RUIY和MANJUNATH BS两人都有两篇文章入选。被引次数最高的三篇分别是SMEULDERS AWM等人的《Content-Based Image Retrieval at the End of the Early Years》,这是一篇综述性的论文,文章基于200篇参考文献,讨论了基于内容的图像检索的工作条件,以及图像检索系统的计算步骤[10]。RUI Y等人在《Relevance feedback: a power tool forinteractive content-based image retrieval》一文中,在基于内容的图像检索系统的低层特征和高层语义之间的差距,以及人类感知的视觉内容的主体性两个特点上,提出了一种基于相关反馈的交互式检索方法。在检索过程中,用户高层次的查询和感知主体动态更新的权重,捕获基于用户的反馈。实验结果表明:该方法大大降低了组成查询用户的努力,且更精确地捕获用户的信息需求[11]。SWAIN MJ等人的《Color Indexing》在前文中已经分析过了,在此不再赘述。

表2 图像检索研究的10篇关键节点文献

中心度居于第一位的是MANJUNATH BS在2001年发表的《Color and texture descriptors》一文。在这篇文章中作者主要介绍了基于颜色和纹理的描述子。标准的颜色描述子包括使用Haar变换编码的直方图描述子,一个主色描述子及一个色彩分布描述子;三种纹理描述子包括一个均描述均匀纹理区域的描述子,一个描述局部边缘分布的描述子以及一个小型的纹理浏览描述子[12]。作者在文中从三个方面对描述子的效用进行评价:描述子在相似性检索、特征提取、存储和表示复杂性,以实验结果展示了描述子的效率。

4 图像检索领域的研究热点与现状可视化分析

4.1 图像检索研究热点知识图谱

研究热点是在某段时期内,相互联系且数量相对较多的一类文献共同探讨的研究问题。从文献计量学的角度看,在某学科领域内被引频次最高的研究型文献通常是该领域研究热点的集中体现。主题词是一篇文章的核心和精髓所在,是对文章主题的高度概括和精炼,是规范化的语言。对文章的主题词进行分析,频次较高的主题词在一定程度上可以看作是该领域的研究热点[13]。在该研究领域中,我们把主题词作为热点词汇来源,借助CiteSpace信息可视化软件对文献题录中的主题词进行分析,通过显示高频主题词来确定信息服务研究的热点领域。据此,将前文确定的数据源导入CiteSpace中,网络节点确定为关键词,选择适当的阈值,运行CiteSpace软件,生成的一个基于关键词的知识图谱,如图3所示。图中共有96个节点,229条连线。其中出现频次较多的关键词在一定程度上代表了该领域的研究热点[14]。

图3 图像检索研究关键词图谱

从图3我们可以清晰地看到图像研究的重点领域,从CiteSpace导出的热点词中选取频次排名较高的词,去掉不具有代表意义的高频词,如:image retrieval,同时对意思相同的词进行合并统计,如:content-based image retrieval、content based image retrieval、cbir合并为content-based image retrieval,可以得到信息服务的热点词统计表,见表3。

表3 图像检索高频热点词列表

从图3可以看出,image features(图像特征)的节点最大,这说明2005-2014年间,图像检索领域非常注重对图像特征的研究,以至于产生了大量的相关文献。紧随第二的是content-based image retrieval(基于内容的图像检索),可见在这十年间,在图像检索领域,图像特征的研究是基于图像内容的特征,即图像的颜色、纹理、形状等。

其他的主题词,如:relevance feedback(相关反馈)、recognition(图像识别)、image segmentation(图像分割)、feature extraction(特征提取)、similarity(相似度等)、descriptors(描述子)和region-based image retrieval(基于区域的图像检索)的出现频次依次递减。这些热点关键词仅从字面意思理解就与图像的内容特征直接相关,即与基于内容的图像检索直接相关,是基于内容的图像检索研究内容的不同分支。

其余主题词:classification(分类)、system(系统)、algorithm(算法)、databases(数据库)、representation(表示)、model(模型)、framework(框架)、image annotation(图像标注)、semantics(语义)、performance(性能)和support vector machines(支持向量机),仅从字面意思理解,不能判断它与某个主题是否直接相关,但从图3可知,它们都与image features、content-based image retrieval、relevance feedback三个主题热点词节点有连线,因此可以推断出这些主题词语与图像内容特征的检索有关联。

综上所述,在近十年的时间领域里,基于图像内容特征的图像检索是该研究领域的热点。

4.2 图像检索研究前沿知识图谱

利用CiteSpace提供的词频探测技术,通过考察词频的时间分布,将其中频次变化率高的词(burstterm)从大量的主题词中探测出来,依靠词频的变动趋势,而不仅仅是频次的高低,来确定国际科学技术政策研究的前沿领域和发展趋势[15]。将之前检索到的文献数据导入到CiteSpace中,设置合适的阈值,运行软件,共探测出25个膨胀词,得到图像检索研究前沿知识图谱(如图4所示)。

图4 图像检索研究突现词图谱

由图4以及CiteSpace导出的数据可以看出,主题词变化率最高的是retrieval system(检索系统),其突变率达到了25.01,这表明图像检索领域中,图像检索系统获得了广泛关注,是研究热点与重点。另外,Image content(图像内容)突变率达到了5.63,与之相关的另外两个主题词——image features(图像特征)、feature vectors(特征向量)突变率分别达到了5.17和4.72,这表明图像检索领域对图片特征内容的研究仍可能是以后研究的热点。除此之外,retrieval technique(检索技术)、algorithm(算法)和relevance feedback(相关反馈)、classification(分类)、recognition(识别)等主题词的突变率也比较突出。由此可以确定图像特征、图像检索算法、相关反馈和图像识别等领域是近年来图像检索领域研究的热点。

4.3 图像检索领域研究发展现状分析

关键词是一篇文章的核心和精髓所在,对文章的关键词的内容进行分析,频次较高的关键词在一定程度上可以看作是该领域的研究热点。通过对不同时区内热点关键词的数量进行分析,可以得出该领域的发展状态。下面将通过对关键词的聚类分析,统计近年来被引频次大于10的关键词,进行时区分析,通过每个时区内显示高频关键词的数量和引用情况来分析图像检索领域研究的发展现状,具体见图5。

图5 图像检索关键词聚类时区视图

从图5可以看到,图像检索领域每年新增的关键词呈现递减趋势。通过计算每个时区排在前20名被引次数最高的关键词的共现频次得到表4。结合表4与图5可以得知:近十年内图像检索领域的研究内容与研究基础基本上在2006年以前已经成型,并且近十年内一直没有太大突破。2009年以后几乎没有产生新的研究热点。由此数据可以推断,在2005年之前,图像检索领域取得了突破性成就,开创了基于内容的图像检索研究领域,并且向图像特征、图像检索算法、相关反馈和图像识别等方向多元化发展。其后的研究并未取得突破性成果,因此可以认为自2006年后,图像检索领域一直处于研究的瓶颈期。

表4 图像检索热点关键词时区贡献力列表

5 结语

本文以图像检索为研究对象,以Web of ScienceTM核心合集数据库收录的关于图像检索研究领域近十年的论著为基础数据。利用动态网络分析的信息可视化技术及工具CiteSpace对其进行分析,运用科学计量的方法以知识图谱的方式展示图像检索领域的研究力量分布以及相关的代表人物、代表文献,分析了信息服务当前的研究热点和研究的发展趋势,由此得出以下结论:

(1)图像检索力量来自多个国家和机构,这些研究机构主要分布在中国、美国、韩国、德国等国家,并且大多是大学和研究所,它们在图像检索领域的研究具有非常重要的作用。(2)从文献的发表时间来看,图像检索领域较早时期的节点文献是1962年M.K.HU的《Visual pattern recognition by moment invariants》,首次提出图像识别的几何矩理论;从文献的重要性来看,SMEULDERS AWM、SWAIN MJ、RUI Y、MANJUNATH BS、LOWE DG等人是该领域内的重要代表人物,图像检索领域的关键节点文献大多由他们撰写。(3)通过词频探测技术,确定图像检索领域的研究热点主题包括图像检索系统、图片特征、图像检索算法、相关反馈、图像识别等领域。(4)通过关键词时区分析得到:近十年内图像检索领域的研究内容与研究基础,在2006年以前已经基本成型,其后研究并未取得突破性成果,因此,自2006年以后,图像检索领域一直处于研究的瓶颈期。

[1] 张明霞,徐金东.数字图像检索研究进展概述[J].图书馆工作与研究,2011(10):34-37.

[2] 陈超美.CiteSpace II: 科学文献中新趋势与新动态的识别与可视化[J].陈悦,侯剑华,梁永霞,译.情报学报,2009,28(3):407-408.

[3] 谭春辉,麻晓杰.我国图书馆学非正式学术共同体的形成——基于1998-2012年《中国图书馆学报》的计量分析[J]. 情报杂志,2014(3):64-71.

[4] 马费成,陈潇俊,刘向.基于科学知识图谱分析的知识演化研究——以生物医学为例[J].情报科学,2012(1):1-7.

[5] 魏晓萍,陈恒.本体研究热点及演进过程的可视化分析[J].图书馆杂志,2013(2):65-72.

[6] 侯剑华,陈跃.战略管理学前沿演进可视化研究[J].科学学研究,2007,25(S):16-17.

[7] Hu, M.K. Visual pattern recognition by moment invariants[J].Information Theory Ire Transactionson,1962(8):179-187.

[8] Michael J. Swain, Dana H. Ballard. Color Indexing[J]. International Journal of Computer Vision,1991(7):11-32.

[9] Chaomei Chen. The Centrality of Pivotal Points in the Evolution of Scientific Network, Proceedings of the In-ternational Conference on Intelligent User Interfaces(IUI 2005)[C]. San Diego: CA, 2005: 98-105.

[10] Arnold W. M. Smeulders.elt.Content-Based Image Retrieval at the End of the Early Years[J].IEEE Trans. Pattern Anal, Mach. Intell. 2000,22(12):1349-1380.

[11] Rui Y., Huang T.S., Ortega M., and Mehrotra S. Relevance feedback: a power tool for interactive content-based image retrieval[J]. IEEE Trans. Circ. Video Tech,1998, 8(5):644-655.

[12] B. S. Manjunath, J. R. Ohm.elt.Color and texture descriptors Circuits and Systems for Video Technology[J].IEEE Transactions on, 2001,1(6): 703-715.

[13] 赵蓉英,徐灿.信息服务领域研究热点与前沿的可视化分析[J].情报科学,2013(12):9-14.

[14] 赵蓉英,许丽敏.文献计量学发展演进与研究前沿的知识图谱探析[J].中国图书馆学报,2010,36(5):60-68.

[15] 侯海燕,刘泽渊,陈悦,等. 当代国际科学学研究热点演进趋势知识图谱[J].科研管理, 2006,27(3): 90-96.

(责任编辑:朱爱瑜)

Knowledge Map Analysis of Image Retrieval Research

XIA Hong-yu, LI Yu-hai

(1.Hubei University of Technology, Wuhan 430068, China;2.Central China Normal University, Wuhan 430079, China)

Based on papaers on image retrieval research in the core collection database of Web of Science for nearly ten years, by using Citespace and Spss, this paper conducts co-citation analysis and cluster analysis.It makes the country-institution map and the literature co-citation network map in the field of image retrieval field, shows the research distribution and confirms the representative scientists and documents in this field.At the same time, with the frequency detection technology which is provided by CiteSpace, it discloses the esearch hotspots, research fronts and development trends by mapping the knowledge map of them in the image retrieval field.

image retrieval; esearch hotspot; research status; visualization; CiteSpace

G252.8

A

1006-1525(2016)06-0117-09

夏红玉,女,馆员。

2016-05-27

猜你喜欢
热点图谱检索
热点
绘一张成长图谱
热点
结合热点做演讲
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
专利检索中“语义”的表现
热点
杂草图谱
国际标准检索