朱靖
【摘要】以在CSSCI数据库中检索到的数据为基础,利用Citespace、Netdraw和SATI文献题目统计和可视化工具对2007 -2011年信息检索领域文献的期刊分布、作者与机构分布、被引作者分布、研究热点分布以及当前存在的问题和未来发展趋势作分析研究,以期为我国信息检索领域的研究提供参考。
【关键词】信息检索 研究进展 可视化
引 言
迈入信息社会,网络已成为人们生活中不可或缺的一部分,而信息检索理所当然地成为人们融入网络的一个重要途径。在互联网迅速发展的同时,信息检索的研究也取得了较大的成绩,信息检索的理论和实践对推动互联网的发展有着重要的作用。为进一步了解我国信息检索的研究状况,本文对2007 -2011年这5年间的相关研究进行统计分析。
数据来源
笔者在CSSCI数据库中以“信息检索”为关键词,时间设定为2007-2011年,检索共得到398篇文献,以这些文献为基础,利用文献题录统计与可视化工具来分析信息检索研究的进展情况。
研究方法
作为现今多学科中一种常见的信息或数据可视化形式,科学知识图谱是通过对某学科领域在特定时间段内发表的学术论文或者专著的作者、题名、关键词、作者机构等信息用可视化的图谱形象地展示学科的核心框架、前沿领域和其他有关的信息,也可运用多元分析手段得出某学科领域在特定时期内形成的以作者、文献、期刊、机构等为节点的图谱[1]。由于科学知识图谱能够直观地展现学科知识结构,自20世纪80年代创制以来得到广泛的传播和深入的发展,出现了较多的知识图谱分析工具。本文选取了Citespace、Netdraw和SATI这三种代表性工具来统计文献信息和绘制科学知识图表,通过对检索到的信息检索研究相关文献信息进行统计和可视化展现,更清晰地展示这5年间信息检索的研究概况。
研究状况分析
4.1文献总量与年度分布
在这398篇文献中,研究论文有359篇,综述23篇,评论8篇,报告4篇;涉及的学科有管理学、语言学、艺术学、经济学、社会学、教育学等,其中图书馆、情报与文献学是最多的,共352篇;在年度分布中,2007年113篇、2008年100篇、2009年73篇、2010年61篇、2011年51篇,如图1所示:
从图1中可以看出,有关信息检索的研究文献在2007-2011年是逐年递减的,其中下降幅度最大的是2009年。笔者用同样的检索关建词在CSSCI数据库中查看往年的文献数量,发现我国信息检索的研究是经历了一个又冷到热再组建到冷的发展,有关文献的高峰期是在2004-2005年,之后由热逐渐转冷的过程由图1可以清晰看到。
4.2 文献的期刊分布
这398篇文献分布在32种期刊上,平均每种期刊载文量是12.44篇,其中发表1篇的有10种,发表2篇的有3种,发表3篇的有2种,发表4篇以上的有17种,如表1所示:
这17种期刊都是图书情报类期刊,共发表文献376篇,占所检索出的文献总量的94.47%。这项统计也进一步说明了图书情报类的期刊是信息检索研究文献发表的主要阵地。其中发文篇数在50篇以上的有《情报理论与实践》、《情报杂志》、《图书情报工作》。
4.3 作者与机构的分布
笔者对这398篇文献的作者进行了统计,共有581人,发表3篇以上文献的作者有38人。表2列出了2007-2011年间发表文献最多的前19位学者,也就是发文总数在4篇及以上的作者及其所在的机构。需要说明的是,表中的数字可能不是每一个学者的全部发文量,因为笔者检索文献时设置了关键词和CSSCI来源期刊等条件。
从表3可以看出,武汉大学以5年发文29篇、平均每年发文5.8篇高居榜首,其次是南京大学、中国科学技术信息研究所、中山大学、北京大学等机构,从高产机构的分布来看,信息检索研究的主力军还是来自高等院校。
4.4 高被引作者的分布
为更好地显示信息检索领域作者的学术影响力,笔者从作者的被引视角来进行分析。经统计,在2007-2011年间发表的398篇文献中,引用文献共4 291篇次,篇均引文数为10.78篇次。在统计过程中剔除了无效引文和署名为机构或课题组的引文,最后统计出了作者被引数, 2007-2011年被引数在5次及以上的作者,共20人,如表4所示:
从表4中可以看出,被引次数最高的是G.Salton,其次是赖茂生、T.Saracevic、N.J.Belkin、P.Ingwersen、周宁等学者,排除国外学者,国内被引次数排在前列是有赖茂生、周宁、成颖、张晓林、吴丹、马费成、李景、黄名选、孙茂松、曹树金等学者。图2显示的是高被引作者按中心度分布的可视图,中心度越大,在图中表示的圆圈越大,其在信息检索领域的影响也越大,其与被引次数作者的分布基本一致,更形象地表示了被引作者的影响力。
4.5 核心研究主题的分析
为更好地分析和展示近几年信息检索领域的研究主题和研究进展,笔者对这398篇文献的关键词作了统计分析。统计发现共有861个关键词(无关键词的文献不在统计范畴),而共现次数越多的主题词就越能成为近几年的研究热点。出现频次在5次及以上的关键词,如表5所示:
图3是对共现次数高的关键词进行了可视化的结果,可以更清晰地表示主题词的分布特征。从表5和图3可以看出,排除 “信息检索”这一关键词之后, 2007-2011年间关键词共现较高的有:本体、跨语言信息检索、查询扩展、网络信息检索、数字图书馆、信息检索系统、搜索引擎、向量空间模型、关联规则、检索模型、信息可视化、语义网、信息查询、智能信息检索、Web 2.0等,这些高频主题词无疑构成了近几年信息检索领域的研究热点,其中跨语言信息检索、网络信息检索、查询扩展、信息检索模型与系统、语义网等是最受研究者关注的。
信息检索研究当前存在的问题
5.1 信息组织特别是网络信息组织标准化、规范化研究滞后
网络发展迅速,网络信息发布和更新非常快,而且网络的开放性使得任何单位或个人都可以在网上随意发布信息,但信息发布者不会依据一定的标准或规范去组织他们的信息,而这些呈指数增长却又无序的网络信息增加了信息检索的复杂度。要提高信息检索的效率, 必须从源头上来解决相关问题, 实行网络信息组织标准化、规范化[2]。这方面的问题在信息检索领域还有待解决。
5.2 检索技术和工具的适应性研究滞后
当前我国对于检索技术和工具的研究大多是集中在一般说明和比较分析方面, 很少有较具体的改进方案的提出和实现,可以说我国信息检索的技术性研究较薄弱。而且从现在的信息种类来看,人们不仅是要检索文本和数据信息,而且更多地会关注图形图像、视频、音频等多媒体信息,所以要使人们在越来越发达的信息时代获得所需信息, 就必须致力于解决新的技术和新工具的研究问题[3]。
5.3 检索工具评价较模糊,检索语言有待改进
高性能的检索工具会大大提高检索效率, 能为信息检索者节省不少时间, 但面对较多的检索工具时, 检索者往往不知道如何选择, 因此需要一套较完善的检索工具评价指标作为选择的依据[4]。另外,并非所有的检索者都能懂检索语言, 他们更倾向于使用自然语言,而目前的检索结果往往无法满足真正的需求,所以应致力于方便易用的检索语言开发研究, 最终能使检索者用简易的检索语言来达到检索目标。
5.4 文献研究内容冗余、创新性低
笔者所检索到的398篇关于信息检索的文献,有不少是内容交叉、重复率高、可用性差的,使研究成果的质量降低,另有较大一部分仅仅是引进说明或分析比较国外的信息检索成果,与国外信息检索领域的研究深度差距仍较大。
信息检索未来发展趋势
6.1 个性化发展,对用户体验的关注越来越显著
信息的冗余、雷同乃至信息爆炸等问题时刻困扰着人们,而信息检索研究的目的就是要从纷繁复杂的信息中寻找出符合需求的信息,并且不同群体或用户个体对信息的需求欲望愈来愈强烈,这就促使了信息检索要向符合个性化服务的方向发展[5],更注重用户的检索体验,针对不同用户的不同需求来处理检索的相关问题。
6.2 智能化发展
智能检索是基于自然语言的检索形式,通过对知识库的推理和搜索,把现代人工智能的技术与方法引入信息检索系统,使后者具有一定程度的智能特征,其目的是使信息检索系统理解文件包含的信息内容和用户的信息需要,在对内容的分析理解、内容表达、知识学习、推理机制、决策等基础上实现检索的智能化,得到用户能直接加以利用的知识或信息[6-7]。随着计算机智能技术和网络技术的发展,信息检索的智能化发展是必然趋势。
6.3 融合趋势更加突出
信息检索不仅仅在计算机学科、图书情报学领域作用突出,在医药、生物、农业等领域也逐渐应用较多,现阶段更有与金融商务、电子商务、网络技术等学科融合紧密,成为了不可或缺的重要应用工具。在经济全球化的发展进程中,信息是发展的支持要素,而且信息检索会更融入全球化的发展中,与其他更多的学科和领域相融发展。
6.4 专题信息、多媒体信息等新的信息检索发展显著
专题化信息检索是基于某一信息领域或某一特定用户领域的检索,针对特定的用户群或领域,在标引的过程中可以构建专业词库,大大提高标引的深度和专指度;网络上多媒体信息越来越多,根据用户自身体验,在图像、视频、音频的多媒体基础上进行新技术的信息检索。专题和多媒体信息检索同样也是个性化信息检索发展的重要部分。
6.5 多语言、全球化信息检索发展稳步前进
由于互联网是一个巨大的数字资源库,包含不同语言信息,随着信息查询用户素质的不断提高,对全球信息了解的需要越来越强烈,针对这种需求,在网络版叙词表的基础上,利用新的智能检索技术,实现不同语种间的有效转换,可以使用户检索不同语言的同类信息。这种多语言、全球化信息检索也会是今后发展的一大趋势。
结语
信息检索是一门技术性和实践性很强的学科[[8],在网络信息化时代,我们更应认识到现阶段信息检索领域存在的问题,加强理论研究,大胆实践创新,顺应发展潮流,信息检索领域的研究才能得到真正地长足地提升。
[参考文献]
[ ] 侯剑华.工商管理学科演进与前沿热点的可视化分析[D].大连:大连理工大学,2009.
[2] 谈大军,陈晓转.1998-2003年我国网络信息检索研究论文的定量分析与研究[J].现代情报,2004(12):66-69.
[3] 常春.网络信息检索存在的问题及发展方向[J].情报杂志,2003(11):93-94.
[4] 韩圣龙.网络信息检索工具评价指标[J].情报学报,2001,20(4):471-477.
[5] 黄如花,张春蕾.网络信息检索的发展趋势[J].图书情报知识,2002(4):49-50.
[6] 毕维峰,刘剑锋.网络环境下数字图书馆信息检索发展趋势[J].现代情报,2007(6):89-90.
[7] 刘宏伟.现代信息检索在网络环境下的发展趋势[J].现代情报,2006(10):67-68.
[8] 叶鹰.信息检索:理论与方法[M].北京:高等教育出版社,2004:378-379.