●温芳芳(山西大学经济与管理学院,太原 030006)
2008-2013国外信息检索研究知识图谱分析
●温芳芳(山西大学经济与管理学院,太原030006)
[关键词]信息检索;知识图谱;研究热点;CiteSpaceII 2.5高频及 是主题论文核心内容的凝练与浓缩,对某研究领域高频 利用CiteSpaceII构建知识图谱(图略), 表42008~2013年信息检索领域高频序号 通过高频和 知识图谱分析 的揭示能挖掘主题的研究热点。通过作者之间构建的 节点越大其被使用的频次越高。通过中心性分析发现,中心度较高的 频次序号 知识图谱分析,结合信息检索相关理论,可以判断2008~2013年国外信息检索研究主要有六大热点或前沿性主题。 网络可以发现文章之间的内部联系和主题研究的前沿。表4是2008~2013年信息检索领域研究论文频次不小于23的关键词,从中可以看出主题领域研究集中在网络信息检索、用户检索需求与行为、检索模型、信息检索系统、信息检索技术、信息检索决策、信息检索分类、信息检索相关性研究、医疗健康信息检索等方面。 有需求(needs)、参与(participation)、设计(design)、癌症病人(cancer-patients)、科学家(scientists)、模型(patterns)、视角(perspective)、查找(seeking)、偏好(preferences)、系统(systems)、决策(decision-making)、癌症(cancer)、焦点小组(focus groups),它们的中心度在0.59以上,节点“focus groups”与下一个节点的中心度之差达0.22。通过图的中心势概念,利用各点中心度差异便于发现图的核心点。这样可以判断这部分节点的关键词是信息检索研究人员关注的焦点,即用户检索行为、信息检索模型、信息检索系统、健康信息检索及信息检索决策研究等是近年来该领域科研人员研究的热点。从参与者、科学家、焦点小组这些关键词得知该研究领域使用较多的是观察、实验等实证性的研究方法。处于较边缘的词虽然不是大多信息检索科研工作者关注的热点,但反映了新兴领域和前沿性问题,如本体(ontology)、数据融合(data fusion)、社交媒体(social media)、算法(algorithm)、网络使用(internet use)、策略(strategies)、焦虑症(anxiety)、消费者(consumer)、经验(experience)、生命(life)等。 频次1 Information retrieval173 17 Decision-making35 2 Internet126 18 System32 3 Behavior92 19 Science32 4 Model90 20 Quality31 5 Knowledge76 21 Relevance30 6 Needs66 22 Cancer27 7 Communication65 23 Models26 8 Information seeking64 24 Breast-cancer25 9 Care55 25 Health24 10 Search54 26 Classification24 11 Systems51 27 Online24 12 Impact47 28 National trends survey 24 13 Retrieval42 29 Technology23 14 Health information39 30 Perspective23 15 Performance35 31 Algorithms23 16 Design32 32 Management23
[摘要]以SCI、SSCI收录的文献题录为数据样本,借助可视化工具CiteSpaceII辨识2008~2013年信息检索研究文献在年代、国家/地区、机构、作者方面的特征分布,通过对高频关键词及其中心性分析,探析国外信息检索研究的热点与前沿。
本文数据来源于美国科学情报研究所(Institute for Scientific Information,ISI)出版的Web of Science数据库。检索策略:主题=“information retrieval”or “information seeking”or“information search”;数据库= (SCI-EXPANDED,SSCI);入库时间=2008-2013(检索日期2014年2月22日)。检索结果:获得文献1306篇。鉴于研究主题关注国外信息检索研究进展与趋势,因而只选择文献类型为Article、Review、Proceeding Paper的1086篇论文。
本研究采用文献计量方法,使用美国Drexel大学陈超美博士团队开发的可视化分析工具CiteSpaceII绘制知识图谱。将2008~2013年间1086篇文献的题录信息包括题目、作者、关键词、摘要、参考文献、引用频次等保存为纯文本文件,通过导入CiteSpaceII,将时区分割(Time Slicing)设置为2008~2013,单个时间分区的长度(#Years Per Slice)设置为1年;主题词来源选择为标题、摘要和关键词;阈值为前50个高频或高被引节点;节点类型选择为作者、机构、国家、被引参考文献、被引作者和被引期刊。对文献的年代、国家/地区、机构、作者方面的特征进行分析,并通过关键词分析探析信息检索研究的热点和前沿。
2.1年代分布
根据文献的逻辑增长规律,某领域科学文献的增长在学科发展初期近似指数增长曲线,增长到一定时期会渐趋平稳并缓慢发展。对国外信息检索领域科学文献年代分布的研究有利于把握其研究进程,预测未来研究趋势。从图可以看出国外2008~2013年间信息检索学术性文献从2008年176篇到2013年196篇(增长率为10%)的增长趋势,除2011年小幅下降(发文量为161篇)外,总体上保持较平稳的增长趋势。这说明该领域的研究基本成熟,可以估计未来一段时期内信息检索科研文献仍将继续保持平衡增长的趋势。
图 2008~2013年国外信息检索研究文献年代分布
2.2国家/地区分析
对科学文献进行国家和地区分析可以反映某科研领域具有领导力的国家和地区,便于研究揭示学术前沿,为研究参考提供捷径。表1反映了高被引国家TOP10。从被引频次的排序来看,就国家而言,美国占据绝对优势,因此,在知识图谱中的结点也明显大于其他国家,中国大陆虽居第二,但仍不及美国的1/4。就区域来说,北美地区信息检索具有极大的学术影响力,被引频次总量达432;其次是欧洲,被引频次为241;亚洲(包括中国大陆和台湾)排第三,被引频次为128,约占欧洲的54%,不及美洲的30%,与欧美相差甚远。从结点中心性来看,整个知识图谱
中澳大利亚、德国的中心性较大,其次是中国。澳大利亚、德国在信息检索领域的研究也是不容忽视的有生力量。
表1 高被引国家TOP10
2.3机构分析
通过机构分析可以发现科研团队、机构的学术影响力,增强科研合作交流的契合性,为机构科研评价提供科学依据。表2反映了机构发文量TOP10,它们代表国外信息检索研究的先进水平。这些科研机构中美国占75.6%,发文最多的是美国威斯康辛大学,其次为北卡罗来纳大学和罗格斯州立大学,它们的发文量分别占前10所机构发文量的15.5%、13%和10.6%,有明显数量优势。除美国高校外,英国伦敦大学、芬兰坦佩雷大学、加拿大麦克吉尔大学在信息检索领域的研究也较活跃。
表2 机构发文量TOP10
2.4作者分析
有学术影响力的作者群体的状况集中体现了学科科研实践的趋向,是某一学科领域科研活动的缩影之一。通过对作者群体进行研究,可以把握学科科研活动的深度和广度。[1]作者学术影响力可以通过科研文献的数量和质量两个指标衡量:洛特卡通过揭示科学家数量与发文数量之间的关系反映科学家的“科学生产率”;[2]作者被引频次在一定程度上体现了科学家在某学科的建树和贡献及该研究领域对其科研成果的认可程度。笔者将作者发文量与被引频次结合得出他们的平均被引频次,综合评价高产作者的贡献度。表3反映了发文量TOP12的高产作者,可以看出发文量较多的12名作者中86.6%的高产作者来自英美国家,其中73.3%来自美国,13.3%来自英国。Jimmy Huang是纽约大学信息技术学院教授,关注信息检索及其在网络和医疗领域的应用,5年间在国际高影响力的期刊发表10篇论文,成为最高产作者;Hamid R.Jamali是伊朗卡里斯米大学图书情报学系副教授,从事信息计量、信息检索行为的研究,作者被引频次最高;由英国联合信息系统委员会(JointInformationSystemsCommittee,JISC)馆藏基金提供支持,Hamid R. Jamali与英国伦敦大学信息行为与评估研究中心的Ian Rowlands、David Nicholas合作发表5篇论文,对英国科研人员和学生的信息检索行为进行系列研究以评估英国电子期刊的利用及其效果。该研究关注学生实际的而非感知的信息检索行为,并从科研机构和科研主题差异调查分析科研人员的信息检索行为的异同,填补了信息检索行为研究在这两个领域的空白,具有较高的研究意义和价值。这三位作者的总被引频次和平均被引频次都得以印证。高产作者的研究领域及被引情况可从侧面反映5年间该领域的研究热点。除以上讨论的信息检索行为研究外,经笔者深入挖掘,表3中90%的美国科研人员(如Jimmy Xiangji Huang,Katrina Armstrong,J.Sanford Schwartz,Lila J.Finney Rutten,Jeff Niederdeppe)均涉足医疗信息与健康信息检索的研究,说明美国信息检索研究更坚持其传统的实用主义价值理念,与社会应用需求紧密呼应。
表3 高产作者TOP12
(1)网络信息检索。Miranda, H.等[3]提出无线自组织网络信息传播和检索的算法,它的实现方式:保持数据足够远的距离防止过度的冗余,但同时仍足够接近每个参与者。Chan, C. C. H.[4]提出“信息检索智能蜘蛛”,运用数据挖掘技术区分不同的客户;通过开发URL搜索代理软件和拍卖数据代理软件随时自动收集相关信息,信息收集存储到数据库后利用神经网络进行数据聚类和价格预测。
(2)用户信息检索行为研究。该主题的研究集中在:信息检索行为理论研究、特殊群体信息检索行为、信息检索行为的影响因素研究等方面。Al-Maskari, A. 和Sanderson, M.调查发现,有信息检索经验和高认知技能的参与者在信息检索时比经验较少并具有较低认知能力的人效率更高;[5]用户信息检索的满意度受信息系统的效率、用户查询效率、用户努力、用户性格和期望的影响。[6]Andualem, M.等[7]认为年龄、性别、收入、计算机素养、病人状况、工作经验和工作地点与健康专家的信息需求和检索行为有重要关系。
(3)信息检索模型研究。该主题的研究集中在:信息检索建模、传统模型的改进、语义检索模型(如基于本体的检索模型)、模型的评估与应用等。Ajayi, A. O.等[8]提出改进的基于逻辑的模糊信息检索模型,该模型将会话发起协议与用户间有限的带宽及用户的电脑配置考虑在内,利用统一建模语言和Borland JBuilder执行。Fernandez, M.等[9]探索了基于本体的信息检索模型定义,以领域知识库为导向研究在大型的文件存储机构中的语义检索,一方面强调语义视角下完全成熟本体(fully fledged ontologies)的使用,另一方面强调将非结构化内容考虑在检索空间范围。
(4)信息检索系统研究。该主题的研究集中在:信息检索系统的开发方法、发展改进、评估、系统与用户的关系及系统应用实例研究等方面,涉及最典型的系统类型就是语义检索系统,诸如基于本体的检索系统、多词标注的云信息检索系统等。Torres-Parejo, U.等[10]提出多词标注的云信息检索系统,该系统概括数据库的内容并向用户提供简单易懂的界面帮助他们获取信息,它采用基于多词标注云的可视化界面展示数据库的内容来帮助用户查询。
(5)信息检索相关性与分类研究。信息检索相关性研究有系统相关性和用户相关性两个派别。He, D. Q.等[11]使用伪相关反馈和交互式相关反馈研究了翻译增强(Translation Enhancement,TE)的相关反馈方法。Ghorab, M. R.[12]开展了用户相关性的信息检索分类研究,洞察个性化信息检索系统从建立到评估的不同阶段,即信息收集、信息表示、个性化实施及系统评估,并将系统分为三种类型,个体化的信息系统、基于团体的信息系统和整合层面的信息系统。
(6)信息检索技术研究。该主题的研究集中在:
语义技术、基于内容的信息检索技术、多智能体技术、自然语言技术、基于网络的技术、问答技术、结构化文档检索(Structured Document Retrieval,SDR)技术、移动代理技术(mobileagenttechnology)、跨语言检索技术、数据融合(Data Fusion)、模糊信息检索技术等方面。Dogan,E.等[13]展现了一个具有扩展性的基于内容的混合型音频信息分类检索系统,为了节省检索时间采用了基于散列(hash-based)的索引技术。
文章以SCI、SSCI收录的文献题录为数据样本,借助CiteSpaceII揭示2008~2013年信息检索领域的研究文献在年代、国家/地区、机构、作者方面的特征分布。研究发现:信息检索研究文献呈平稳增长趋势;北美特别是美国代表国外信息检索研究的前沿,澳大利亚、德国也是信息检索不可忽视的有生力量;75.6%的科研团队来自美国;在TOP12位的高产作者中86.6%来自英美国家,并且90%的美国信息检索研究人员涉足医疗健康信息检索。通过对关键词进行中心性分析,发现网络信息检索、用户检索行为研究、检索模型研究、信息检索系统研究、信息检索相关性与分类研究、信息检索技术、医疗健康信息检索等是近几年来该领域研究的热点,信息检索决策、基于本体的信息检索、信息检索算法、社交媒体、数据融合等是信息检索研究前沿。通过笔者对文献的内容分析,发现:(1)国外对信息检索的研究已渗透到社会各个领域并与社会信息需求紧密交互;(2)善于运用观察、实验等实证方法,关注和解决不同环境不同群体中信息检索的实际问题;(3)科研文献的新颖性、创新性尤其突出,不乏可供国内借鉴的新理念、新方法和新技术。这些理念、方法和技术若能践行于我国的信息检索研究,无论对信息检索科学研究还是对整个社会的应用实践都具有非同寻常的价值和意义。
[参考文献]
[1]邱均平,马瑞敏.基于CSSCI的图书馆、情报与档案管理一级学科文献计量评价研究[J].中国图书馆学报,2006(1):24-29.
[2]LotkaAJ.The frequencydistributionofscientificproductivity[J].Journal of the Washington Academy of Science,1926,16(12):317-323.
[3]Miranda H,etal.Analgorithmfordisseminationandretrieval of information in wireless ad hoc networks[J]. Concurrency and Computation: Practice and Experience, 2009,21(7):889-904.
[4]Chan,H.Intelligent spider for information retrieval to supportmining-basedprice predictionfor onlineauctioning [J].Expert Systems with Applications,2008,34 (1):347-356.
[5]Al-Maskari A,Sanderson M.The effect of user characteristics on search effectiveness in information retrieval [J].Information Processing & Management,2011,47 (5):719-729.
[6]Al-Maskari A,Sanderson M.A review of factors influencinguer satisfactionininformation retrieval[J].Journal of the American Society for Information Science and Technology,2010,51(5):859-868.
[7]Andualem M,et al.Information needs and seeking behaviour among health professionals working at public hospital and health centres in Bahir Dar,Ethiopia[J]. BmcHealthServicesResearch,2013,13(534):9.
[8]Ajayi A O,et al.An adaptive fuzzy information retrieval model to improve response time perceived by e-commerce clients[J].Expert Systems with Applications,2010,37(1):82-91.
[9]Fernandez,et al.Semantically enhanced Information Retrieval:Anontology-basedapproach[J].Journalof Web Semantics,2011,9(4):434-452.
[10]Torres-Parejo U,et al.MTCIR:A multi-term tag cloud information retrieval system[J].Expert Systems with Applications,2013,40(14):5448-5455.
[11]He D,Wu D.Enhancing query translation with relevance feedback in translingual information retrieval [J].Information Processing & Management,2011, 47 (1):1-17.
[12]Ghorab M R,et al.Personalised information retrieval: survey and classification[J].User Modeling and User-Adapted Interaction,2013,23(4):381-443.
[13]Doǒgan E,et al.A flexible andscalable audio informationretrievalsystemformixedtypeaudiosignals[J].International Journal of Intelligent Systems,2011,26 (10):952-970.
[收稿日期]2014-03-18 [责任编辑]王钧梅
[作者简介]温芳芳(1985-),女,山西大学经济与管理学院硕士生,助理馆员,研究方向:信息组织。
[文章编号]1005-8214(2015)01-0055-04
[文献标志码]A
[中图分类号]G252.8;G252.7