苏福+柯平
摘要运用Citespace的信息可视化技术,对Web of Science中收录的核心期刊文献进行数据分析,遵循科学计量学中的引文分析法、共现分析法、词频分析法以及LLR算法、PageRank算法等理论,对2014-2015年被Web of Science中的SSCI库收录的27种图书馆学情报学类期刊所载的3287篇文献进行分析,绘制出研究热点、前沿的知识图谱,发现网络计量、信息需求、索引、信息检索、组织工程、名称匹配算法、网络2.0、非源项、技术接受模型、三螺旋理论等主题是近2年国际图书馆学情报学领域持续研究的热点。传统图书馆学情报学领域、管理科学领域、计算机科学领域中的知识管理、网络计量、h指数、核心活动、国际合作、接受和使用技术的统一理论、IT治理等主题将成为今后图书馆学情报学领域的研究趋势和重点。
关键词 图书馆学 情报学 研究热点 信息可视化
1引言
被Web of Science(下文简称“WoS”)中的SSCI数据库收录的图书馆学情报学即INFORMATIONSCIENCE&LIBRARY SCIENCE(下文简称“LIS”)类期刊共计85种(截止2016年4月7日)。刊载在这些期刊上的研究成果,一方面反映了世界主要国家或地区LIS领域研究的热点和前沿,另一方面,也反映了國际上高水平研究者的其他科研信息。以往由于载文量巨大,加之受分析技术工具的限制,研究者多是运用人工逐篇抽样阅读的方法,对国际顶级期刊的部分文献进行研究,带有较强的主观性,无法完整、客观地对某个时间段内的全部文章进行分析。专家的主观分析虽然具有一定的指导意义,但往往缺乏公允性、完整性和客观性。笔者将WoS中的与北京大学图书馆编辑的《国外人文社会科学核心期刊总览》(下文简称《总览》)中重合的27种图书馆学情报学类期刊作为研究对象,并根据2014年影响因子的高低作适当增减,运用Citespace可视化软件,对WoS中2014-2015年刊载的3287篇文献进行科学计量分析。本文要探讨的问题是:近2年国际高水平的LIS期刊发表论文的研究热点及其覆盖的科学领域、科研机构,论文的国家或地区合作情况、核心作者与核心被引作者群、核心被引期刊概况。希望本文具有如下特点:全样本数据的完整性、研究对象的时效性、分析工具的客观性以及知识图谱的直观性等,为我国研究者了解和掌握国际LIS领域的研究热点、前沿、对象、方法、研究者、研究机构、核心期刊等情况提供完整、及时、客观、直观的数据分析,减少研究者获取本领域科研情报的盲目性,提高研究效率。
2研究方法
2.1引文分析法
1955年,加菲尔德(E.Garfield)在《科学》上发文提出了一种科学文献书目系统,可剔除对虚假、过时或完整性较差的数据的任意引用,使学者们可了解到对早期论文存在的批评。引文分析法至此正式产生。引文分析就是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用与被引用现象进行分析,以便揭示其数据特征和内在规律的一种文献计量的分析方法。本文使用引文分析法,主要原因是该方法能回答以下三个问题:第一,某些文献为什么能持续成为研究者关注的核心?第二,这些核心文献中已经出现或即将出现哪些趋势?第三,某领域或学科的文献与其他学科的交叉呈现出何种关系或态势?引文分析有三种基本类型:①对引文数量进行研究,主要用于评价期刊和论文等。②对引文间的网状关系或链状关系进行研究。科学论文间存在着一种引用关系网,如A被B引,B被C引,C又被A引等,研究这种关系主要用于揭示学科的发展与联系,并展望未来前景等。③对引文反映出的主题相关性进行研究,主要用于揭示科学的结构和进行文献检索等。引文分析法的上述三种类型,分别回答和解释了上述三个问题。
2.2词频分析法与共现分析法
本文所指的“词”,即Citespace软件中的“Term”。美国著名情报学专家萨隆(G·Salon)认为,Term表示主题词、名词、标引词、情报项、文献著录项、标引与检索的信息单元等。词频分析是将文献中的多个因子联系起来的引证分析方法,它能科学地评价文献、文献作者的学术水平,揭示学科的热点、前沿以及发展趋势。共现分析法则是将文献中的各种共现信息定量化的分析方法,通过共现分析,可以发现研究对象之间的亲疏关系,挖掘隐含的或潜在的有用知识,并揭示研究对象所代表的学科或主题的结构与变化。在计算机技术的辅助下,共现分析在构建概念空间和实现语义检索、改进知识组织中文本的分类效果、分析文献中的知识内容关联、挖掘知识价值等方面彰显出独特的提炼和概括功能。通过软件进行词频分析与共现分析,能较好地抽取出所分析文献样本的热点、前沿趋势以及科学结构等关键情报。
2.3科学知识图谱与信息可视化方法
科学知识图谱(Mapping Knowledge Domains)是显示科学知识的发展进程与结构关系的一种图形,用可视化技术描述人类随时间拥有的知识及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系。在组织内创造知识共享的环境以促进科学技术研究的合作和深入。
信息可视化涉及计算机生成交互式信息图示的设计、开发和应用。首先要处理抽象的、非空间的数据。把非空间的数据转换成直观的、有意义的图像对该领域极其重要,这个转换的过程是一个创造性的过程,设计者可以赋予图像新的意义。本文运用科学图谱与信息可视化的理论,通过Citespace软件,将需分析的文献进行图像转化和处理,赋予客观、科学的意义。
2.4 LLR算法与PageRank算法
本研究采用LLR算法对聚类进行命名。LLR即对数似然比算法,全称Log-Likelihood Ratio。其基本原理是:假设对于类别Ci,词Wi的频度(oc),集中度(β)和分散度(丫)等指标组成向量Vji,选取聚类命名就是根据Vij来判断Wi是否可以作为类别Ci的特征词。LLR算法如下:
式中,LLR为词Wi对于类别Ci的对数似然比,p(Ci\Vij)和p(Cj\Vij)分别为在类别Cj和Cj中的密度函数。
PageRank网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种根据网页之间相互的超链接计算的技术,作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名的。该算法的发明者对网络超链接结构和文献引文机制的相似性进行了研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank值。文章运用Citespace中的Page-Rank算法,对相关数据结果进行PageRank排名,为数据分析提供另一个维度的视角。
3数据来源及分析工具
3.1数据来源
笔者通过WoS中的期刊引文分析报告(JCR:Journal Citation Reports社会科学版)查询2014年(2015年尚未公布)的"INFORMATION SCIENCE&LIBRARY SCIENCE”类别中被收录的所有期刊,共计85种(详见表1,以影响因子的值作降序排列)。由于这85种期刊并未完全聚焦在图书馆学情报学领域,因此,本研究结合北京大学的《总览》进行聚焦。《总览》的编撰历时2年多,由北京高校图书馆期刊工作研究会成员馆、国家图书馆等相关单位的33位图书馆专业人员参加研究,163位学科专家参加了核心期刊的定性评审,具有较高的指导意义。图书馆学情报学档案学期刊共计61种。经对比,WoS与《总览》重合的图书馆学情报学期刊共计29种,并根据检索结果以及影响因子适当增减。随之,以Web of Science核心数据库为检索库,以“出版物来源一下表27种期刊名称”和“时间跨度一2014年-2015年”,文献类型选择“Article”,语言类型选择“English”,共命中3287条文献记录,通过数据导出和处理,将文献记录以Citespace能识别的WoS输出格式导入Citespace软件中。
3.2分析工具
CiteSpace是一款着眼于分析科学文献中蕴含的潜在知识,并在科学计量学(Scientometric)、数据和信息可视化(Data and Information Visualization)背景下逐渐发展起来的一款引文可视化分析软件。本文使用Citespace 4.0.R4版本,对数据进行处理、分析、制图。此外,使用WoS自带的统计分析功能,结合Citespace的可视化分析功能,交叉配合使用。Citespace软件有多个不同版本,开发者截至笔者投稿之日,仍然在优化该软件,故该软件对某些项目的统计结果可能出现与WoS的统计有微小差异,可视为科学研究中的误差,但不影响主要数据分析。该工具已经不仅仅提供引文空间的挖掘,而且还提供知识单元之间的共现分析功能,如作者、机构、国家/地区的合作等。
4结果分析
4.1研究热点分析
研究热点可看作某研究领域中,研究者共同关注的一个或多个研究主题,笔者认为共词分析可反映目标领域的热点概况。通过Citespace对Term与Node的提取,可对3287篇文献的关键词进行共词(Co-words)聚类挖掘分析,运行结果如图1所示。该图反映了国际LIS领域近两年的热点问题,聚类号表示某词经LLR算法聚类后所在的主题。Mo-durility(M)即网络模块化评价指标,值越大,表示网络得到聚类越好,Q的取值区间为[0,1],当Q>0.3时得到的网络社团结构是显著的。Silhouette(S)是用来衡量网络同质性的指标,当其值>0.5时表示聚类结果是合理的,越接近1,同质性越高。通过LLR算法,M=0.8835,S=0.5014,得出的图谱合理、客观,研究热点聚类名称如图1、表2所示。
图1中黑色字体表示不同文献共同的关键词,“#数字”表示运用LLR算法对共同关键词提取后命名的聚类词,每个色块表示由各类不同的文献组成的具有相近研究主题的聚类。通过对关键词的聚类,得到15个研究主题,聚类间有交叉覆盖的现象,表示这些聚类之间存在研究主题上的交叉,其关系较为紧密,与其他聚类不交叉的色块表示该类主题具备较为独立的研究性质。以“#0,#1……”等形式对聚类进行编号(Cluster ID),聚类号越小,表示该聚类的经典文献数量(Size)越多,Silhouette值表示经典文献之间的紧密程度,Mean(Year)项表示平均年份,可反映聚类中文献的时效性,Top Terms即以LLR算法命名的聚类名称。经过自动聚类并结合图书馆学情报学专业知识,相关度较高的关键词聚类情况见表2。
基于LLR算法的聚类名称,可客观反映2014-2015年国际图书馆学情报学研究领域的热点问题,可将上述聚类归纳为四个方面。
(1)传统LIS领域。
布莱达(Mas-Bleda)等基于欧洲的在线出版物,使用爬虫技术对1525名高被引科学家进行研究,这是第一个对链模式高被引研究者机构网站的研究,用以确定哪些网络资源被科学家们发布。斯图德(Sotudeh)等使用科学计量方法与比较的方法,就女性科学家在科学生产力、影响等方面与男性科学家进行对比研究,发现虽然女性科学家人数较少,但同样有较好的科研成果和影响。拉弗蒂(Raf-ferty)等通过对八位用户的调查访谈,对基于故事图像的索引输入法进行了探讨。戈卢布(Gol-ub)等对将杜威十进制分类法(DDC)作为建立知识组织系统(KOS)增强社会标签,提高主题索引和检索信息效率进行了研究,结果表明受控词汇表索引和检索的重要性是顯而易见的。苛勒(Koler)等以发表在2007年的14个国际期刊中的文献为研究对象,对土木工程领域开放获取文献的被引次数进行研究,结果表明开放不是引用的充分条件,但增加了期刊上发表文章的引用次数。阿尔瓦雷斯(A1-varez)等使用文献计量方法对虹膜识别研究领域进行了全面概述。郭(Kuo)等使用共被引方法模型对核心文献之间的关系进行了研究,实现了运用多元统计技术来构建知识结构的表征。吴(Wu)等通过对台湾大学32名被试者进行调研,研究了研究生如何看待和使用谷歌学术搜索。索步尔(A1-Shboul)等运用角色法、系统设计法等,以约旦王国的一个先进的信息通讯技术环境抽样为例,研究了集成现有的信息需求行为的模型。布龙斯坦(Bronstein)等运用分布式的信息检索自我认知量表(IRSPS)对205名学生进行匿名问卷调查,发现参与者报告了高水平的自我效能感。
(2)医学信息领域。
戈尔泰普(Gultepe)等开发了一个决策支持系统,用于患高乳酸盐血症的高危病人的生命体征的常规测量,支持实验室研究。斯塔尔茨(Stultz)等对剂量警报是否合适进行了评价,将警报与订单分类,比较了儿科医院内定制的和非客户化的恰当的剂量警告范围。贝格海莱(Baghele)等运用文献计量方法对Pubmed数据库中印度牙医的文献的趋势进行了评估,发现从1960年到2012年,每位印度牙医平均贡献了0.53篇文献。
(3)心理学与计算机科学领域。
加维兰(Gavilan)等探讨了移动广告引发的心理意象的作用及其对信任和购买意愿的中介效应。特拉(Tatry)对国与国之间的合作网络映射到可视化的强度关系进行了研究。谢(Xie)探讨了社会媒体在数字图书馆中的应用和识别等相关问题。
(4)管理科学领域。
齐(Chi)等研究了非源代码项目的特点,并在社会科学文献评价中对德国对政治科学出版物进行了研究,结果表明,非源代码项目显著提高了出版物的数量。萧(Hsiao)等运用基于意图的五个理论模型对大学生的行为意图进行调查。克拉托赫维尔(Kratochvil)等对使用在线学习进行信息素养教学进行了研究。雷德斯多夫(Leydesdorff)等测量了三螺旋协同在俄罗斯国家级、省级区域创新系统中的水平。斯瓦尔(Swar)应用社会网络分析技术的混合方法和三重螺旋指标,以网络知识的视角对南亚的信息通信技术基础设施的重要性进行了研究。
从上述领域的研究主题来看,研究热点呈现的特点是集中在传统的LIS领域,研究主题不断深化、扩展,使用的研究方法规范、科学。近2年的国际LIS研究主题中,网络计量、索引、文献计量、信息需求、信息检索是持续的研究热点。
4.2研究前沿分析
笔者认为研究前沿分析主要以共被引(CitedReference)的文献网络关系加以体现。科学计量学的奠基人普赖斯(Price)提出“研究前沿”的概念,即科学引文网络中高被引且时效性强的文献集合。他认为研究前沿能动态地反应某研究领域的本质。加尔菲尔德(Garfield)将研究的前沿定义为一组核心的高被引论文和引用论文,认为研究前沿的名称可以从论文标题中出现频率最高的词或短语中提取。陈超美认为研究前沿是一组及时、动态且有潜在研究价值的问题,研究前沿的知识基础是引证和共引痕迹。本文中,Citespace的具体操作设置是:“Term Source”部分同上文,“Node Type”部分选取“Cited Reference”选项。运行数据后,得到研究前沿聚类图,见图2。
从图2可见,将共被引文献聚类后得到16个研究主题。结合图书馆学情报学专业知识,排除相关度较小的聚类后,以“#0,#1……”等形式对聚类进行编号,聚类号越小,其聚类的文献数量越多。共被引文献的聚类情况如表4所示。
基于LLR算法的聚类名称可客观反映2014-2015年国际图书馆情报学研究领域的前沿问题,将上述聚类归纳为三个方面。
(1)传统LIS领域。
米克斯(Meeks)等对交集电子健康记录(EHR)进行研究,检查以往开发的概念模型的适用性,以实现全面了解其对英国国民健康服务(NHS)的影响。安珂尔(Ancker)等对电子健康记录的影响(EHRs)结果的个体差异性进行了研究。洛伦岑(Lorentzen)等运用网络计量学的方法,探讨了计量学和网络挖掘两个领域潜在的更紧密的联系和合作。韦加(Veiga)等通过对金融分析系统的实证研究,探讨了企业系统(ES)的成功因素。萨沃莱宁(Savolainen)等基于激励因素评价理论,研究了情绪和情感激励在信息检索过程中的五方面的影响。牛(Niu)等基于有效的科学引文角度,用文献计量法分析了科学引文索引扩展数据库中1992—2011年地球科学的相关科研情报。谭(Tan)等对1995年到2010年的科学引文索引扩展中的蛋白质学文献进行了计量分析,评估全球相关科学成果产出,发现研究人员集中在生化研究方法、生物化学和分子生物学。
(2)管理科學领域。
韦加(Veiga)等通过对金融分析系统的实证研究,探讨了企业系统(ES)的成功因素。常(Chang)等使用社会网络分析来确认天文研究机构具有强有力的国际合作关系,研究发现最强的关系体现在相关机构的跨洲科研合作。萧(Hsiao)等运用基于意图的五个理论模型对大学生的行为意图进行调查。
(3)计算机科学领域。
提图埃尔(Turel)等对管理团队提供的集中在信息技术资源的战略管理进行了研究,综合了资源和应急管理信息系统的观点与公司治理理论,检查董事会层面的IT治理的关键前因和后果(ITG)。庞(Pang)等基于资源观,尝试建立一种有效的测量技术,提出一种评估这些资源的协同效应对公司的能力影响的方法,并使用组织理论发现IT驱动的公司的战略角色资源。陈(Chen)等研究了信息技术(IT)的业务价值,该研究通过调查填补了IT的业务价值的中介作用这一空白,研究了该业务流程的灵活性和环境因素的调节作用。该研究的对象属于计算机科学领域,其研究方法则属于管理科学领域。
从上述领域的研究主题来看,研究的前沿呈现的特点是运用传统LIS方法研究跨学科领域的对象(如有机发光二极管、交集电子健康记录、金融等)。LIS在计算机科学、管理科学、医学、生物学实践领域的应用将成为今后LIS领域的研究重点。
4.3科学领域结构
科学领域结构可反应LIS领域所涉及的各个学科之间的合作、交叉关系。可从合作者的聚类、文献的聚类等方面进行探索,但最直观的方式,是直接分析由WoS导出的数据中的分类号(Category),运行结果如图3所示。
由图3和表6可知,从发文量来看(图中年轮的大小表示发文量的多少),LIS领域近两年覆盖的主要科学领域依次为:图书馆学情报学、计算机科学、健康护理科学与服务、医学信息、政府与法律、法律、商业与经济、管理领域。从PageRank维度来看,政府与法律的中性度最高,健康护理科学与服务、商业与经济次之,图书馆学情报学、计算机科学、法律、管理紧随其后。这表明,在图书情报领域的高水平成果中,受网络关注最高的是政府与法律领域。本研究样本文献构成的研究分布网络显示,上述研究领域互相交叉,这表明当前的学科研究趋势正朝着以图书馆学情报学为主,以其他相关领域为辅的多学科交叉研究的方向演化。
5结论
本文依据Citespace的引文分析及可视化功能,在识别和探讨LIS领域的研究热点与前沿动态问题过程中,得出以下结论:
首先,通过对2014-2015年SSCI数据库中27种核心图书馆学情报学期刊刊载的3287篇文献进行研究,通过关键词与主题的LLR聚类分析,发现传统图书馆学情报学、管理科学、计算机科学以及医疗信息等领域的图书馆传统服务和计量、信息需求与检索、索引、信息检索、组织工程、名称匹配算法、网络2.0、非源项、技术接受模型、三螺旋理论等主题是近两年国际LIS领域的持续研究热点。
其次,近两年图书馆学情报学的研究主题不断深化与扩展,当前的学科研究趋势正朝着以图书馆学情报学为主,以其他相关领域为辅的多学科交叉研究的方向演化,同时,注重诸如计算机科学、健康护理科学与服务、医学信息、政府与法律、法律、商业与经济、管理等相关学科的先进理论、方法和技术的借鉴与应用,网络关注度由高到低的领域为政府与法律、健康护理科学与服务、商业与经济、图书情报学、计算机科学、法律、管理。传统LIS领域、管理科学领域、计算机科学领域以及医疗信息领域的知识管理、计量、h指数、高校图书馆、核心活动、国际合作、接受和使用技术的统一理论、IT治理等研究领域的相关主题将成为今后LIS领域的趋势和重点。
最后,由于LIS是一个跨学科、可从多个角度的进行研究的领域,本研究不免存在局限性,但不失为一种有效地从限定时间段内的全样本、公允性较高的数据中,探索数据之间的规律,从而为本领域的研究者提供客观、实时、完整、有效的分析结果的方法。