朱光 董尹 张华坤
〔摘 要〕借用文献计量学的方法首先对ISI Web of Knowledge数据库中收录的以mashup为主题的文献的研究力量分布进行分析,然后利用信息可视化软件Cite Space 绘制出mashup研究的关键期刊、文献的知识图谱,对其进行详细的阐述,并通过分析文献关键词分布和检测词频变动趋势确定出mashup的研究热点。
〔关键词〕mashup;可视化分析;研究热点;知识图谱
DOI:10.3969/j.issn.1008-0821.2012.02.038
〔中图分类号〕G250 〔文献标识码〕A 〔文章编号〕1008-0821(2012)02-0151-05
Visualized Analysis of Mashup Research Based on Knowledge MapZhu Guang1 Dong Yin1 Zhang Huakun2
(1.School of Information Management,Nanjing University,Nanjing 210093,China;
2.The school of Instrument Science and Opt-electronic Engineering,Hefei University of Technology,
Hefei 230009,China)
〔Abstract〕The research power for the published papers regarding to mashup was analyzed by making use of the newly developed information visualization methods-Cite Space,and the co-citation data records retrieved from ISI Web of Knowledge,then drew the knowledge map of key journals,key references on mashup,and confirmed the research fronts of mashup research by analyzing the keywords distribution and detecting the keywords frequency fluctuation.
〔Key words〕mashup;visualization analysis;research fronts;knowledge map
現代信息技术的飞速发展促使信息资源成爆炸式增长,如何对这些分布式、异构型的信息资源进行整合,提高用户的信息资源检索和利用效率成为研究的热门问题。随着新媒体和宽带信息网技术的进展,传统的信息资源整合方法难以满足用户个性化、多样化的信息需求。在此背景下,mashup技术的提出有助于解决这一问题并推动信息资源及服务整合的发展。
mashup,国内学者一般将其译为“融汇”或“混搭”,其概念起源于流行音乐,指将两首不同的歌曲进行混搭并附上乐器的音轨而构成的一首新歌[1]。维基百科关于mashup的定义为:mashup是指整合网络上多个资源或功能,以创造新的网络应用服务程式[2]。目前mashup发展迅速,主要应用在地图导航、电子商务、生物医学、图书馆、网络教育等领域。本文利用科学知识图谱的分析技术对mashup领域的研究机构、代表期刊、关键文献和研究热点进行定量考查和可视化分析,使广大学者能够更加直观地了解mashup研究的力量分布、研究现状及热点。
1 数据来源与研究方法
本文分析使用的数据来自于Web of Knowledge数据库中以“mashup*”为主题词进行检索得到的文献,经过严格筛选,最终获得455篇文献(数据下载日期为2011年12月1日)。可视化分析工具选择美国德雷塞尔大学陈超美博士利用Java语言开发的可视化文献计量软件Cite Space[3],其绘制的知识图谱能够显示一个学科或研究领域在一段时间发展的趋势与动向,形成若干研究前沿领域的演进历程。本文利用Cite Space软件对mashup研究的力量分布、期刊分布、关键文献及研究热点前沿进行了定量分析。
2 数据分析及结果
2.1 Mashup的研究力量分布
在Cite Space软件界面中,选择国家(Country)与机构(Institute)作为网络节点,确定文献标题(Title)、摘要(Abstract)、关键词(Descirptors)和标识符(identifers)为主题词来源,选择路径搜索算法,数据抽取对象为top 30,并设置Time Scaling的值为1。运行Cite Space,得到有关mashup的研究力量图谱,如图1所示。
图1 mashup的国家机构分布图谱
从地域分布来看,mashup的相关研究力量来自多个国家。从发文频次来看,美国的发文量最多,为82篇,远高于其他国家和地区。中国、英国、意大利、西班牙和澳大利亚分列其后,发文篇数为34、29、26、22和21。从中心度来看,美国发文中心度为0.86,依然远超于其他国家,澳大利亚和加拿大紧随其后,中心度分别为0.33、0.27。值得一提的是,IBM公司虽然发文频次只有6篇,但中心度为0.19,仅此于上述3个国家,可见IBM公司对mashup研究的发展起着重要的作用。具体国家地区分布如表1所示。表1 mashup研究文献的国家或地区分布
频次中心度国家或地区年份820.86USA2007340.16CHINA2007290.16ENGLAND2007260.19ITALY2008220.12SPAIN2007210.33AUSTIALIA2008210.27CANADA2008190.12JAPAN2008
从图1可以看出,除IBM公司外,各个国家的研究机构主要分布在大学里,美国的Mashup研究机构包括耶鲁大学(Univ Yale)、佐治亚大学(UNIV GEORGIA)、宾州州立大学(Penn State Univ)等,中国有浙江大学(Zhejiang Univ)、北京大学(Peking Univ)、北京邮电大学(Beijing Univ Posts & Telecommun)等,加拿大包括多伦多大学(Univ Toronto)、卡尔顿大学(Univ Carleton)等。从上述机构分布可以看出,mashup的研究力量主要分布在欧美国家,其他地区的研究力量主要集中在中国和日本。
2012年2月第32卷第2期基于知识图谱的mashup研究可视化分析Feb.,2012Vol.32 No.22.2 Mashup研究的期刊共被引分析
确定一个研究领域的核心期刊分布需对该领域进行期刊分析,同时对核心期刊文献被引频次的分析可以反映出该期刊所刊登文献的利用率及其含金量[4]。利用Cite Space绘制mashup研究的期刊共被引分析图谱,如图2所示。图2 Mashup研究文献的期刊分布图谱
从图2中能够清晰的看出,目前在国际上mashup研究的相关文献主要发表在以下几个刊物中:《计算机科学讲义》(LECT NOTES COMPUT SC)、《IEEE-互联网计算》(IEEE INTERNET COMPUT)、《ACM通信》(COMMUN ACM)、《计算机》(COMPUTER)、《加州大学学报》(THESIS U CALIFORNIA)、《语义网杂志》(J WEB SEMANT)、《个人与普适计算》(PERS UBIQUIT COMPUT)、《麻省理工-斯隆管理评论》(MIT SLOAN MANAGE REV)等。其中,《计算机科学讲义》是图谱中最大的一个节点,由德国的斯普林格公司出版(SPRINGER)出版,其ISSN号为0302-9743,文种为英文,被引频次达97次,中心度为1.5,两项指标均列首位,可见其在Mashup研究期刊中的核心地位。列第2位的是《IEEE-互联网计算》,中心度和被引频次分别为0.75和68。《IEEE-互联网计算》由IEEE(美国电子电气工程师学会)出版,其ISSN号为1089-7801,文种为英文,每年出版6期,2010年SCI影响因子为2.514。同样是IEEE出版的《计算机》列第三位,ISSN号为0018-9162,其中心度和被引频次分别为0.68和29。
在由Cite Space生成的网络图谱中,定义中心度大于或等于0.1的节点被定义为关键节点[5]。表2所列期刊中心度均大于0.1,可见这几份期刊在Mashup研究领域的重要地位。
2.3 Mashup研究的文献共被引分析
在知识图谱中,不同文献的聚类之间通过关键节点文献相连,通常这些文献都具有较高的中心度,在聚类之间起到连接和过渡的桥梁作用。从知识认知的角度来看,关键节点文献一般是提出重要的新理论或具有重大理论创新的经典文献,也是最有可能形成科学研究前沿热点的文献[6]。因此,本文利用Cite Space绘制mashup研究的关键文献图谱,以便广大学者更加直观、深入地了解mashup的研究现状。表2 组织复杂性研究文献的主要代表期刊
频次中心度期刊名年份971.5计算机科学讲义2002680.75IEEE-互联网计算2007290.68计算机2007240.57加州大学学报2000390.55ACM通信2006230.53语义网杂志200640.19个人与普适计算200560.15麻省理工-斯隆管理评论2006图3 Mashup研究的文献共被引网络图谱
按照节点在图谱中中心度的大小,排在首位的是FIELDING RT发表的论文“Principled Design of the Modern Web Architecture”,中心度为1.1,被引频次22次,在2009年达到共被引高峰(11次)。该文于2000年在国际软件工程会议上发表,同年被加州大学学报收录。FIELDING RT[7]在文中认为互联网的成功很大程度上归功于其软件架构的设计满足了分布式系统的需求,当前网络架构强调组件的独立性、通用性和扩展性,以减少交互延迟并增强系统的安全性。该文最大的贡献是首次提出了REST(Representational State Transfer)协议这一重要概念,REST协议是一种使用HTTP和XML进行基于Web通信的技术,直接工作在HTTP协议之上。文中指出REST协议接口简单,且具有可扩展、安全性高等优点,可有效解决当前网络通信协议与应用服务程序不兼容的问题。
中心度位居第2的是Yu J于2008年在IEEE INTERNET COMPUT上发表的文章“Understanding mashup development”,该文中心度为0.57,在2010年达到了被引高峰(10次)。Yu J[8]在文中对mashup作了如下定义:mashup是新一代网络资源和服务的应用开发程序。该文认为尽管过去两年,mashup技术取得了飞速的发展,但仍然缺乏全面的应用框架和开发工具,一个新的应用程序往往意味着繁琐、复杂的再次编程开发。作者对当前Mashup应用框架和开发工具的优缺点进行了总结和阐述,旨在推动mashup技术与应用的发展。
2007年,Daniel F在IEEE NTERNET COMPUT上发表的论文“Understanding UI integration—A survey of problems,technologies,and opportunities”的中心度为0.56,位居第3,2009年达到被引高峰(9次)。Daniel F[9]在文中认为在软件工程和数据管理领域通过松散耦合组件的重复利用来创建复合应用程序是一种十分重要的技术,尽管在数据和应用程序层面已做了大量相关研究,但对客户端界面展示层面的研究还略显不足。该文对现今用于客户端界面程序和服务展示的整合框架和组件技术进行了总结,阐述了它们的优点和不足,为未来的研究和工作指明了方向。
图谱中另一个较大的节点为Wong J于2007年在SIGCHI conference上发表的论文“Making mashups with marmite: towards end-user programming for the web”。该节点中心度为0.31,在2010年达到被引高峰(5次)。Wong J[10]在文中认为随着网络资源的急剧增长,用户被淹没在信息海洋中。如何针对用户的信息需求和目的,提供个性化、交互性的服务,成为亟需解决的问题。作者设计开发一个用于整合和混搭现今网站内容和服务的开发工具——Marmite,并在文中就Marmite的设计、使用和评价作了详细的阐述。Marmite的使用并不需要专业的编程知识,可以广泛地应用在各个领域。
2007年,MURUGESAN S在IT PROFESSIONAL上发表的论文“Understanding Web 2.0”在图谱中的中心度为0.16,在2009年达到被引高峰(4次)。该文对Web 2.0的概念、应用及发展机遇作了详细的阐述,认为Web 2.0是网络技术发展的第二阶段,是以用户为中心,鼓励用户参与的网络形式。Web 2.0强调同龄人的网络交往和集体智慧,以便更有效地利用网络资源和服务用户。作者同时就Web 2.0的成功应用,如MySpace、Flickr、YouTube等社交网站作了介绍[11]。
图谱中其他几篇代表文献包括:(1)CHEUNG KH于2005年发表的论文“YeastHub:a semantic web use case for integrating data in the life sciences domain”;(2)Rosenberg F于2008年发表的论文“Composing RESTful services and collaborative workflows-A lightweight approach”;(3)OREILLY T于2005年撰写的著作“WHAT IS WEB 2.0 DESIGN”。文献具体被引频次和中心度如表3所示。
表3 组织复杂性研究的关键节点文献
频次中心性作者年份题名221.1FIELDING RT2000Principled Design of the Modern Web Architecture200.57Yu J2008Understanding mashup development140.56Daniel F2007Understanding UI integration-A survey of problems,technologies,and opportunities100.31WONG J2007Making mashups with marmite:towards end-user programming for the web120.16MURUGESAN S2007Understanding Web 2.040.15CHEUNG KH2005YeastHub:a semantic web use case for integrating data in the life sciences domain70.12Rosenberg F2008Composing RESTful services and collaborative workflows-A lightweight approach120.11OREILLY T2005WHAT IS WEB 2.0 DESIGN
2.4 Mashup研究热点分析
关键词是一篇文章主題的核心凝练和高度概括,借助Cite Space对Mashup研究文献中的关键词进行分析,通过显示高频关键词来揭示Mashup的热点研究领域[12]。设置合适的阈值,运行Cite Space软件,生成的关键词知识图谱如图4所示。图4 Mashup研究热点知识图谱
如表4所示,频次排在首位的关键词是“mashup”,不同研究学者关于mashup定义也有所不同,综合来看,本文认为mashup是新一代交互式的Web服务应用模式,涉及了Web Service、SaaS、SOA等多种技术框架的融合应用,通过不同渠道获取网络数据源,提供统一、全新的服务。
关键词“Web 2.0”出现频次为46次,排在第2位。Web2.0是相对Web 1.0的新的一类互联网应用的统称,更加注重用户交互,用户由被动地接收互联网信息向主动创造互联网信息发展。Web 2.0模式下的互联网应用具有用户分享、信息聚合、开发的平台等显著特点。常见的Web 2.0应用包括:blog、RSS、Wiki、SNS等。
频次排在第3位的关键词为“semantic web”,即语义网。语义网是对未来网络的一个设想,目标是开发一系列计算机可理解和处理的表达语义信息的语言和技术,以支持网络环境下广泛有效的自动推理。将用户从搜索相关网络信息资源的繁琐活动中解放出来,为用户提供个性化、交互式的信息服务。
通过词频分析法确定Mashup研究领域中热点关键词还包括:“Web Service”(网络服务)、“ontology”(本体)、“rest”(Representational State Transfer网络协议)、“integration”(整合)、“services”(服务)等。表4 Mashup研究的热点关键词分布
年份频次关键词200780mashup200746Web 2.0200826semantic web200620web service200814ontology200812rest200911services20089integration3 结 论
本文对Web of Knowledge数据库中以“mashup*”为主题词检索得到的455篇文献进行分析,得到以下结论:
(1)mashup研究力量主要集中在欧美地区和亚洲的中国、日本,并且研究机构主要分布在大学及高科技企业中(如IBM)。由此可见,mashup的研究主要集中科学技术先进、经济基础较好的发达国家,mashup的研究人员主要是高学历的学者和软件开发工程师。
(2)从文献分布来看,文献涵盖了mashup关键技术、网络服务整合程序开发、web 2.0、互联网通信协议等内容。文献形式除研究论文外还包括书籍、评论、应用指南、实验结果等多种类型。从期刊分布来看,核心期刊大都由欧美国家主办,英文为主要语种,影响因子较高。
(3)通过CiteSpace探测出的高频关键词,挖掘出mashup研究呈现以下发展趋势:①mashup的产生背景决定了其注重应用研究的特点,随着应用领域越来越广泛,如何对基础理论与mashup技术进行整合成为mashup的研究热点之一;②针对目前mashup应用存在的数据质量、协议安全性等问题,mashup系统架构与设计的改进也是现阶段研究的热点;③mashup的最终目标是使用户同时作为开发者和使用者,如何在真正在语义层面实现数据与服务的互操作和集成是未来mashup的研究重点。
参考文献
[1]DuaneMerril.Mashups:Web应用程序新成员[EB/OL].http:∥www.ibm.com/developerworks/cn/xml/x-mashups.htm?lSzTACT=105AGX52 & SzCMP=tec-csdn,2011-11-24.
[2]Wikipedia.Mashup(Web application hybrid)[EB/OL].http:∥en.wikipedia.org/wiki/Mashupz(webzapplication),2011-11-24.
[3]Chao mei Chen餾 Homepage[EB/OL].http:∥cluster.cis.drexel.edu/~cchen/citespace/,2011-11-29.
[4]赵蓉英,王菊.国际信息检索模型研究的可视化分析[J].图书情报工作,2010,54(18):61-66.
[5]刘泽渊,陈悦,侯海燕.科学知识图谱方法与应用[M].北京:人民出版社,2008.
[6]陈超美.Cite Space Ⅱ:科学文献中新趋势与新动态的识别与可视化[J].陈悦,侯剑华,梁永霞,等译.情报学报,2009,(3):401-402.
[7]Fielding R T,Taylor R N.Principled Design of the Modern Web Architecture.In Proceedings of the 2000 International Conference on Software Engineering(ICSE 2000),Limerick,Ireland,June 2000:407-416.
[8]Yu J,Benatallah B,Casati,F,et al.Understanding mashup development[J].IEEE INTERNET COMPUTING,2008,12(5):44-52.
[9]Daniel F,Matera M,Yu J,et al.Understanding UI integration-A survey of problems,technologies,and opportunities[J].IEEE INTERNET COMPUTING,2007,11(3):59-66.
[10]Wong J,Hong J I.Making mashups with marmite:towards end-user programming for the web[C].Proceedings of the SIGCHI conference on Human factors in computing systems.New York,USA,2007.
[11]MURUGESAN S.Understanding Web 2.0[J].IT Professional,2007,9(4):34-41.
[12]赵蓉英,王静.社会网络分析(SNA)研究热点与前沿的可视化分析[J].图书情报知识,2011,(1):88-94.