国内关联数据研究现状及趋势的可视化分析*

2016-05-18 02:12
图书情报研究 2016年2期
关键词:数据网络生命周期关联

刘 竟 孙 薇 袁 润

(江苏大学科技信息研究所镇江212013)

国内关联数据研究现状及趋势的可视化分析*

刘 竟 孙 薇 袁 润

(江苏大学科技信息研究所镇江212013)

选取CNKI数据库收录的关联数据相关研究文献,利用社会网络分析法、文献计量法对关联数据领域作者共现和高频关键词共现进行可视化,在此基础上对高频作者的合著网络、中介中心性进行分析,对高频关键词词频及图谱、高频关键词共词矩阵、高频关键词聚类情况进行分析,呈现国内关联数据的研究现状及热点,并基于技术生命周期理论,尝试利用Loglet Lab软件估算国内关联数据各生命周期阶段的时间点,对该领域的发展趋势进行预测。

关联数据社会网络分析技术生命周期可视化

1 引言

从图书馆自动化发展史看,几乎每一项新信息技术的出现,都能引起图书馆界的极大关注并推动图书馆的管理与服务升级。2006年,互联网之父Berners-Lee在分析Web发展与演化的基础上提出了发展数据网络的思想,指出数据网络的核心和关键是关联数据[1]。自主、异类、异构和分布的海量数据间的语义关联一直是知识组织和知识发现的核心问题,关联数据的出现为此提供一种轻型、渐增化、可伸缩和可扩展的动态机制,成为推动语义网发展的重要力量之一[2]。2008年12月刘炜在上海召开的“数字环境下图书馆前沿问题研讨班”上对关联数据的概念、内涵、技术实现做了引进介绍[3],引起了国内研究者对关联数据的重视和兴趣。从已发表文献角度看,国内已有一些对关联数据相关文献的定量分析,研究内容主要集中在对年载文量、文献来源、研究机构及被引频次的统计,而对作者间合著关系及发展趋势的定量研究相对较少。

本文主要利用社会网络分析软件Ucinet和社会科学统计软件SPSS绘制知识图谱和聚类树状图,揭示国内关联数据领域作者合著关系及研究热点。同时,以Logistic模型为基础,构建技术生命周期S曲线,尝试对国内关联数据未来的发展进行定量预测,以期为本领域后续研究提供参考。

图1 高频作者合著网络图谱

2 数据来源与研究方法

2.1 数据来源

本文的数据来源于中国知网文献数据库(简称CNKI,包括期刊论文、学位论文及会议论文),以“主题”作为“检索项”,检索式为:主题=“关联数据”OR主题=“Linked data”,检索年限为2008~2014年(检索时间为2015年04月15日)。为确保查准率,将研究方向限定在:计算机软件及计算机应用、图书情报与数字图书馆、自动化技术、互联网技术四个领域,在检索结果中剔除重复和非相关文献后得到有效文献191篇,其中92篇被中文社会科学引文索引(CSSCI)收录。

2.2 研究方法

本文运用社会网络分析法生成作者合著网络图谱来分析关联数据领域的作者合著关系,运用文献计量法、关键词词频统计法、关键词共词分析法对国内研究热点进行归纳,并结合技术生命周期S曲线对国内关联数据未来发展趋势进行预测。

3 高频作者分析

3.1 高频作者合著网络分析

利用Ucinet软件集成的可视化工具Netdraw,对作者共现矩阵进行处理,得到国内关联数据领域的高频作者合著网络图谱,如图1所示。图中每个节点代表一个作者,节点大小代表了他们在网络中的中心度,节点之间的连线粗细可以表示作者两两之间的合作强度;另外,通过K-cores分析,可将所有节点进行形状的分类。由图1可知:

(1)国内关联数据领域已经形成了两个相对稳定的合著团体,用圆形节点表示。上海科学技术情报研究所的刘炜、夏翠娟、张春景对“大”关联数据和“关联”大数据两类不同应用进行了区分,对目前采用大数据技术发布关联数据的方法和路径进行了梳理[5],并与广东外语外贸大学图书馆的赵亮、朱雯晶合作,详细介绍了如何利用开源CMS平台Drupal实现关联数据发布技术[6];中国医学科学院医学信息研究所的方安、洪娜、王军辉借用UMLS的语义网络构建顶层本体,通过细化语义关系将疾病与其相关的知识关联,构建了疾病与症状、检查、药物、医疗器械之间的关联关系,实现了疾病知识的整合[7],并与四川大学公共管理学院的范炜合作,对当前RDF可视化工具进行调研,利用RelFinder构建了基于生物医学关联数据的发现关系系统[8]。其中范炜、刘炜、夏翠娟、张春景在团体中节点最大,即网络中心度最高。除了与团队内部合作外,他们还分别连接了邹庆和钱国富,是本领域位于结构洞位置的人。

(2)国内关联数据领域多数合著团体呈现小团体分散分布,用方形节点表示。图中4个三人合著团体中,张艳侠节点最大,即网络中心度最高。除了与团队内部合作外,张艳侠起到了连接毕强和团队内其他成员的作用,是团队内的核心著者。

(3)国内关联数据领域缺乏团队间合作。利用Ucinet对上述合著网络进行定量分析,网络密度为0.0 807,结合图1可见,合著团体间没有连线,即合著团队间缺乏交流,不利于知识的深层次构建。

3.2 高频作者中介中心性分析

中介中心性是社会网络分析中的重点之一,它反映了行动者在其社会网络中所处的地位及权力影响。中介中心性的测量根据的是该点在多大程度上位于图中其它点的“中间”,这样的节点具有“经纪人”或“守门人”的作用[9]。因此,所测量出来的中心度可以揭示行动者对资源控制的程度。利用Ucinet对高频作者进行中介中心性测度,得到排名前10的作者,如表1所示。由表1可知:

(1)中介中心性大于0的作者有7位,其中范炜、刘炜、夏翠娟、张春景为图1中由圆形节点表示的合著团体中的作者。由此可见,位于合著团体中的作者中介中心性相对较高,即掌握更多的学术资源,是连接其他作者的关键人物。

(2)中介中心性大于0.1的作者仅有范炜、张春侠两位。某作者中介中心性越高,说明该作者越多地占据资源和信息流通的关键位置,是本领域位于结构洞位置的人。通过上述计算可知,国内关联数据领域位于结构洞位置承担桥梁作用的作者相对较少,不利于学科的均衡发展。

综上,国内关联数据领域作者间尚未形成一支成熟的合作团队,研究成果的共享仅局限于很小的范围内。在未来的发展中,2~3人的合著小团体间应加强团队间合作;处于中介位置的作者如范炜、张春侠应进一步发挥桥梁作用,推进整个网络的联通,促进作者间的交流与合作。

4 研究热点分析

4.1 高频关键词词频及图谱分析

关键词是表达文献主题概念的自然语言词汇。某个学术研究领域内学术研究成果关键词的集合可以揭示研究成果的总体内容特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向等,利用词频进行情报分析研究可以对某些问题进行简单、明了的分析预测,且结论较为可靠[10]。

本文对CNKI收录的191篇相关论文的502个关键词进行归纳整理,去除不能表达论文主题概念的词汇、合并同义词以及下位词,得到出现频率大于等于4的23个高频词汇,如表2所示。可以看出,关联数据、语义网、图书馆、数据网络、RDF、关联数、知识组织等是关联数据领域的核心关键词,是目前该领域的研究热点。

表2 高频关键词词频统计

同时利用Ucinet绘制高频关键词共现网络图谱,结果如图2所示,从图中可见,位于网络核心位置且连线较粗的词汇为:关联数据、语义网、图书馆、数据网络、知识组织、RDF等,其结果与词频统计结果大致相符,进一步验证了上述关键词是本领域现阶段的研究热点。

4.2 高频关键词共词矩阵分析

关键词共词矩阵分析法主要是对同一篇文献词汇对或名词短语共同出现的次数进行统计,揭示这些词之间的亲疏关系,进而分析它们所代表的学科和主题的结构变化[11]。一般认为,词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的关键词两两之间在同一篇文献出现的次数,便可形成一个由这些词汇对关联所组成的共词矩阵。

本文利用SATI构建23*23的高频关键词共词矩阵,表3为共词矩阵的部分内容。从表3中可以看出:关联数据与语义网、图书馆、数据网络、RDF、知识组织、本体、D2R、数字图书馆等的共现频次较高;语义网与数据网络、本体、图书馆、RDF、关联数等的共现频次较高;图书馆与数据网络、知识组织之间也有较高的共现频率。说明这些关键词之间有较高的紧密度,也说明了其组合研究是关联数据领域论文的选题重点和研究热点。

4.3 高频关键词聚类分析

聚类分析是根据研究对象的特征,按照物以类聚的原则将其进行归类的一种分析方法。通过聚类分析,可以实现组内的研究对象具有较高的相似性,而组间的数据之间具有较大的差异性,其基本思想是认为研究对象之间存在程度不同的亲疏关系[12]。

将高频关键词共现矩阵导入SPSS19.0进行层次聚类分析得到高频关键词的聚类分析树状图,如图3所示。聚类结果显示,国内关联数据领域的研究热点主要集中在下面五个部分:

图2 高频关键词共现网络图谱

表3 高频关键词共词矩阵(部分)

图3 高频词层次聚类树状图谱

(1)本体与语义互联。包括关键词本体、语义互联,其研究主要集中在基于知识地图的多领域本体语义互联研究、数字资源语义互联研究、本体系统的设计与实现。以数字信息资源组织的多领域本体语义互联为切入点,通过对国内外本体映射的研究现状及本体映射聚类的分析,构建基于知识地图的多领域本体语义互联框架模型。

(2)数据网络体系构建与关联开放数据。包括关键词数据网络、关联开放数据、科学数据、知识组织、语义网,其研究主要集中在图书馆数据网络体系的构建及安全保障、关联开放数据关键技术、语义网环境下知识组织系统的研究与构建。采用语义网技术,对语义网知识组织系统进行研究和分析,提出语义网知识组织系统的构架,建立一个语义网知识组织系统原型,同时对现有关联数据进一步绿色化,用工程化方法来生产和维护绿色关联数据。

(3)关联数据的图书馆信息聚合研究。包括关键词图书馆、信息聚合、关联数据,其研究主要集中在构建基于关联数据的图书馆信息聚合模型,从数据层、聚合层和应用层进行研究,实现图书馆的内部资源和外部数据网络链接,扩展资源范围,改进用户服务。

(4)网络信息资源组织体系与高校学科知识发现系统的构建。包括关键词RDF、URI、FRBR、SPARQL、RDA、开放数据、元数据和知识发现,其研究主要集中在探讨FRBR理念应用于网络信息资源组织涉及的基本理论、规范控制、方法技术及应用评价,构建基于FRBR的网络信息资源组织体系,以及从学科知识规划、学科知识元数据采集、学科知识组织与存储、学科知识发现系统门户四个方面,结合元数据仓储技术详细阐述高校学科知识发现系统的建设方案。

(5)关联数据环境下数据溯源及DBpedia分析。包括关键词语义Web、数据溯源、DBpedia,其研究主要集中在分析W3C数据溯源推荐标准PROV的基础上,探讨其在语义Web架构中的作用和地位,以及在数据关联使用和推广上所面临的挑战;在基于关联数据的基本原则和发布方法上,分析介绍DBpedia的实现技术,实现对自由文本进行的结构化数据抽取和RDF表达,并基于URI参引、SPARQL查询和RDF文件转存等多种方法,实现多样化的Web数据获取以及和众多数据集之间的关联。

5 技术生命周期S曲线分析

生命周期的概念起源于自然生态系统,其基本内涵可以概括为:任何事物都具有萌芽、生长、成熟、直到衰老的一个周期过程。Anderson和Tushman把生命周期理论应用于技术领域,认为新技术产生于技术非连续状态,经过技术间的激烈竞争产生主导设计范式,并随后进入渐进变革阶段,直到一个新的非连续技术状态的出现[13]。技术生命周期理论认为,一项技术在其从进入市场到退出市场的生命周期过程中,一般划分为4个阶段,即萌芽期、成长期、成熟期和衰退期。研究者了解所研究领域处于技术生命周期的何种阶段,有助于把握该领域的整体发展趋势。

图4 关联数据研究生命周期S曲线

以上述的推算为基础,利用Loglet Lab软件预测估算关联数据领域各生命周期阶段的时间点,并以相关论文数量为纵轴,年份为横轴,绘制生成关联数据研究的时间-论文数S曲线发展趋势图,如图4所示。图中星号点表示实际的发文数量,实线表示预测的发文数量。由图4可知:

(1)国内对关联数据的研究始于2008年,2012年进入成长期,发文量为54,即萌芽期与成长期的拐点坐标为(2012,54)。

(2)国内关联数据研究预计于2018年开始步入成熟期,即反曲点坐标为(2018,185)。2018年起,国内关联数据研究开始进入高速发展阶段,发展速率将达到最大。

(3)国内关联数据研究预计于2024年开始步入衰退期,拐点坐标为(2024,310)。2028年发文量将达到峰值,即(2028,325)。从2008年引入期算起,国内关联数据研究生命周期预计约为20年。

6 结语

通过上述分析,本文可以得出以下结论:

(1)通过高频作者合著网络图可知,国内关联数据领域已经形成少量较为稳定的合著团体,但多数合著小团体呈现分散分布;从网络密度分析可知,国内在关联数据领域还没有形成一支成熟的研究队伍,缺乏团队间合作;从作者合著中介中心性分析可知,国内关联数据领域位于结构洞位置承担桥梁作用的作者较少,不利于学科均衡发展。

(2)通过高频关键词词频分析、共词分析、聚类分析可知,国内关联数据领域的研究热点主要集中在:本体与语义互联、数据网络体系构建与关联开放数据、关联数据的图书馆信息聚合研究、网络信息资源组织体系与高校学科知识发现系统的构建、关联数据环境下数据溯源及DBpedia分析等方面。

(3)通过技术生命周期S曲线的预测结果可知,关联数据在国内的发展时间约为20年,2008年引入我国后,预计2018年步入成熟,拐点坐标约为(2018,185),从2024年起,国内关联数据的研究将开始步入衰退,2028年达到峰值,坐标约为(2028,325)。

本文对关联数据研究的可视化,主要以国内发表的各类研究论文为基础,讨论该领域的研究团体、研究现状和研究热点,并大致估算其生命周期的各阶段值,以期为今后的研究提供借鉴,并达到知识交流的目的。

[1]Berners-Lee T.Linked data[EB/OL].[2015-03-08].http:// www.w3.org/Designissues/LinkedData.html.

[2]沈志宏,张晓林.关联数据及其应用现状综述[J].现代图书情报技术,2010(11):1-9.

[3]刘炜.关联数据概念、技术及应用展望[J].大学图书馆学报,2011(2):5-12.

[4]刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012(1):50-58.

[5]刘炜,夏翠娟,张春景.大数据与关联数据:正在到来的数据技术革命[J].现代图书情报技术,2013(4):2-9.

[6]夏翠娟,刘炜,赵亮,等.关联数据发布技术及其实现——以Drupal为例[J].中国图书馆学报,2012(1):49-57.

[7]李亚子,钱庆,刘峥,等.基于UMLS的疾病知识整合框架研究[J].现代图书情报技术,2011(2):34-41.

[8]洪娜,钱庆,范炜,等.关联数据中关系发现的可视化实践[J].现代图书情报技术,2013(2):11-17.

[9]李亮,朱庆华.社会网络分析方法在合著分析中的实证研究[J].情报科学,2008(4):549-550.

[10]巩永强,刘莉.基于词频分析法的情报学研究热点透析[J].图书馆学研究,2011(13):9-13.

[11]储节旺,郭春侠.共词分析法的基本原理及EXCEL实现[J].情报科学,2011(6):931-934.

[12]储节旺,闫土涛.知识管理学科体系研究(下)——聚类分析和多维尺度分析[J].情报理论与实践,2012(3):5-9.

[13]Anderson P,Tushman M L.Technological discontinuities and dominant designs:A cyclical model of technological change[J].Administrative Science Quarterly,1990(4):604-633.

(责任编校骆雪松)

Visualization Analysis of the Progress and Trends in Linked Data Research in China

Liu Jing,Sun Wei,Yuan Run
Institute of Science and Technology Information,Jiangsu University,Zhenjiang 212013,China

Selecting research literature in the field of the linked data from the CNKI database,this study adopts social network analysis and the bibliometric method to analyze and visualize the co-occurrence authors and high-frequency key words.Based on these,this paper analyzes the co-authorship network and betweeness centrality of high-frequent authors, as well as the word frequency and map,matrix and clustering of high-frequent key words, presenting the research status and high points at home.Meanwhile,the study,with the aid of Loglet Lab,also attempts to estimate the timing of each phase of the life cycle to make a prediction of the developing trend in the field of linked data study.

linked data;social network analysis;technology life cycle;visualization

G250

刘竟,女,1980年生,博士,副教授,研究方向为信息组织与管理,发表论文10余篇,出版专著1部;孙薇,女,1989年生,2013级图书情报与档案管理专业硕士研究生,研究方向为信息组织与管理;袁润,男,1965年生,博士,教授,研究方向为数字图书馆、情报技术,发表论文80余篇。

*本文系国家社会科学基金项目“欧美图书馆学博士学位研究课题分析”(项目编号:09CTQ006)的研究成果之一

猜你喜欢
数据网络生命周期关联
全生命周期下呼吸机质量控制
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
从生命周期视角看并购保险
“一带一路”递进,关联民生更紧
民用飞机全生命周期KPI的研究与应用
企业生命周期及其管理
奇趣搭配
试论建立和运用反腐大数据网络的必要性
智趣
试论建立和运用反腐大数据网络的必要性