国内外关联数据研究现状分析

2021-03-10 12:07洪瑾
河南科技 2021年28期
关键词:文献计量学

洪瑾

摘 要:通过梳理关联数据的概念与发布原则,采用文献计量学分析方法,运用引文网络分析工具CiteSpace对关联数据研究文献数据进行计量分析,客观分析了关联数据的国内外研究现状,以期为我国关联数据研究提供参考。结果显示:从时间上来看,关联数据领域的研究数量总体呈上升态势;从空间上来看,国际上关联数据研究主要集中于发达国家,而国内呈现分散趋势,多为独立研究;从内容上来看,关联数据领域的研究集中于图情领域和计算机领域,但国内主要侧重于理论研究,实践成果数量偏少。

关键词:关联数据;关联开放数据;语义网;文献计量学

中图分类号:TP311.13 文献标识码:A 文章编号:1003-5168(2021)28-0-03

Abstract: To introduce the concept and publishing principle of linked data. And it adopts bibliometrics analysis method and uses citation network analysis tool CiteSpace to make bibliometrics analysis on literature data of linked data research, and objectively analyzes the development status of linked data research, in order to provide reference for linked data research in China. From the perspective of time, the research in the field of linked data is on the rise. From the perspective of space, the international research on linked data is concentrated in countries, while the domestic research tends to be scattered and mostly independent. From the perspective of content, the research on linked data is concentrated in library and information science and computer science, but the domestic research mainly focuses on theoretical research, and the number of practical results is relatively small.

Keywords: linked data;linked open data;semantic web;bibliometrics

互联网技术的发展加快了大数据时代的到来。中国互联网络信息中心(China Internet Network Information Center,CNNIC)发布的《中国互联网络发展状况统计报告》显示,截至2021年6月,我国互联网普及率达71.6%,我国网民规模为10.11亿人,其中我国手机网民规模达10.07亿人[1]。由于网络自身的开放性、自由性、交互性、方便性与快捷性等特质,网络资源数量剧增,呈现异类、异构和分布的特点,推动信息服务逐步朝着语义服务方向发展。关联数据因其框架简洁、标准化、自助化、去中心化及低成本的特点成为语义网实现的途径[2],为语义服务的发展提供了新的契机。

1 关联数据概述

“Linked Data”概念由Tim Berners-Lee于2006年首次提出。TIM认为,语义网不仅仅是把数据放到网络上,而且与建立链接有关,以便个人或机器浏览数据网络。有了关联数据,当拥有其中的一些数据时,就可以找到其他相关的数据。与超文本网络一样,数据网络也由网络上的文档构成。与超文本網络的区别是,关联数据不是由超链接简单链接而成,而是使用资源描述框架(Resource Description Framework,RDF)以统一资源标识符(Uniform Resource Identifier,URI)标识任何类型的对象或概念,形成链接世界上任何事物的网络,即数据网络(Web of Data)[3]。TIM提出发布关联数据的4条原则:①给所有事物赋予一个URI(名字);②用HTTP URI,以便于任何人都可以访问这些标识;③当访问某个标识时,使用(RDF,SPARQL)标准提供有价值的信息;④尽可能提供与其相关联的URI,便于访问者发现更多的事物。维基百科对关联数据的定义是语义网的主题之一,描述了通过可链接的统一资源标识符(URI)方式来发布、分享、链接网络中各类资源的方法[4]。

2 国内外研究现状

2.1 研究方法

本部分采用文献计量学分析方法,运用引文网络分析工具CiteSpace对关联数据研究文献数据进行处理分析。CiteSpace是由美国德雷克塞尔大学(Drexel University)陈超美团队研发的基于Java编程语言运行环境下的信息可视化分析软件[5]。该软件能够绘制各学科领域的知识图谱,揭示该学科一定时期内的发展现状与未来走向。

2.2 国外研究现状

本研究以Web of Science(核心合集)数据库为检索来源,采用Web of Science高级检索,时间跨度为2000—2021年,文献检索规则具体设置为TI=Linked Data。剔除书评、报道等,共检索到5 207篇关联数据方面的文献。通过CiteSpace 5.6.R2分析工具对检索结果中关联数据文献的数量年代分布、作者、研究机构、国家地区合作网络及主题关键词进行共现与聚类分析。

如图1所示,Web of Science(核心合集)数据库导出的文献数据显示,2006—2016年的11年间,关联数据的相关论文发表数量呈逐年上升趋势。值得关注的是,2015—2017年这3年间,年发文量均为550篇左右,为该领域发文量的峰值,说明国际上在这一阶段对关联数据领域给予了高度关注。此后,发文量呈下降趋势,但年均总发文量仍保持在400篇以上,说明关联数据的热度虽有消减但仍属于重要研究方向。

由国外关联数据研究领域的作者共现分析可知,该领域的研究作者擅于开展合作研究,作者之间存在较多直接或间接的合作关系,且大多围绕高产核心作者展开合作,但也存在部分作者进行独立研究。BIZER C凭借发表的26篇文章排在第一位,属于关联数据研究领域的高学术影响力作者。国家地区合作网络共现分析显示,大多数关联数据研究集中于美国、英国、加拿大、西班牙及澳大利亚等西方发达国家,其他国家的研究机构发文相对较少,表明西方发达国家成为关联数据研究中心。由关联数据研究文献的机构共现分析可知,国际上关联数据领域的主要研究机构集中在高校,其中西澳大利亚大学(Univ Western Australia)为发文量最高的研究机构。研究机构间存在直接或间接的合作关系,以英国哥伦比亚大学节点为例,该节点与加拿大的多伦多大学和曼尼托巴大学等都具有合作关系。但整体来看,合作网络仍局限于国内合作,国家与国家之间尚未形成一个良好的合作系统。

文献关键词是对文献全文内容进行的提炼和概括,是文献的知识信息标签。通过对文献关键词的知识共现分析和聚类分析,可以更快、更深入地掌握关联数据研究领域的整体现状。关键词共现分析导出8个关键词聚类标签,即“cohort study”“open data”“open data approach”“single-cell RNA-seq data”“linking electronic health record”“interactive workspace”“key information”“Multnomah country”,即关联数据领域国际上的研究重点为“关联数据”“语义网”“关联开放数据”“本体”等。

2.3 国内研究现状

本研究选取国内较权威的中文科技期刊数据库中国知网(China National Knowledge Infrastructure,CNKI),检索“关联数据”方面的研究成果。为保证检索的查准率与查全率,检索方式选择专业检索,构建检索式为“TI=关联数据”。在上述所有检索结果中删除误检的文献和与研究主题不符的文献,最终得到相关文献417篇(检索时间为2021年07月21日)。将标题、作者、摘要、关键词及文献来源等题录数据导出为Refworks格式的纯文本文件,转码处理后形成样本数据库。基于CiteSpace 5.6.R2分析工具展开作者共现分析、研究机构共现分析和主题关键词共现聚类分析,得到该领域的重点研究学者、主要研究机构及研究热点等。

如图2所示,CNKI全文数据库导出的文献数据显示,2006—2010年的5年间,论文发表数量较少,说明这一阶段国内对关联数据的关注度不高,该领域的研究处于萌芽状态;2011—2015年是关联数据研究的快速上升期,2010年的发文量仅10余篇,2012年的发文量迅速攀升至将近70篇,2015年发文量达到了75篇,为该领域发文量的峰值,说明国内在这一阶段对关联数据领域给予了高度关注;2016—2019年的4年间,发文量呈下降趋势。

通过作者共现分析可知,国内关联数据研究领域作者之间合作不密切,大多数作者为独立研究。国内关联数据研究文献的机构共现分析显示,56个节点皆为发文频次超过2次的研究机构。华中师范大学信息管理学院发文数量达到19篇,为该领域发文量最多的国内研究机构。尤为明显的是,发展过程中形成了以上海图书馆和中国科学院大学为中心的两大合作区域:①上海图书馆、上海外国语大学图书馆、上海交通大学图书馆、上海财经大学及华东师范大学;②中国科学院大学、中国科学院国家科学图书馆、中国科学院国家科学图书馆兰州分馆、中国科学院文献情报中心及中国科学院兰州文献情报中心。整体来看,关联数据研究领域的主力为高校、研究所与图书馆,且已取得较丰硕的研究成果。

将CNKI数据库中的文献数据导入CiteSpace进行转换处理,关键词共现分析导出10个关键词聚类标签,即“链接构建”“图书馆”“资源描述框架”“本体”“数字图书馆”“RDF”“SPARQL”“推荐系统”“查询”和“数据关联”。以上聚类标签同样显示了国内关联数据领域学者的研究重点。

2.4 总结归纳

2.4.1 从时间上来看,不论国际上还是国内,关联数据领域的研究总体呈上升态势。虽然近两年关联数据的研究文献发标数量较2016年的峰值有所下降,但是总体发文数量仍保持在较高水平,可知关联数据仍为研究热点。

2.4.2 从空间上来看,国际上关联数据研究集中于美国、英国、加拿大、西班牙及澳大利亚等西方发达国家;而国内关联数据研究集中于以上海图书馆和中国科学院为中心的两大合作区域,分布在上海、北京等地。此外,空间分布还与致力于关联数据研究的国内高校所在地息息相关,如湖北、江苏等省份。与国外不同的是,国内多为独立研究,呈分散趋势。

2.4.3 从内容上来看,不论国际上还是国内在关联数据领域的研究都集中于图情和计算机方面。国外对关联数据的研究和实践力度更大,关联数据的理论研究与应用研究也进行得较为彻底。反观国内,学界对关联数据的研究主要集中于关联数据的概念、发布、构建技术、技术工具介绍以及国外典型应用实践的经验借鑒等方面,偏于理论研究,实践成果数量偏少。

3 结语

以大数据时代为研究背景,在梳理关联数据的概念与发布原则的基础上,阐述了关联数据研究的国内外发展现状。分析发现,自2006年关联数据的概念被提出后,11年间关联数据的研究热点呈直线上升趋势,逐步成为国内外的研究热点。值得注意的是,虽然关联数据的研究数量增长迅速,但是关联数据的应用跟不上数量的增长速度,这与关联数据的研究质量、有效性及商业化能力息息相关。因此,如何深度挖掘关联数据,提升关联数据的可用性,从而实现关联数据集的价值,成为当前亟待解决的问题。

与国外数量多、规模大的应用项目和实践成果相比,我国的应用成果并不多,且不够深入和全面,存在较大差距,这与国内数据开放环境和技术研发水平有关。要促进我国关联数据研究的深入发展,需要将理论研究与实践应用相结合,基于理论成果优化应用效果。因此,如何克服关联数据面临的困难,突破阻碍关联数据发展的瓶颈,是目前研究的主要问题。

参考文献:

[1]中国互联网络信息中心.第48次中国互联网络发展状况统计报告[R/OL].(2021-08-27)[2021-09-03].https://cit.buct.edu.cn/2021/0925/c7951a157922/page.htm.

[2]白海燕.关联数据及DBpedia实例分析[J].现代图书情报技术,2010(3):39-45.

[3]TIM B.Linked Data[EB/OL].(2021-06-29)[2021-08-21].https://www.w3.org/DesignIssues/ LinkedData.html.

[4]Wikipedia.Linked Data[EB/OL].(2021-05-16)[2021-08-30].http://en.wikipedia.org/wiki/Linked_data.

[5]CHEN C M.Citespace Ⅱ:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society For Information Science and Technology,2006(3):359-377.

3940500338290

猜你喜欢
文献计量学
2013年全科医学领域慢性病健康教育相关科研文献研究
血糖指数与血糖负荷相关饮食文献计量学分析
《现代泌尿外科杂志》2011~2013年文献计量学指标分析
《广西民族研究》创办30年来刊发文章的回顾与展望
中文图书评价体系研究
政治传播视角下国内“军人”与“警察”形象比较研究
1994—2014年我国中医药高校图书馆图书情报学科研究实力分析
基于CBM的我国民族医药学文献计量分析
PubMed收录牙釉质相关文献的计量学分析