汪淑娴
(华中师范大学,湖北 武汉 430070)
国内关联数据领域研究热点分析
汪淑娴
(华中师范大学,湖北 武汉 430070)
文章以中国知网为数据来源,利用关键词共词分析法,将BICOMB2.0与SPSS20.0相结合得出相关的图表。通过研究发现关联数据领域主要围绕7大主题,这有利于关联数据领域研究热点的明确。图书情报领域研究人员可以通过关注和把握关联数据领域研究热点,推进图书馆信息服务的发展。
关联数据;信息资源;模型架构;语义关联
2006年,万维网的创始人Tim burners-Lee第一次提出了“Linked Data”的概念,他认为“Linked Data”就是将所有的数据链接起来,并将其构建成计算机能够理解、高度结构化和富含语义关系的数据网络。2007年,Bizer发布了“How to publish Linked Data on theWeb”一文,又将关联数据进行了新的定义:关联数据就是一种在万维网上发布和链接结构化数据的方式,即关联数据是利用万维网来创建不同数据源之间的语义链接。同时,我可以通过维基百科搜索到其定义:关联数据是一种推荐的最佳实践,即在语义网中使用了URI和RDF发布、分享、连接各类数据、信息和知识。
图1 关联数据集云图
关联数据是网络发展的一种趋势,它伴随着科学技术和信息技术的发展产生。随着人类社会进入数字时代,特别是21世纪以来,科学研究的方式方法发生巨大的变革,在信息化基础设施支持下的科研活动得到迅速发展,数据密集型科研方式兴起。但是由于认知的限制,国内的关联数据的发展方向还在不断的探讨的过程中。网络上以W3C推荐的关联数据标准发布的关联数据集已经达到了数百多个,并且数据集的数量和数据集之间的关联都在快速增加着。如图1所示是截止到2014关联数据集发展的情况。
通过文献调研可以发现,自2006年以来,关联数据相关主题研究逐渐增多,大体分成两大类:一是科学界从各自具体的学科角度出发,研究相关领域关联数据的发布与实现的问题;二是图书情报学界将关联数据中的数据作为信息资源管理对象,开展关联数据与知识融合的研究。国外现在有很多将关联技术作为网站构建的比较完善的平台比如有纽约时报、英国BBC、维基百科等。虽然有些平台逐渐的运用了此项技术,但是还不够完善,用户在实际的体验中还未享受到不一样的感受。国内对此项技术的研究发展也在初步阶段,所以在研究热点方面还有许多值得探讨的地方。
大数据系统要能处理关联数据,关键是要支持RDF数据的处理。这种支持,包括许多内容,对系统性能的影响也很大,如数据结构和查询方式对查询系统的性能影响就很大。目前,对关联数据的处理流程还不规范,随着IT技术的发展,这个问题将逐步解决。为了精确梳理近10年来关联数据领域的研究成果,直观展现它们所涉及的研究领域和主题,发现相关研究表现出的特征,特别是分析图书情报领域相关研究的不足和未来走向,文章拟采用国际上较为常用的科学计量方法,以关键词共词法,聚类分析与多维尺度分析法为主要研究方法,来分析国内关联数据研究的热点问题。
年6月30日。④检索结果:检索获取766篇文献记录,经过查重、筛选和取舍,并剔除了新闻报道、科普类短文等非研究性文献,一共获得277条记录。
(2)研究工具。①书目共现分析系统Bicomb2.0;②统计产品与服务解决方案SPSS20.0。
(3)研究步骤。①文献关键词的选取、清洗和预处理;②应用Bicomb2.0建立关键词共词词频矩阵;③应用 SPSS20.0共词词频矩阵进行分析,以样本聚类获得关键词聚类树图;④过SPSS20.0进行多维尺度分析;⑤围绕聚类树图进行研究热点的分析。
(4)研究方法。文章运用关键词共现网络图谱来分析关联数据领域的研究热点;运用共词聚类分析法生成共词聚类树状图来分析关联数据研究论文的主流研究领域的结构及其关系。
词频分析法是利用能够揭示或表达文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法。由于一篇文献的关键词或主题词是文章核心内容的浓缩和提炼,因此,如果某一关键词或主题词在其所在领域的文献中反复出现,则可反映出该关键词或主题词所表征的研究主题是该领域的研究热点。
2.1 关键词词频统计与分析
词频分析方法的词频统计、关键词分析经常被用于描述某学科领域的研究状况,进而揭示该领域的研究热点和发展趋势。文章所选文献总关键词为596次,对标准化后、词频大于4的32个关键词按照频次进行排列,如表1所示。
表1 关键词频次排序
表1中,32个关键词为491次,占关键词总频次726次的67.63%。前10位关键词出现频次均大于9,依次是:关联数据(228次)、语义网(37次)、图书馆(26次)、RDF(14次)、本体(14次)、数据网络(14次)、数字图书馆(13次)、关联数(12次)、知识组织(11次)、知识发现(9次)。这些关键词分布数据可以初步说明,关联数据领域的研究主要集中在知识发现、关联数据的构建和发布等方面,图书馆在这些活动中扮演着重要的角色,数据发布平台是关联数据管理与共享的基本呈现形式。此外,要更深入揭示关键词之间所形成和呈现的深层次关系,进而反映关联数据研究领域的主题热点,还需要围绕关键词的词篇分布进行更多的数据分析和挖掘。
2.2 关键词系数矩阵
为了进一步分析关键词之间的关系,文章用BICOMB2.0共词分析软件对所有的关键词进行了共词分析,获取了词篇矩阵。“词篇矩阵”是针对主题词——文献矩阵而言的一种简便称呼,该矩阵的第一列是主题词,第一行则是文献记录的号码,其实质是一种数据矩阵。其中间格子(“0”和“1”)分别代表该词在对应的文章中是否出现,或者该论文是否被对应来源文献使用。事实上从词篇矩阵看不出具有实质性意义的研究热点,它结合SPSS20.0的聚类分析可以进一步得到分析的结果。
由于论文文档格式的限制,笔者只截取了其中的前10个词篇矩阵的部分内容。从表2可以看出:各个关键词之间的还是存在着一定的联系的。这些数值表明,关联数据常常与语义网、图书馆、RDF知识组织和知识发现等有关的关键词结合,也侧面说明了关联数据在如今的研究方向。
表2 关键词的词篇矩阵(部分)
2.3 关键词聚类分析
为更加直观地展示关键词之间的亲疏关系,文章还应用了SPSS20.0软件对词篇矩阵进行了关键词聚类分析,图2位呈现的聚类数图(部分)。从图2可以看出关键词分为了7类,具体分布如表3所示。
表3 关键词聚类一览表
图2 关联数据领域研究关键词聚类树状图
通过关键词的聚类分析可知,关联数据领域7类研究主题具体分布为:
(1)种类1主题主要为关联数据的基本概述。该类主题主要包括:概念解析,即关联数据概念的界定,国内外根据关联数据的发展情况,对关联数据的定义。关联数据与数据网络:关联数据是构建数据网络的具体实践,构建数据网络是关联数据的目标。关联数据与语义网:虽然关联数据自身不具备语义特征,但通过关联数据可在数据层面建立语义关联,为最终实现语义网的远景目标奠定坚实的基础,以及关联数据的类型划分。
(2)种类2主题主要为关联数据的支撑技术。为基于现有网络以最小代价构建关联数据,关联数据继承了互联网的两项支撑技术,即统一资源定位符(URI)和超文本传输技术(HTTP)。关联数据还采用万维网联盟推荐的资源描述框架(RDF)对网络上的任意类型资源进行组织、描述和交互。
(3)种类3主题主要为关联数据构建的原则与流程。关联数据设定了一套标准的构建的原则与流程。首先,建立了命名机制与调用机制,即使用URI来命名资源,使用HTTP URI来标识资源。然后,使用RDF提供与当前资源密切相关的其他有用信息。最后,主动提供相关资源的HTTP,URI语义链接。
(4)种类4主题主要为关联数据的语义关联描述模型。由于关联数据本身不具备携带语义功能,因此,在构建和发布关联数据时,只有应用被认可和广泛使用的语义关联描述框架才能更广泛、深入地支持数据间的关联和互操作。
(5)种类5主题主要为关联数据构建工具。尽管关联数据的优势明显,应用前景广泛,然而目前绝大部分数据并不满足关联数据的基本原则,大量数据以RDF、Word、CSV和Excel等传统格式存在,或者存储在关系型数据库中。因此,关联数据的研究社区开发了一系列实用工具,实现不同类型数据向关联数据的转换,例如:D2R,Drupal等。
(6)种类6主题主要为关联数据在实际生活中的运用。现在大部分实现的关联数据都是以图书馆为基础的,对图书馆资源的建设,模式的构造等方面都有很大的作用。在实现Linked Data浏览与检索过程中,还有其他一些细节问题需要解决,如RDF数据的可视化、浏览轨迹的跟踪、海量索引数据的存储与快速检索、数据访问统计与用法评价、检索结果的排名等。
(7)种类7主题主要是构造关联数据所需的底层架构。关联数据不是一个新生成的技术,而是在各种技术和方法体系上形成的,需要深厚的知识底蕴。例如,在词表构建方面,需要熟悉不同的词表分类;在模型建造的时候需要相关相似度算法的转换。
(1)从文献的时间分布来看,关联数据领域相关文献的发表量呈逐年上升趋势,说明该领域逐渐获得了学界和业界关注。随着知识关联和数据密集型科研的深入发展,对关联数据领域的理论研究与实践探索还会不断升温,只不过在不同的阶段,研究的热点主题与方向会有所变化。
(2)从研究热点变化来看,关注点经历了从关联数据共享平台构建转向数据管理与服务的过程。关于对关联数据的研究,一开始就呈现出理论领先于实践研究的特征,文献中占很大比例的是关于关联数据有关知识的介绍以及相应的模型架构。在大数据层面实施关联数据发布平台的战略背景下,关联数据研究与实践注重相关学科领域共享平台构建和数据资源的建设是必然的选择,经历了平台与资源的建设阶段以后,才会逐渐地朝着数据服务的方向发展。
(3)从开展相关研究的群体来看,最初主要集中在学术界,从具体学科(农业,医学)出发进行的实践和理论探索,分析相关学科领域中关联数据平台的构建与数据的管理问题。之后,图书馆学界与业界的人员逐渐参与到关联数据的研究与实践中,主要将关联数据作为一种信息资源,从信息资源的组织与管理、信息服务的角度进行研究。
(4)2011年后,高校和高校图书馆开始加强对关联数据管理与服务的实践探索和理论研究。但是,从近几年来总体的文献分析来看,图书馆关于数据服务、数据监护等方面的研究并没有占据非常重要的地位,甚至还处于边缘的状态。然而,伴随着大数据时代的到来以及科研创新的数据驱动,关联数据管理与服务将成为图书馆信息服务的重要增长点,将是高校图书馆为适应新的科研学术生态系统而做出的延伸和拓展。因此,一方面,今后一定时期内图书情报领域围绕关联数据管理与服务的文献将大量增加,如图书馆关联数据、面向关联数据的语义数字图书馆的资源建设研究、基于关联数据的图书馆信息聚合研究以及基于关联数据的图书馆创新服务研究等;另一方面,图书情报领域的研究人员应该关注和把握关联数据领域研究热点的变换,并以此推进图书馆信息服务的发展。
数据是计算机和互联网行业最基本、最古老概念,进入大数据和关联数据时代后,数据的概念已经产生了质的飞跃。这里数据已发展为在互联网上给予标识、组织、传输和管理的基本语义单元,是一条可被计算机识别、管理的知识。互联网使使全世界的知识连成一体而成为一个“大数据”,而关联数据技术使人们能够通过计算机获取并处理知识。
关联数据的算法研究其实也是一种很重要的方面,因为关联数据的目的是数据具有语义,但是实际上关联数据本身是不具有语义的。要做的就是提供一种相似度算法使计算机能够搭建关联数据的模型框架。在现实生活中,语义相似度计算在很多应用中起着重要作用,由于基于关键字检索方式缺乏语义分析,造成查询的结果越来越多,用户筛选的工作量越来越大等问题,人们开始倾向于使用关联数据(RDF数据类型)来表示信息。随着网络上的RDF数据的不断增多,RDF实例的语义相似度计算方法的研究也变得越来越重要,对信息的智能化处理和语义挖掘都有着重要的意义。
[1]周志峰.中国大陆科学数据领域研究热点分析——基于知识图谱[J].情报杂志,2016,(1):81-86.
[2]鲜国建.农业科技多维语义关联数据构建研究[D].北京:中国农业科学院,2013.
[3]刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011,(2):5-12.
[4]沈志宏,张晓林.关联数据及其应用现状综述[J].现代图书情报技术,2010,(11):1-9.
[5]夏翠娟,刘炜,赵亮,等.关联数据发布技术及其实现——以Drupal为例[J].中国图书馆学报,2012,(1):49-57.
[6]林海青,楼向英,夏翠娟.图书馆关联数据:机会与挑战[J].中国图书馆学报,2012,(1):58-67+112.
[7]沈志宏,张晓林,黎建辉.OpenCSDB:关联数据在科学数据库中的应用研究[J].中国图书馆学报,2012,(5):17-26.
[8]欧石燕.面向关联数据的语义数字图书馆资源描述与组织框架设计与实现[J].中国图书馆学报,2012,(6):58-71.
[9]沈志宏,刘筱敏,郭学兵,等.关联数据发布流程与关键问题研究——以科技文献、科学数据发布为例[J].中国图书馆学报,2013,(2):53-62.
[10]刘炜,夏翠娟,张春景.大数据与关联数据:正在到来的数据技术革命[J].现代图书情报技术,2013,(4):2-9.
[11]贾君枝,赵洁.DDC关联数据实现研究[J].中国图书馆学报,2014,(4):76-82.
[12]李楠.基于关联数据的知识发现研究[D].北京:中国农业科学院,2012.
[13]刘炜,胡小菁,钱国富,等.RDA与关联数据[J].中国图书馆学报,2012,(1):34-42.
[14]张春景,刘炜,夏翠娟,等.关联数据开放应用协议[J].中国图书馆学报,2012,(1):43-48.
[15]游毅,成全.试论基于关联数据的馆藏资源聚合模式[J].情报理论与实践,2013,(1):109-114.
[16]夏翠娟,刘炜.关联数据的消费技术及实现[J].大学图书馆学报,2013,(3):29-37.
Research on Hot Points in the Field of National Correlation Data
WANG Shu-xian
(Huazhong Normal University,Wuhan,Hubei 430070,China)
The paper takes CNKI as data source,uses keywords co-term analysis methods,and gets relevant charts by SPSS20.0 and BICOMB2.0.The study found that linked data fields aremainly around 7main themes,which is good for the clearnessofhotpoints in the field ofcorrelation data,researchersofbooks intelligence can promote the developmentof library information service by grasping and concerning thehotpointsofcorrelation data.
linked data;information resources;modelstructure;semantic association
G359
A
2095-980X(2016)11-0039-03
�来源。①数据库选择:中国知网的中国学术期刊
总库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库等。②检索策略:主题词为“关联数据”,“语义网”。③检索时间:2016
2016-10-16
汪淑娴(1994-),女,湖北人,硕士研究生,主要研究方向:情报学。