刘雪梅
(兰州大学图书馆,甘肃 兰州 730000)
基于关联数据的机构知识库服务模式构建与实现∗
刘雪梅
(兰州大学图书馆,甘肃 兰州 730000)
[摘要]资源建设是机构知识库可持续发展的瓶颈,机构知识库价值的实现很大程度上得益于丰富的资源存储。将关联数据技术应用于机构知识库,构建了基于关联数据的机构知识库服务模式,采用D2R工具并以兰州大学机构知识库条目数据为例对该模式进行了研究。研究表明,利用关联数据可以扩展机构知识库的资源发现途径,提升其服务能力。
[关键词]机构知识库关联数据资源发现
机构知识库在开放获取运动的背景下应运而生,它是大学和科研机构收集、保存和传播数字知识资产的重要媒介。近几年来,机构知识库发展迅速,目前,在OpenDOAR上注册的机构知识库已达2989个。笔者在“机构知识库质量评价研究”[1]中通过调查访问及文献查阅,发现资源建设是影响国内目前机构知识库发展最为核心的因素,机构知识库内容单一、存储量少的现象已成为机构知识库可持续发展的瓶颈。如何丰富机构知识库的内容,加强机构库的资源发现能力,提升用户对机构库的认知度和满意度,从而有利于机构知识库的推广应用成为目前亟待解决的问题。
关联数据[2]由“互联网之父”TimBerners-Lee于2006年首次提出,它是指在语义网上发布、共享、链接各类数据、信息和知识的一种方式。其采用RDF三元组模型存储数据,用URI地址链接到其他资源实现资源间的语义跳转,是未来语义网的关键技术之一。2007年,W3C发起了开放关联数据运动,网络上以W3C推荐的关联数据集的数量和数据集之间的关联都在快速增加。图书馆在这场运动中扮演了关联数据集的提供者和消费者。因此,2008年瑞典国家图书馆首次以关联数据的形式发布了LIBRIS国家书目,并与DBPedia进行了关联,此后,关联数据在图书馆行业的应用迅速发展。笔者在上述研究的基础上,将关联数据应用于机构知识库,构建了基于关联数据的机构知识库服务模式,并采用D2R工具和技术进行实现,从而提升机构知识库的资源发现能力。
关联数据采用RDF三元组作为数据模型,用URI地址标识数据,并通过HTTP协议在互联网上进行发布。将机构知识库的条目数据发布为关联数据,可以实现“内外”两层的关联。即首先揭示了机构知识库条目数据集内部之间的语义关联关系,进而通过与外部关联数据集比如Web数字资源、商业数据库资源等其他数据资源进行关联,拓展了机构库的资源发现途径,丰富了机构库的存储内容。笔者构建的基于关联数据的机构知识库服务模式如图1所示。
图1 基于关联数据的机构知识库服务模式
本模式的优越性在于利用URI标识元数据的实体对象,引入了一个机器可以理解和处理的技术框架。本模式以机构知识库为主体对象,通过实现“内外”两层数据集的关联,从而提供基础服务。例如通过Web浏览器实现HTML网页浏览与导航,也可以利用关联数据浏览器,如Tabulator、Marble等,通过RDF链接在数据源之间进行浏览;除此之外,还可以通过SPARQL查询实现语义检索等。基于该模式,笔者将机构知识库条目数据的描述、组织、发布划分为数据层、关联层两个层次。
2.1数据层
数据层是指机构知识库中存储的条目数据,每个条目数据都用DC元数据规范进行描述,其中包括题名、作者、期刊、基金等。元数据主要是为人而设计的,缺乏明确的语义化定义,机器无法直接理解。
2.2关联层
鉴于机构库元数据的局限性,笔者构建了数据关联层,将机构库中的条目数据关联化,实现数据之间的语义化跳转,以便计算机进行理解和处理。笔者抽取出元数据中的概念和属性,采用本体描述语言,构建元数据本体[4],基于该本体,将机构知识库中的元数据转换为RDF三元组格式的语义元数据,并采用D2R工具根据关联数据原则[5]进行发布,如图2所示。机构知识库条目数据关联数据化后,不仅可以实现机构知识库内部条目数据之间的关联,而且可以实现与外部关联数据集的关联,为用户提供更丰富的检索结果。
3.1抽取实体关系与关系数据库的建立
本实验以兰州大学机构知识库管理学院的期刊论文为例,主要抽取了科研人员(Person)、基金项目(foundation)、研究部门(organization)、期刊论文(Paper)、期刊(Journal)这5种核心实体类,实体关系如图3所示。
图3 IR中的实体类及关系
启动postgresql,建立lzuir数据库。在lzuir数据库中分别建立这5个实体类对应的数据表,实体的属性对应为数据表中的各列,实体间的关系对应于表间的关系,并为各个表设置相应的主键和外键。不同表之间的关系对应如下:
①科研人员和研究机构的关系。一个科研人员必定属于某个机构,相应地,某个机构下面包括N个科研人员。
②科研人员和基金项目的关系。一个科研人员可以主持多个基金项目,而一个基金项目必定由一个科研人员主持。
③期刊论文和科研人员的关系。一篇期刊论文可以由多个作者合作完成,相应地,一个科研人员可以是多篇期刊论文的作者。
④期刊论文和研究机构的关系。一篇期刊论文属于某个研究机构,而一个研究机构下面有多篇期刊论文。
⑤期刊论文和期刊的关系。一篇期刊论文必定对应一个期刊,相应地,某个期刊下面必定包括多篇期刊论文。
⑥期刊论文和基金项目的关系。一篇期刊论文属于某个基金项目的科研成果,相应地,一个基金项目可以产出多篇期刊论文作为科研成果。
3.2利用RDF进行语义标注和关联
语义标注[6]是使用计算机可理解的属性来描述资源的相关陈述。类、属性和实体标注都是通过创建一些陈述来实现的。在OWL本体标注语言中,已经预定义了很多基本属性,笔者使用RDF+OWL语言进行标注。笔者定义的实体关系中会复用到一些关联词表,分别是FOAF,DC,VCARD等,而外部数据源是DBpedia。
3.3基于D2R的数据语义映射和转换
关联数据的发布方式主要有3种,根据数据量的规模和更新频率对应不同的发布方式。第一种方式针对数据量较小的情况,将其生成静态的RDF文件进行发布;第二种方式针对数据量较大的情况,将其存储到RDF存储器中,并采用Pubby[8]服务器前端进行操作;第三种方式针对数据的更新频率比较大的情况,在请求数据的过程中,将其映射为虚拟的RDF格式,这种方式用到的工具主要有D2R、Triplify[9]等。本文的机构知识库因为数据请求操作比较频繁,因此采用第三种方式进行发布,使用的工具是D2R。D2R的核心是D2RQ Engine,它的功能是实现RDB2RDF,主要采用D2RQMapping文件将关系数据库中的数据映射为虚拟的RDF格式进行发布。笔者在java开发环境中,对D2RQMapping进行编程,主要步骤如下:
(1)使用D2RQ工具生成映射文件,D2R的映射语言D2RQMapping是基于RDF和OWL进行描述的,自身生成的映射无法满足需求,因此笔者根据实际需要对兰州大学机构知识库抽取的核心实体类进行RDF语义标注,以期刊论文为例,将实体关系进行RDF关联转换,部分代表性的代码如下:
(2)将兰州大学机构知识库关联到外部数据源,仍以期刊论文为例,部分代表性的代码如下:
3.4关联数据的发布与访问
在D2R的DOS路径下,执行D2R-Server.bat脚本,运行生成映射文件lzuir.n3,启动关联数据发布服务。在浏览器中输入访问地址http://localhost:2020,显示出D2R的运行入口界面(如图4),图中可看到已将机构知识库条目数据发布为含有语义的关联数据源,提供了HTML浏览、RDF浏览和SPARQL端点查询3类服务入口。
图4 D2R的服务首页
从图中可以看到,5个数据表分别映射为不同的实体类。以兰州大学机构知识库中的一篇期刊论文为例(如图5所示),可以看到paper数据表中的各个列被映射为资源的属性特征,点击图中的相关链接都可以得到对应元数据的详细信息。例如点击图5的链接http://localhost:2020/resource/person/1,就可以得到该论文的作者信息,如图6所示。从图中也可以看出,这些元数据信息,有的来自于机构知识库本身,有的来自外部数据源,却相互关联在一起,构成了一个轻量的关联数据网络。
图5 语义化的论文元数据
图6 语义化的作者元数据
笔者将关联数据技术应用于机构知识库,构建了基于关联数据的机构知识库服务模式,并以兰州大学机构知识库的条目数据为例,使用D2R工具将条目数据发布为关联数据,对该模式进行了实现。通过实证研究表明,该模式的实现有助于从根本上扩展机构知识库的资源发现途径,提升机构知识库的服务能力。
参考文献:
[1]刘雪梅,刀克群.基于模糊综合评价法的机构知识库评价模型[J].情报探索,2015(5):22-24.
[2]欧石燕.面向关联数据的语义数字图书馆资源描述与组织框架设计与实现[J].中国图书馆学报,2012(2):58-71.
[3]贺文君.SPARQL联合查询及其应用[D].大连:大连海事大学,2014(6).
[4]刘炜,李大玲,夏翠娟.元数据与知识本体[J].图书馆杂志,2004(6):50-54.
[5]金燕,江闪闪.基于四原则的关联数据发布方法研究[J].图书馆理论与实践,2013(5):77-80.
[6] HebelerJ,etal.SemanticWebProgramming[M].Wiley,2009.
[7]沈志宏,等.关联数据发布流程与关键问题研究——以科技文献、科学数据发布为例[J].中国图书馆学报,2013 (2):53-62.
[8] CyganiakR,BizerC.Pubby:Alinkeddatafrontendfor SPARQLendpoints[EB/OL].[2012-05-10].http://wifo5-03. informatik.uni-mannheim.de/pubby/.
[9]AuerS,DietzoldS,LehmannJ.Triplify-light-weightlinked datapublicationfromrelationaldatabases[C].Proceedingsof the18thInternationalConferenceonWorldWideWeb.New York:ACM,2009:621-630.
[10]张静,马春娥.如何利用D2R发布LinkedData[EB/OL]. [2011-04-20].http://www.ibm.com/developerworks/cn/web/ 1003_zhangjing_d2r/.
刘雪梅女,1987年生。硕士,馆员。研究方向:数字图书馆。
[分类号]G250.7
*本文系兰州大学图书馆2015年科研项目(编号:LZUL[201502])研究成果之一。
收稿日期:(2016-01-19;责编:杨新宽。)