基于关联数据的书目数据语义化框架设计与实现

2014-12-25 02:15
图书馆 2014年2期
关键词:关系数据库书目关联

(武汉大学信息管理学院 湖北武汉 430072)

1 书目数据语义化与关联数据

书目数据语义化是指基于规范的概念模型,显性地、以机器可读的方式表达书目实体及其属性特征和关联关系,序化书目实体之间和属性之间的关系,并提供基于语义关系的、统一的存取方式。〔1〕目前,书目数据的主要功能仍然局限于为用户查找相关信息,机器无法理解这些书目数据。并且,传统书目数据的组织是基于MARC的一维、线性的组织方式,只提供元数据描述,以某一属性特征作为索引点和检索点,不区分信息对象的实体层次和相互的关联关系,书目数据的语义化程度较低,〔2〕主要表现在以下几个方面:第一,书目记录内部隐藏着大量有价值、高质量的数据,如个人名称、主题、地点等,它们没有独立的标识,也缺乏结构化的描述,没有得到充分揭示、重用。第二,书目数据是封闭的,没有实现与外部信息或数据的融合。第三,虽然部分图书馆OPAC系统提供了按语种、载体形态、年代、主题等集中同一信息对象,基于书目层次关系的浏览与检索,但没能区分实体层次及其关系,也没有揭示实体层次之间各种衍生和变化关系,缺乏形式化的语义信息表达手段。

2006年,Tim Berners-Lee在万维网体系架构笔记《关联数据笔记》中提出了关联数据这一概念,它要求采用RDF数据模型组织资源,利用URI命名数据实体,发布和部署实例数据和类数据,通过HTTP协议揭示并获取这些数据,同时它强调数据的相互关联和有益于人机理解的语境信息。〔3〕关联数据在实现书目数据语义化中具有以下两个方面的优势:第一,URI标识与复用。关联数据利用URI标识不同的实体对象,可以是责任者、出版者、主题、评论等,使书目数据的颗粒化程度更加细化、结构化和语义化,并可以跨领域的得到更广泛的参引。第二,RDF链接机制。关联数据采用RDF模型即“资源-属性-属性值”的形式表达书目实体及其间的关系,通过RDF链接,不仅实现了书目实体之间和属性之间的关系显性化和语义化,而且扩展了书目数据的信息,为用户提供超越图书馆的资源和访问服务。本研究的目的是构建一个基于关联数据的书目数据语义化框架,并以武汉大学图书馆一定数量的书目数据为例,采用选定的技术和工具对该框架进行实现。

2 基于关联数据的书目数据语义化框架的构建

笔者提出了一个基于关联数据的层次化的书目数据语义化框架,将书目数据的描述、组织、发布和应用划分为四个层次(见图1)。该框架基于概念模型对图书馆的书目数据进行语义化描述与组织,采用关联数据原则〔4〕发布数据,提供统一存取方式,实现了书目数据的关联化和语义化。

图1 基于关联数据的书目数据语义化框架

2.1 数据层

数据层分为本地数据源和外部数据源两大部分。本地数据源主要指图书馆书目记录。每条记录中包含着几百个字段,揭示了书目信息的各个方面。本研究抽取记录中能够反映文献内容并与其它记录区分的字段,如题名、ISBN、责任者等,书目数据中没有描述各个字段的详细信息。外部数据源可以提供如责任者、主题、评论等的详细信息。本研究通过手工抽取Wiki、百度百科等网站中的相关数据并结构化处理,实现与书目数据的关联。

2.2 语义聚合层

数据层中抽取的数据语义缺乏明确的、形式化的定义,机器无法直接进行理解和处理,需要在数据的基础上构建某种机制,实现其关联化和语义化,这就是语义聚合层的作用。概念模型是将图书馆资源描述与组织以文献为中心转向以概念/对象为中心的实体分层思路,本体、书目记录的功能需求(Functional Requirements for Bibliographic Records,简称FRBR)模型〔5〕等遵循面向对象方法,是面向图书馆资源的概念框架。1997年IFLA提出了应用实体-关系模型来构建概念框架的FRBR模型,它将书目记录涉及的实体分为三组:作品及其各类物化实体(作品-表达-表现-单件)、与文献生产、发行、收藏以及流通有关的人或团体(个人、家族和机构团体)和主题类实体(概念、实体、事件、地点等)。FRBR以作品、内容表达、载体表现逐层聚集书目,将文献形态进行分面分类,打破了传统书目记录概念的平面性和单一性,揭示出同一作品不同实体之间的关系以及不同作品实体之间的关系。

2.3 数据关联层

2.4 应用层

在应用层可以实现对关联数据的统一浏览和检索以及其他的应用和服务。既可以通过Web浏览器实现HTML网页浏览与导航,也可以利用关联数据浏览器,如Tabulator、Marble等,通过RDF链接在数据源之间进行浏览。通过SPARQL端点可以实现动态分面查询和语义关系查询,也可以利用对象之间和属性之间的关系实现复杂智能查询。另外,关联化的书目数据成为数据网络的一部分,可以向其他的应用提供数据服务,也可以在关联数据之上构建新的Web应用。

3 基于关联数据的书目数据语义化的实现

本实验的实验平台如表1所示。选取武汉大学图书馆有关的书目,并从Wiki、百度百科、豆瓣中抽取责任者、评论等相关详细信息。然后按照FRBR模型划分书目层次,提取实体之间、实体与属性之间的语义关系,并利用SQL Server构建书目数据的关系数据库(注:命名为Bibliography)及相关数据表。最后利用开源软件D2R将关系数据库中的数据发布为关联数据,并提供HTML、RDF及SPARQL等方式访问。

表1 实验的操作环境和工具

3.1 基于FRBR的数据资源聚合与关系数据库的建立

3.1.1 数据的抽取

在武汉大学图书馆OPAC系统中检索《安徒生童话》的书目数据,选取不同版本的10条记录。抽取记录中的数据主要包括题名、ISBN、责任者、出版者、摘要、主题等。从豆瓣、Wiki和百度百科中抽取书评和责任者包括代表作、出生与死亡日期等的相关详细信息。

3.1.2 基于FRBR的数据资源聚合

参照FRBR概念模型聚合抽取的书目数据相关信息,以作品为中心,为每一个作品建立一条主干记录和分支记录,分支记录主要揭示同一作品的不同内容表达和载体表现等内容,从而形成立体的、网状的书目数据。根据上文中抽取的书目信息,应用FRBR概念模型形成了 Aggregate Work、Single Work、Author三个实体,这些实体分别对应为数据库中的各个数据表,实体的属性对应为表中的各列,实体之间的关系即为表间关系。

3.1.3 关系数据库的创建

正如闺蜜所说,男人一旦有了出息,就算自己不出去寻花觅柳,一些莺莺燕燕的诱惑也会主动找上门来,防不胜防。

启动SQL Server 2005,建立Bibliography数据库。在Bibliography数据库中依次建立Aggregate Work表、Single Work表、Author表,分别为 Aggregate Work(Work_ID,Title,Subject)、Single Work(SWork_ID,Title,ISBN,IS_Part_of,Author,Translator,Publisher,Date_of_Publish,Language,Abstract,Subject,Comment,CLC)、Author(Author_ID,Name,Sex,nationality,Date_of_Birth,Place_of_Birth,Date_of_Death,Place_of_Death,Masterpiece1,Masterpiece2,Masterpiece3)。分别为各个表设置相应的主键和外键。

3.2 基于D2R的数据语义映射、转换与关联的构建

3.2.1 D2R的结构及其语义映射机制

D2R是一个将关系型数据库发布为关联数据的开源软件,支持将主流关系型数据库如 Microsoft SQL Server、Microsoft Access、MySQL、Oracle等中的数据发布为关联数据。目前使用D2R进行关联数据发布的应用有:Berlin DBLP Bibliography Server、Hannover DBLP Bibliography Server 等。〔7〕D2R Server的体系结构〔8〕如图2所示。

图2 D2R的体系结构图

D2R主要包括以下三个部分:D2R服务器(D2R Server),是一个HTTP Server,其主要功能是提供查询RDF数据的访问接口,以供上层的RDF浏览器、SPARQL查询客户端以及传统的HTML浏览器调用。D2RQ引擎(D2RQ Engine),主要功能是使用可定制的D2RQ Mapping文件将关系型数据库中的数据换成RDF格式。D2RQ映射语言(D2RQ Mapping Language),主要功能是定义将关系型数据转换成RDF格式的映射规则。

将关系型数据库的二维组织模式转换为RDF三元组的表达,其中包括数据结构、约束条件转换为本体的概念语义和规则语义,需要构建关系型数据库模式与RDF的Schema的映射。D2R语义模式映射机制主要是构建映射规则,生成映射文件,基于映射文件实现模式的转换。映射文件的作用是在访问关系型数据库是将RDF数据查询语言SPARQL转换为关系数据库的SQL查询,并将查询结果转换为RDF三元组。〔9〕

3.2.2 基于映射文件的关系数据库语义模式转换

D2R Server提供基于映射文件将关系数据库发布为RDF三元组的机制,在本实验中,是通过执行D2R生成映射文件的执行脚本-generate.bat来实现。具体的编码如下:

其中,-u表示数据库用户名;-p是数据库的登录密码;-d是数据库的驱动类名称,不同数据库驱动格式不同,本实验是以SQL Server为例;-o是输出的映射文件名称;最后一个参数设置了所映射的SQL Server数据库的路径和名称。

通过运行该脚本,生成映射文件Bib.n3。基于该映射文件,可以实现关联数据的浏览与查询服务。本实验中生成的映射文件Bib.n3如下(截取文件中部分代码):

其中,d2rq:ClassMap代表OWL Ontology或者是 RDFS Schema中的一个或一组相似的类,它与关系数据库中的一个数据表相映射,〔10〕包括 d2rq:UriPattern、d2rq:Class 等属性。d2rq:UriPattern用来指导生成实例化资源的真实URI,由关系数据库表名和对应的主键组成。d2rq:Class表示该d2rq:ClassMap所对应的实体类,其取值可以来自OWL Ontology或者是RDFS Schema,也可以自定义新的类。d2rq:Property-Bridge表示OWL Ontology或者是RDFS Schema中类的属性,与关系数据库中数据表的某一列相映射。

3.2.3 构建与外部数据集的关联

关系数据库中的书目数据与外部资源之间存在着一些联系,在将其转换为关联数据的过程中,需要对这些关系进行创建和关联。映射文件仅显示数据间基于主键和外键引用的关系,没有表现出数据间存在更为丰富和复杂的关系,可以手动修改映射文件,以展现数据资源之间更为丰富的语义关系。

在D2RQ中可以通过类映射的d2rq:constantValue,为某个资源的属性关联一个常量,实现与某些常量的关联。例如,在本实验中,为Author表增加一个DBpedia的作者概念的参见,编码如下:

图3 D2R的服务首页

3.3 关联数据的发布与访问

在D2R的DOS路径下,执行D2R-Server.bat脚本,运行生成的映射文件Bib.n3,启动关联数据发布服务。在浏览器中输入访问地址http://localhost:2020,显示出D2R的运行入口界面(如图3),图中显示出发布的具有语义关联的书目数据资源,提供了HTML浏览、RDF浏览和SPARQL端点查询3类服务入口。

图4 聚合各个作品的关联数据发布图

进入HTML View,可以看到3个数据表分别映射为不同的实体类。进入Aggregate Work类中,可以看到其所关联的具体作品资源,即Single Work类中的10个作品(如图4),体现出FRBR作品聚合的特点。可以单击各个作品,进一步浏览其属性特征。

在Author类中,可以看到 Author数据表中各个列如Country、Work等被映射为资源的属性特征(如图5),其中Name和Country的属性值通过 http://depedia.org/resource/Anderson Hans Christian 和 http://depedia.org/resource/Denmark实现了与外部数据集DBpedia的链接。

图5 Author类的详细信息

4 总结与展望

本文尝试了将关联数据应用于书目数据以解决传统书目数据语义化程度低的问题,并提出了一个基于关联数据的书目数据语义化框架。该框架具有4个层次,数据层、语义聚合层、数据关联层、应用层,其核心是书目数据的语义化和关联化的构建。最后,以武汉大学图书馆一定数量的书目数据为例,使用开源软件D2R对该框架进行了实现。但本研究中仍然存在着一定的缺陷,即书目记录中有价值的数据和外部数据的抽取及与其他数据集关联采用的是手工方式,若进行大规模的数据抽取和关联则需要一定的技术和算法支持。

关联数据的一致化语义描述方法(RDFS/OWL)和统一存取机制(SPARQL)对书目数据语义化与关联化提供了一种轻量级的实现方式。2011年,巴斯大学UKOLN研究组开展了“关联开放 Copac Archives Hub项目”〔12〕,力图探索书目资源内容间的语义关联。英国剑桥大学实施了“开放书目项目”〔13〕,研究基于现有语义工具、标准提交书目元数据语料库作为开放关联数据。随着关联书目数据理论研究与实践活动的不断深入,相信书目数据将以语义化、关联化的形式为用户提供各种应用和服务。

1.Martin M.Making a library catalogue part of the semantic web.In:Proceeding of the 2008 International Conference on Dublin Core and Metadata Applications.2008:146-152

2.白海燕,乔晓东.基于本体和关联数据的书目组织语义化研究.现代图书情报技术,2010(9):18-27

3.Linked Data.〔2013-04-23〕.http://linkeddata.org/

4.Linked Data.〔2013-04-24〕.http://www.w3.org/DesignIssues/LinkedData.html

5.国际图联书目记录的功能需求研究组著.王绍平等译.书目记录的功能需求最终报告.德国慕尼黑:绍尔出版社,1998:14-54

6.夏翠娟等.关联数据发布技术及其实现-以Drupal为例.中国图书馆学报,2012(1):49-57

7.RDF Vocabulary Description Language 1.0:RDF Schema.〔2013-04-27〕.http://www.w3.org/TR/rdf-schema/

8.The D2RQ Platform.〔2013-05-04〕.http://d2rq.org/

9.Christian B,Richard C.D2R Server-Publishing Relational Databases on the Semantic Web.In:Poster at the 5th International Semantic Web Conference,2006

10.The D2RQ Mapping Language.〔2013-05-04〕.http://d2rq.org/d2rq-language

11.白海燕,梁冰.利用D2R实现关系数据库与关联数据的语义模式映射.现代图书情报技术,2011(Z1):1-7

12.Linked Open Copac Archives Hub.〔2013-05-05〕.http://www.jisc.ac.uk/whatwedo/programmes/inf11/jiscexpo/locah.aspx

13.Open Bibliography.〔2013-05-05〕.http://www.jisc.ac.uk/whatwedo/programmes/inf11/jiscexpo/jiscopenbib.aspx

猜你喜欢
关系数据库书目关联
关系数据库在高炉数据采集系统中的应用
推荐书目《初春之城》
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
关系数据库技术在计算机网络设计中的应用
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
探讨关系数据库设计中范式理论的教学方法
本刊邮购书目
《全国新书目》2009年1月荐书榜