曲佳彬
摘 要:论述了关联数据在知识组织中应用的优势,提出基于关联数据的知识组织模型,并介绍了模型各个层次的工作和内容。根据此模型,设计了以"烟台大学图书馆学术论文"为实例的知识组织系统,验证了模型的可行性、实用性,展示了关联数据作为新技术在知识组织中的应用前景。
关键词:关联数据;知识组织;语义网
传统知识组织在文献信息组织与检索中发挥了巨大的作用,随着计算机技术以及语义网技术的发展,对知识组织的研究将更加深入,如何丰富和拓展知识组织的结构和功能,如何深度序化信息资源的内部属性和特征,无缝的链接相关的信息资源,消除信息孤岛使其富含语义,如何有效的整合、序化异构、动态变化的网络信息资源将成为知识组织研究的热点。关联数据作为轻量级的语义网实现方法,自2006年由Tim Bern
ers-Lee[1]提出以来备受关注,逐渐成为图情界的翘楚,关联数据以通用框架RDF描述信息资源,关注的焦点放在信息本身而不是承载信息的页面或是信息的访问接口,组织的对象直接深入到细粒度级的具有语义信息的实体,为每个信息实体定义唯一的URI,使用RDF链接相关的实体从而构建关联关系,揭示信息间的语义隐含,到达语义揭示的目的。鉴于关联数据的特性以及它在知识组织、信息聚合等方面的突出表现,本文以关联数据为视角,探索知识组织的新方法,通过关联数据的应用实现知识组织的语义化、标准化,以促进知识组织的新发展。
一、关联数据在知识组织中应用的优势
(一)关联数据一种轻量级的语义网实现方法,结构简单适合混搭。关联数据设计的技术主要是统一资源定位符(URI)、超文本传输协议(HTTP)和RDF资源框架。关联技术没有定义特定的实现方式和技术,只是提出了发布的原则和要求,只要遵循四个原则即可[2]:使用URI作为任何事物的标识名称、通过
HTTP协议,任何人都可以访问这一事物、以RDF的形式提供有用的信息、尽可能多的提供相关的URI链接。简单来说就是使用RDF框架描述信息资源,通过HTTP的方式去访问,利用
RDF链接的信息导航到更多的相关信息。
(二)信息之间的语义更加明显,不仅是单纯的知识链接。关联数据本身不会给信息增加任何语义含义,其在底层数据间构建了信息之间的链接,以携带语义的形式展现给用户,通过将目前文档web转化成数据的Web,并在不同的数据间通过
URI建立关联,最终实现信息资源有效整合。
(三)关联数据采用标准化的RDF描述信息资源。RDF是一种用来描述Web上资源的语言,将一个资源描述成一组三元组(主语,谓语,宾语),主语用来表示需要描述的资源,谓语用来表示主语的某个属性或者某个关系,宾语表示了属性的值[3]。主语、谓语都可以用 HTTP URI来表示,其中宾语也可以用 HTTP URI 标识另一个资源。例如:Yantai University(主语)is
located(谓语) in Yantai(宾语)。主体和客体都是一个独立的类资源,都有自己的HTTP URI标示符,通过查看“Yantai Univer
siyt”的描述,还可以链接到客体“Yantai”的具体描述的信息,同时“Yantai”还有自己的属性值可供参引。
二、基于关联数据的知识组织模型
关联数据主要使用URI,HTTP,RDF 等语义网技术来实现,使信息组织更加细化、结构化和语义化,同时能够支持机器理解和处理,另外,其统一的数据模型(RDF)、统一的存取API
(RDF/SPARQL)、统一的HTTP URI标识,为信息对象的整合和组织提供了统一的标准,使得在开发应用的时候可以考虑使用几个平台的混搭。本文设计了一个基于关联数据的知识组织的技术体系,为知识组織提供新的研究方法和思路。
图1 基于关联数据的知识组织层次模型
从图1可以得出,基于关联数据的知识组织框架可以分为底层数据源、语义标引层、RDF数据关联层、信息资源应用层,如下对四个层次进行介绍。
(一)底层数据源的组织。数据源主要包括:来自不同领域的信息资源,可以是图书的出版社、科学出版物的刊号、地名、人名、等具体化的数据资源;同时也可以是早已成型的关系数据库系统中的数据,如:图书馆的图书目录数据库、企业内部资源的数据库、科研机构的知识管理系统。这两者是目前为止比较受欢迎的关联数据底层数据源的组织形式,如果将这些信息源进行整合、组织,以关联数据的形式发布出去将会有惊人的发现。在此笔者将底层数据分为如下三类。(1)易于检索的结构化数据。这类数据主要设计到存储在关系数据库中的结构化数据,已经有了成型的数据模型。(2)分散的异构的网络信息资源。主要指分布在网络上,以html网页的形式表达的、异构的、分散的、形式多样的数据,对这些数据的聚合难度相对来说比较大,要进行充分的分析、预处理。(3)静态的结构化数据。主要包括了CSV、Excel、BibTeX格式的文件,这些文件要通过RD
Fizing等工具转换成为RDF格式的数据,然后存储到RDF数据库中发布。
(二)信息的语义标引。语义标注是使用计算机可理解的属性来描述资源,目前的语义标注中,标注往往是针对特定的应用,不能根据不同数据的特点而灵活变换标注方法,如领域本体只是针对特定的领域内的信息资源来标注、概念化信息资源。进一步而言,标注方法只能标注相互独立的数据信息,涉及到数据之间的相互依赖、相互关联时,往往不能明确的标注这种依赖关系。本文讨论的关联数据采用的是RDF三元组来描述资源,其中包括了“主体”,“谓语”,“客体”,使用规范的词表标注三元组陈述的“谓语”,不仅灵活的描述了信息资源,信息资源间的相互依赖关系清晰的展现了出来。RDF仅仅使用特定命名和值来表达与资源有关的简单声明,很大程度上了限制了用户的使用范围,比如说定义Person类了来描述人,定义Orga
nization类来描述机构等,因此需要扩展更多的词表。DC、
FOAF、OWL、SKOS等规范的词表扩展了RDF/RDFS的描述能力,作为关联数据集和用户之间的桥梁得到了很好的应用,充实饱满的描述了信息资源。
(三) RDF数据关联层。RDF数据关联层是通过数据集内部的URI来实现,一个RDF三元组描述了一个数据对象,这个数据对象的客体或者主体在其他RDF三元组中也有类似的描述或者相依赖的资源,这样就需要构建这两个RDF数据描述间的关联,此中情况只是针对本地数据库中的信息资源。另一个情况扩展其他开放的关联数据集,因为这些数据集之间已经形成了很好的数据链接,研究者只需要获得相关对象的URI就可以链接到他们的数据集,从而把自己的数据集中的相关信息进行扩展。当把开放的数据集作为链接的潜在候选目标时,如下几点应该考虑在内:(1)目标数据集中的主要领域是什么。(2)所链接的数据集中对象的URIs是否稳定、保持不变。(3)目标数据集和它的命名空间是否保持一致、不会随时变化。(4)目标数据集中的RDF links是否和其他关联数据集保持无缝的链接,没有死链接或者空节点。
(四)信息资源应用层。发布为关联数据的资源主要是通过以下方式浏览和检索。(1)关联数据主要是以URI来标识数据对象的,通过HTTP参引可以找到相应的资源RDF描述,通过数据间的RDF链接在这些相关的数据源间导航,获得用户感兴趣的知识。(2)发布后的信息资源以RDF的形式呈现,使得一些基于RDF的浏览器插件成为佼佼者,比如Tabulator
Browser、OpenLink RDF Browser插件在浏览关联数据方面发挥了很大的优势。(3)SPARQL是为RDF开发的一种查询语言和数据获取协议,能够接收客户端的查询请求,可以在关联数据源中像SQL那样查询,并把结果反馈给用户,如Wikipedia、GeoNames、MusicBrainz、DBLP bibliography这些数据集都支持这种SPARQL端点查询访问模式。
三、学术论文特色数据资源的知识组织的实例
(一)学术论文特色知识库的系统结构。为了验证前文提出关联数据在知识组织中的优势及框架的合理性,本文以“烟台大学图书馆学术论文数据库”为背景,构建了基于关联数据的特色知识库,遵循关联数据的基本原则,揭示信息资源之间的内在语义关联。
图2 学术论文知识库系统模型
鉴于学术论文数据库的特点,采用D2R的方式将学位论文数据发布成富含语义的关联数据。D2R Server是一个HTTP Server,支持将关系数据库中的内容发布成为RDF描述形式的关联数据。D2R提供一种可定制的映射文件:D2RQ Mapping 文件,该映射文件将关系数据库的数据转换为虚拟的 RDF 数据进行访问,其中表的名字转换成了映射文件中的类(d2rq:ClassMaps)、表中的列转换成映射文件中的属性(d2rq:Property
Bridges),通过映射文件中这两个类和属性来表示关系数据库中的数据表间的关系以及表内不同属性的关系。在用户在前台请求相关的信息实体时,D2RQ Mapping 文件会映射到关系数据库,将查询结果转换为RDF描述的实体、属性反馈给前台界面。
(二) 学术论文资源的建模。以“烟台大学图书馆学术论文数据库”为主要数据源,对信息进行了预处理,归纳为论文、作者、论文主题、组织机构、论文所属期刊五种实体类型,如下图是它们的关系图。
图3 实体关系图
本文采用SQL Server作为底层数据的存储容器,上述几个实体类分别包含了各自的数据项,在关系数据库建立相应的表存储,如:Papers、Persons、Topic、Department、Periodical表。在后台处理的时候还要考虑数据实体间的关联,Paper表中的作者字段必须和Persons表中的作者字段相关联、Topics表中的论文名称需关联Papers表中的论文名等等。
(三)学术论文特色知识库的实现。实现了底层数据的组织以后,就要采用D2R的方式将SQL Server关系数据库的数据发布成为RDF描述数据,这样才能使关系数据库中的数据富含语义,数据之间形成链接的数据网。其实在通过D2R形式发布关系数据的时候,所形成的D2RQ Mapping映射文件将关系数据虚拟成为RDF格式,在上层浏览、查询的时候通过此映射文件对关系数据库进行操作。
本实例使用的是SQL Server数据库,需要把SQL Server的驱动包放到D2R Server的lib下,在进行浏览、查询的时候才能驱动数据库。然后需要运行生成映射文件的脚本:gener
ate-Mapping [-u username] [-p password] [-d driverclass] [-o out
file.n3] [-b base uri] jdbcURL,參数的意义为:数据库的登录名、数据库登录密码、驱动名称、输出映射文件名、JDBC链接数据库的URL。此脚本运行后生成一个对应关系数据库的映射文件linkeddata.n3文件,用来实现上层关联数据的展示和查询。
其D2RQ Mapping是基于RDFS和OWL进行描述的,自动生成的与关系数据的映射文件显得简单、粗糙。表之间的约束关系、关联关系没有形成很好的链接,谓词的也是默认的表中列的值,在表达语义方面显得苍白无力,与外部数据源间的链接也需要用词表来描述。如下
实例中用到的部分词表有dc:title表示论文的题目,dc:data论文发表的日期,dc:author论文的作者,dc:Description对论文的描述,foaf:person说明这个类是用来描述人的,foaf:knows描述与此人有关系的人, skos:PrimaySubject描述该文献的主题,
vcard:locality描述机构的位置。这些规范词表的使用规范了对数据的描述,更容易让人明白要表达的关系,另外采用规范的词表来描述,使机器也能很好的识别,关联数据的共享和重复利用变得更加容易。
(四)结果分析。本实例经过D2R发布后的关系数据库,使得信息资源使用RDF描述,并且富含语义,能比较好的展示数据之间的语义关联。linked data技术在知识组织中的运用,使得用户可以通过HTML浏览关联数据,还可以通过SPARQL语言实现对关联数据的查询。Linked data不仅可以整合内部相关的信息,使其深度序化,还实现了与外部相关数据的关联,对分布式异构的网络资源的整合提出了很好的解决办法。准备好数据后在D2R的路径下启动服务器,运行命令d2r-server linked
data.n3,在浏览器中输入:http://127.0.0.1:2020/,即可进行关联数据的浏览。以一个作者的数据为例,如下图4所示。关联数据化后的作者元数据的属性和实体都是比较灵活的,都有与之相关的URI导航到作者的所属部门、发表的其他论文、合作者等等相关的信息。
图4 关联数据化的作者详细信息
其中http://localhost:2020/data/persons/1是实体的唯一
URI,分别用实体和属性来描述实体的,点击图4中属性dc:cre
ator,可以导航到作者发表论文的描述。
图 5 关联数据化的论文信息
SPARQL是W3C的RDF数据工作组设计的一种查询语言和协议,用于RDF数据的查询。本实例也支持基于
SPARQL检索。图6中检索的内容是:在烟台大学图书馆2000年以后发表的学术论文。
图6 基于SPARQL语言的查询界面
结论:本文利用关联数据对烟台大学图书馆学术论文数据库再组织,实现了关联数据的html导航浏览、SPARQL检索服务。深层次的序化了学术论文的关联关系,发掘学术论文中隐含的语义信息,比如说学术论文所属作者的合作关系、学术论文主题相关性、作者所属部门的关联等等,无缝的链接相关的信息资源,消除信息孤岛使其富含语义,以知识链的形式呈现。
关联数据一种轻量级的语义网实现方法,结构简单适合混搭,没有定义特定的实现方式和技术,只是提出了发布的原则和要求,因此可以不受技术的限制,定制化自己的实现平台,其强调语义关联、数据网络,无疑将成为未来信息聚合、知识呈现的佼佼者。关联数据的发展带来了语义网的普及,基于 RDF形式存在的数据也会不断增多,如何消费关聯数据、如何使用
SPARQL语言进行语义发现将会成为研究热点。
参考文献:
[1] 刘炜. 关联数据:概念、技术及应用展望[J]. 大学图书馆学报,2011(02):05-12.
[2]夏翠娟. 关联数据的发布技术及其实现——以Drupal 为例[J].中国图书馆学报,2012(01):049-057.
[3] RDF Vocabulary Description Language 1.0:RDF Schema[EB/OL].[2012-06-09].