贺令辉
(中山大学图书馆,广东 广州 510275)
随着语义网的发展,关联数据近年来受到政府、新闻媒体、公司、学术界等领域的广泛关注。《纽约时报》从2009年开始以关联开放数据(LOD)的形式发布包括人物(People)、组织机构(Organizations)、地点(Locations)、主题描述(Subject Descriptors)的新闻词汇的信息,这些数据分别以RDF文档和Web页面发布,用户可以在网站上下载或按照首字母浏览。上海图书馆学会通过举办“2010图书馆前沿技术论坛:关联数据与书目数据的未来”学术会议,商讨图书馆如何将书目数据转换为关联数据。武汉大学信息管理学院邀请美国肯特州立大学图书情报学院教授曾蕾在该院作了题为 “关联数据的发展以及图书馆和信息知识服务的前景”的报告,介绍了图书馆和信息服务领域关联数据的应用。关联数据促进了数据的大规模集成,并支持机器处理富含语义的数据,从而提高了用户信息获取的全面性和准确性。本文在分析国外图书馆应用关联数据现状的基础上,探讨了高校图书馆基于关联数据的知识服务策略,旨在推动我国图书馆界积极投入关联数据的开发应用中,以促进图书馆服务水平的提高。
关联数据是一种万维网上发布数据的方式,是W3C推荐用来发布和联接各类数据、信息和知识的一种规范。关联数据采用RDF(资源描述框架)数据模型,利用URI(统一资源标识符)命名数据实体,并在网络上发布,从而可以通过HTTP协议揭示并获取这些数据。关联数据的功能主要体现在两个方面:(1)数据整合,即通过关联数据将各种数据源无缝地关联起来,成为一个广域分布的数据库;(2)数据发现或挖掘,关联数据对关系形式化描述,形成一张关系地图,使得机器可以通过理解和处理数据之间的各种关系,发现新的数据。万维网上存在着大量非结构化数据和采用不同标准的结构化数据,关联数据是一种简单的语义网实现技术,其重要价值在于通过RDF数据模型,将网络上的非结构化数据和采用不同标准的结构化数据转换成遵循统一标准的结构化数据,以便机器理解。高校图书馆可利用RDF数据模型在万维网上发布结构化数据,利用RDF链接不同数据源的数据,加强网络资源整合,面向用户开展知识服务。
自从2006年蒂姆·伯纳斯·李(Tim Berners-Lee)在《关联数据构建笔记》一文中提出关联数据概念以来,国际图书馆界纷纷开展了相关的研究。2010年5月28日,W3C成立了图书馆关联数据孵化小组,该小组由来自图书馆、博物馆、档案馆、出版业等相关领域的关联数据技术专家组成,关注关联数据技术及其应用,帮助图书馆将有价值的数据(如书目数据、规范文档等)发布到互联网中,实现同其他机构数据之间的互操作,以带动更多的图书馆及相关领域的人参与语义网活动。目前,W3C已完成收集和编写近50多个案例,几乎涵盖图书馆行业数据,内容涉及规范控制、词表发布、书目数据、参考引文、档案和异构数据、资源集合等。美国国会图书馆以简单知识组织系统(SKOS)格式将国会标题表(LCSH)全部关联数据化,并且提供LCSH词表的下载。瑞典国家图书馆早在2008年便将瑞典联合目录(LIBRIS)发布为关联数据,为图书馆、博物馆和档案馆提供在线编目服务,并创建了与LCSH和维基百科(Wikipedia)等的相关链接。LIBRIS是世界第一个将书目数据发布成关联数据的联合目录。匈牙利国家图书馆(National Széchényi Library,NSZL)将其OPAC、数字图书馆以及相应官方数据采用HTML和RDF两种方式进行表示,并用CoolURI命名发布为关联数据。英国图书馆将英国国家书目从MARC21格式转换为关联数据的RDF/XML格式,截至2011年7月,英国图书馆已将约49万国家书目数据从MARC21格式转换为关联数据的RDF/XML格式。这一转换既能发挥MARC格式的传统功能又能发挥关联数据的优势,为图书馆提供新的服务集成数据。这些国家图书馆将图书馆资源发布为关联数据,并利用关联数据实现数据融合,实现了知识单元的有序组织、集成和关联,深层展示了知识内容的关联,为用户提供多层次的知识关联集成服务。
关联数据为图书馆提供了知识资源之间的链接,使发现和共享网络中不同类型的知识资源成为可能。目前,关联数据在图书馆界的应用主要集中在书目数据领域,将书目数据和规范数据以关联数据的形式进行发布。高校图书馆可利用人员和技术优势,将图书馆资源发布为关联数据,进行跨网域的数据整合,扩展图书馆资源,为用户提供知识服务。
构建和发布关联数据是高校图书馆开展基于关联数据知识服务的基础。关联数据通过URI、HTTP、RDF等语义网技术将网络上相关的数据资源进行关联,其最主要的特点是为不同数据集中的同一个实体对象建立关联关系,并支持利用这种关系实现对相关信息对象的发现、识别以及融汇服务的提供。首先,图书馆应依据关联规则创建关联数据,用规范形式描述内容对象的内部结构、描述内容的语义(如作者、书名、出版社、内含数据集和图表等),描述结果是依据元数据格式转换的RDF关联记录。其次,构建关联数据的关联关系。图书馆收藏了大量同构数据和异构数据,对于同构数据,可通过分析数据对象实例的属性值和语境相似度来发现并建立关联关系,如应用字符相似度算法、字符串相似度算法、基于字典相似度算法等属性值相似算法和基本算法聚合、分类模型等组合方法来判断两个对象实例是否等同。对于异构数据,关联关系创建的基本策略是建立异构数据之间的架构映射,然后运用同构方法创建对象实例间的关联,如采取基于图相似度的映射和基于实体的文本映射方法建立关联数据。最后,发布关联数据。从技术角度分析,发布关联数据并不复杂。利用RDF数据模型在万维网上发布结构化数据,利用RDF链接不同数据源的数据。如对于储存在关系型数据库里的数据,可用D2R Server将数据转换成RDF格式,并发布到网上。把图书馆的关联数据集通过RDF links与网上其他数据集相连,使浏览器或搜索器能搜索和浏览图书馆发布的数据。对馆藏资源建立关联数据,揭示文章之间的学术关联性,帮助研究者尽快找到最需要的期刊、文章等学术资源,是高校图书馆建立关联数据的首要任务。
知识资源整合为高校图书馆开展知识服务提供了丰富的资源保障。目前,图书馆一般对网页层面的信息进行简单整合,关联数据的出现改变了传统的信息聚合方法,关联数据技术提供了一种灵活且易实现的聚合方法。首先,高校图书馆应对“内部的数据”关联起来,将图书馆管理系统、检索平台、参考咨询系统的数据进行关联,使图书馆能及时了解读者需求。其次,整合图书馆内部和外部的资源。在关联开放数据(LOD)项目的推动下,目前有超过130亿条传统网页上的数据例如维基百科、地理数据集和政府数据集等,已经转换成了关联数据。图书馆可根据关联数据的基本原理和关联数据驱动的Web应用框架,将关联数据进行整合。通过超链接的方式,读者通过点击相关按钮关联到文章全文或其他扩展服务。
在对关联数据整合的基础上,高校图书馆可以利用关联数据向读者推荐最新的学术资源。如向读者推荐最新图书、最新学术动态。如图1所示,图书馆将学术资源进行开发和数据提炼,建立图书馆推荐资源知识库,通过关联规则和数据挖掘,建立关联规则知识库,利用Web服务器,向用户推荐关联学术资源。该推荐系统主要由三大模块来实现其功能,每一个模块都有自己独立的功能,其中最主要的模块是关联规则之数据挖掘模块,它是整个图书馆学术资源推荐系统框架的核心部分。
图1 基于关联数据的图书馆学术资源推荐系统框架图
英国学者马克斯·H·博伊索特认为,知识是创造财富的资产,是从数据中提取信息为基础建立起来的一种能力;知识被结构化和被分享的程度构成一种文化。关联数据在数据层建立了富链接机制,较完善地描述了数据的结构信息。关联数据的推出,为图书馆网络信息服务带来了良好的机遇。随着关联数据规模的不断扩展,高校图书馆可整合企业、档案馆、博物馆、科研单位和政府发布的关联数据,以更优质的资源、便捷的服务手段为用户开展知识服务。
[1]王薇,欧石燕.关联数据在图书馆领域的应用研究[J].新世纪图书馆,2012(9):25-28.
[2]管进.基于关联数据的图书馆知识服务策略研究[J].图书馆理论与实践,2012(6):9-11.
[3]刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011(2):5-12.
[4]黄永文,岳笑.刘建华.关联数据应用的体系框架及构建关联数据应用的建议[J].现代图书情报技术,2011(9):7-13.
[5]郑燃,唐义,戴艳清.基于关联数据的图书馆、档案馆和博物馆数字资源整合研究[J].图书与情报,2012(1):71-76.