基于元模型的数字资源整合方法的研究与实现

2011-11-17 01:25单永刚
现代情报 2011年6期
关键词:元数据属性数字资源

〔摘要〕元模型思想在数字资源整合方面有着独到的作用,文章在分析常用资源整合方法的基础上,提出了基于元模型的数字资源整合方法。并结合实例,阐述了该方法的设计原理、建模过程和实际应用,最后对它做了评价。

〔关键词〕数字资源;元模型;元数据;属性;RDB;RDF/XML

收稿日期:2011-04-02

作者简介:单永刚(1979-),男,工程师,硕士,研究方向:数字图书馆技术、计算机软件技术,发表论文数篇。

DOI:10.3969/j.issn.1008-0821.2011.06.021

〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-0821(2011)06-0076-04

Research and Realization of a Method of Digital

Resources Integration Based on Metamodel

Shan Yonggang

(Library,Zhejiang Radio & TV University,Hangzhou 310012,China)

〔Abstract〕Meta-moder-thought plays a unique role in digital resource integration,the paper put forward a method of digital resources integration based on the meta-model after analysing general methods.The paper expounds the design principle,the modeling process and the practical application,and evaluations of the method.

〔Key words〕digital resource;meta-model;metadata;property;RDB;RDF/XML

现代数字图书馆应具备立体式的资源体系,它们包含着各种不同学科、不同对象、不同表现格式以及不同支撑平台的资源群,这些资源之间固有的异构特性严重影响了数字图书馆资源服务和管理的整体性。而高效地实现统一检索、统一管理是数字图书馆建设者们不断追求的目标,资源整合正是实现该目标的关键过程,当前用得最普遍的整合技术有两种:一种是基于中间件技术的整合,通过技术处理,在表现层实现整合,称之为虚拟法整合,另一种方式是基于元数据技术的整合,通过对各资源元数据的二次开发,把它们整合到一起,在数据层实现整合,即为实体法整合。

基于元模型的数字资源整合方法正是一种实体法整合,该方法引入了元模型设计思想,在系统中建立一套符合资源著录标准的元数据定义格式,并将资源属性(或原始数据字段)与预设元数据模型一一映射,从而实现异构资源的整合。这种方法特别重视过程积累,新建的元模型和元数据模型作为资源建设的一种过程资产,可被引用于其它资源元数据模型的建立,进而提高资源体系元数据格式的规范性。

1 数字资源元模型的设计原理

元数据的应用十分广泛,本文所提到的元数据仅限于数字资源描述和管理的范畴,元数据作为数字资源的语义基础,决定着数字图书馆资源组织和利用方式,规范的资源元数据模型是实现资源互操作性和开放性的必要条件。

适应数字资源多元化、多层次描述需求,一般将数字资源描述体系分4个层次[1]:

①对象层(data):也叫数据层,这里的“数据”是指数字资源本身,如:1本数字图书、1个视频课件等;

②元数据层(metadata):描述资源的数据叫元数据,它处于资源描述的元数据层,也称为元数据模型层,模型即准对某个资源特定的元数据模式,如电子图书元数据模型包括书名、分类号、主题等元素;

③元模型层(meta-metadata):描述元数据的数据即为元元数据,它处于资源描述的元模型层,这一层是元数据模型的元素来源,它的产生补充了对元数据描述和编辑的空缺,增强了元数据的灵活性和可操作性;

④元元模型层(meta-meta model):描述元元数据的数据即处于资源描述的元元模型层,这一层用来定义元模型层。

图1 资源描述模型层次图

这4个层次是相互迭代的关系,如图1中某资源的元数据模型{A1,B1,C1,D1}取自某类资源的元模型{A2,B2,C2,D2},其中A2为元数据名,B2、C2、D2等是对该元数据属性的描述,如:语义解释、取值范围、是否可控等等。元数据模型的元素一般取自同类资源的元模型,但也可以根据需要取自异类资源的元模型。在提取元数据元素时,应遵循“按需提取”的原则,只提取用得到的那部分元素即可,如:图1中元数据模型{A1,B1,C1,D1},并没有提取元模型{A2,B2,C2,D2}中的元素E1,因为该资源不需要E1元素来参与描述。元模型与元元模型之间的描述关系同理。

元模型的元素与语义没有必然联系,只有当特定资源的元数据模型确定时,元数据模型中的元素才有了确定的语义,例如对元模型中的“title”而言并不能确定它能描述什么,只有将title提取到论文资源元数据模型时才能确定它表示“论文标题”。

2 数字资源描述模型的建立

2.1 资源属性的分析

确切地说,元数据描述的对象应是资源的属性,所以在确定资源的元数据模型之前,必须进行资源属性分析。资源属性包括3个方面:①描述性属性:描述对象固有属性或知识内容的信息,如marc编目记录;②管理性属性:描述资源的外部属性,包括技术性的描述和保存性的描述,如:扫描信息、存储格式等;③结构性属性:描述资源的物理结构,以把资源按特定逻辑单元关联起来,如:导航信息索引号。3类属性性没有严格的界限,甚至存在很大的交集,在分析过程中可相互参考、相互引用。

图2 电子试题资源E-R分析图

描述性属性主要通过对资源相关的活动实体的分析来获得,主要方法就是E-R(Entity Relationship)分析法,这种分析法以菱形表示活动(关系)、方形表示实体、圆形表示属性。如对试题资源的分析过程如下:一般来说,与试题相关的活动是考试,而参与考试的实体除了试题外,还应有考生和试卷,据此分析,可以画出以考试为关系中心的E-R图(图2)。图中列出了3个实体的主要描述属性,而试题是关系图中粒度最小的实体(资源),所以除本身的属性外,试题还可以继承试卷和考生的属性,即图2中的所有属性都可以是试题的描述属性。

管理性属性,在技术设计阶段获取,除了要参考描述性元数据之外,主要考虑资源相关的技术参数和存储参数,试题资源的管理属性有载体、入库日期、录入者、保密级别、占用空间、交互度等。

结构性属性,在资源设计阶段获取,除了要参考描述性元数据之外,还应该考虑到资源在数字图书馆中的横向联系,试题资源的结构性属性有结构属性包括学科导航、时间导航、关键词等。

以上属性是确定资源元数据的原始依据,它们附上相应的描述就成为资源的元数据。

2.2 资源元数据建模

元模型是元数据规范的集合或者说是元数据的命名域(namespace),它把各种不同的元数据按多种方式进行分类,如按媒体格式(视频、音频、文档)、资源类型(试卷类、课件类),它也包括了现成的元数据参考模型,如数字图书元数据模型、课件元数据模型。整个元模型的内容是可编辑的,如建立新的元数据参考模型、建立新的元数据实体等。

元数据应用纲要(application profiles)模型的建设思想是:为需要描述资源对象的元素(属性),在现有的一种或多种元数据规范中选取对应的元数据实体,如果找不到相应的元数据实体,则需要新增命名域元数据或自定义命名域,即为新元素定义新的语义[2]。这一思想阐明了元数据模型建立的思考步骤,即首先考虑元模型中是否有现有的元数据模型或实体可以套用;其次是考虑是否可以引用元模型中其它元数据模型或实体的部分元素;最后考虑是否进行元素的自定义,向元模型增加新的元数据实体,自定义元素不能局限于某资源的应用,要立足于整个数字资源体系建设的高度,充分考虑其语义的兼容性,如DC元数据规范中的“title”元素,就可以用于多种不同的资源描述。

元数据模型元素取用范围因以属性分析结果为主要参考,如:从试题属性分析结果(图2)来看,试题资源元数据模型的实体来源至少应包括DC元数据模型、试卷元数据模型、考生元数据模型,当然也可能需要自定义元数据实体。元数据模型应包括5个主要属性:①元素名:资源属性,规定元数据语义;②限定词:对元素语义的补充说明,起修饰作用;③标签:用于RDF/XML记录格式的元数据;④英文标识:语义的英文解释,一般还用作关系数据库的字段名;⑤元素来源:元素的来源。

3 资源元数据的存储与获取

3.1 存储方式

资源元数据有两种存储方式:

一种方式是RDF/XML,是基于XML语法的RDF模型,其中XML用来描述数据的结构,RDF用来提供数据的语义。RDF作为一个元数据的描述方式,依赖XML来编码和传送元数据[3]。但是XML缺少作为实用的数据库所应具备的特性,如它的存储效率极低,无法进行高效的数据索引,有没安全机制,无法和具体事务进行数据的实时交互。

另一种方式是关系数据库(RDB),它具有高效的存储、索引和数据修改机制,严格的数据安全控制,完整的事务和数据一致性控制,多用户访问机制,完善的并发控制等优点。但是,关系数据库的语义描述能力差,大多通过技术文档表示,数据本身很难实现数据语义的持久性与传递性。

不难发现,这两种存储方式在功能上是互补的,元数据的获取、转存、取舍、编辑等操作都需要用到该两种存储方式的优势功能,因此它们之间的转换操作是资源获取的最基本、最重要的操作:

3.1.1 RDB向RDF/XML转换

从RDB中导出XML,RDB的每张表对应一个XML元素,元素名为表名,将一条记录映射为表元素的一个子元素,再将记录中的各个字段映射为记录元素的子元素。具体实现方法为:从关系数据库中将资源元数据读出,再以定制的格式将其输出到(或另存为)文本文件即可,以下是一段动态网页脚本代码,把英语试题(表TestzEnglish)映射为RDF/XML元数据格式。

此外,R2RML(RDB to RDF Mapping Language)技术[4]是从RDB向RDF映射的新技术,目前尚处于试验阶段,它被认为将能实现很多不同种类型的映射,如为已经建立RDF映射的关系数据库提供虚拟的SPARQL(类似SQL,用来查询RDF的语句)端点,或生成RDF转储数据,或完成连接的数据接口。

3.1.2 RDF/XML向RDB转换

跟纸本图书的CNMARC一样,RDF/XML文档是资源描述信息的传播者和保存者,将数字资源元数据置标格式(RDF/XML)导入到RDB正是体现其互操作性价值的关键步骤。

图3 电子试题XML元数据结构图

图3是电子试题XML元数据的结构树,Tests的每一个孩子是不同主题的试题数据库,每一棵子树都有同样的结构,例如:以TestzEnglish为根的子树是英语类试题的元数据结构。将TestzEnglish的XML元数据文档映射到关系数据库的步骤如下:首先为RDB建立一个TestzEnglish主表,然后对TestzEnglish子数从树根向树叶遍历,凡是TestzEnglish的树叶都是试题元数据模型的元素即关系数据表的字段,凡是非根非叶的成员都需要新建数据表,它的树叶就是新建表的字段,它的关键字必须要成为TestzEnglish表的外部关键字(如:exam的Examzid、Course的Coursezid)。资源元数据在确定与其相对应的字段的同时,写到该字段下。按这样的规则,可以建立一个与TestzEnglish的XML元数据文档相对应的,符合第三范式(3NF)的关系数据库,最后以各外部关键字为接点,通过联合查询方式(SQL语句的UNION),可以生成完整的、与原RDF相对应的数字资源元数据的视图,进而可以实现对其进行数据查询、数据挖掘等操作[5]。

3.2 元数据获取

元数据获取是数字资源整合最后一项操作,上一节(3.1)所述的存储方式转换是元数据获取的基础性技术。元数据的来源有3类即RDF/XML元数据文档、RDB数据库和手工录入。因RDB的可操作特性,一般把获取的第一手元数据存储在RDB表中,再用技术手段为RDB数据附上语义,即转换为RDF/XML的元数据格式。在导入之前,对于不符合元数据模型的RDF/XML和RDB表等数据来源要根据元数据模型做数据字段的取舍,两种格式的取舍方法基本相同,RDF/XML文档在取舍前需要转换为RDB表(RDB表不必转换),然后再用关系数据库管理工具(如SQL语句)对RDB表进行数据字段取舍操作。元数据获取过程中特别要注意不能忽略关系数据库的“关系”。

4 小 结

基于元模型的数字资源整合方法能高效、灵活地组织异构数字资源,在多元化资源体系中,真正实现了“求大同、存小异”的设计思想,以最大限度地加强资源整合的深度。目前部分资源已经建成了权威的元数据模型,如上海图书馆对名人手稿元数据方案做了全面的设计,但是大部分元数据模型只处在局部范围内的应用,尚未形成业界统一的、权威的模型,因此这种方法在将来一定的时间内或在局部范围内应有其用武之地。另外,该方法对于部分元数据封装的资源,如中国期刊网资源、超星数字图书等,则无法做到基于元数据的整合,这种情况只能通过虚拟法来实现“假的”整合。

参考文献

[1]周芳,文必龙,王守信,等.基于元元模型的多维元数据管理研究与实现[J].计算机工程与设计,2006,27(10):1797-1799,1804.

[2]Rachel Heery,Manjula Patel.Application profiles:mixing and matching metadata schemas[EB].http://www.ariadne.ac.uk/issue25/app-profiles,2010-12-02.

[3]陆建江,张亚非,苗壮,等.语义网原理与技术[M].北京:科学出版社,2007:32.

[4]R2RML:RDB to RDF Mapping Language[EB].http://www.w3.org/TR/2010/WD-r2rml-20101028,2011-01-03.

[5]吴琴霞,张志鸿.语义Web中RDF元数据的存储与管理[J].微计算机信息,2007,23(33):144-145,132.

猜你喜欢
元数据属性数字资源
对两种实体观的探析
评价高校图书馆数字资源综合服务能力