贾君枝
(中国人民大学 信息资源管理学院,北京 100872)
现代公共文化服务体系的形成很大程度上依赖于公共文化数字化资源整体建设水平。各个公共文化机构以“孤岛”方式建设公共数字文化资源的模式已经很难满足公众对数字文化资源的需求[1]。单个文化机构资源数量毕竟有限,图书馆、档案馆、博物馆(LAM)等文化机构馆藏资源有机地整合,将会有效地提升资源加工、组织及利用效率,通过文化机构资源合作共建带动公共文化数字化服务能力提升。从当前国内LAM机构资源整合实践看,更多是通过统一平台将各成员机构的资源统一展示,各机构之间资源并没有有机地集成,缺乏明确的资源统筹协调机制、缺乏资源深度整合的成熟模式及方法,从而制约了我国公共文化数字资源的大范围共享及利用,信息服务效率较为低下。随着中国数字化战略的发展,公共文化资源数字化步伐的加快,图书馆、档案馆、博物馆所积聚的大量结构化数据,不仅面临着深层次加工与开发利用的现实问题,而且作为高价值的结构化数据集合,以共享开放方式可以更广泛地服务于其他领域,带动社会全面创新与进步。
关联数据等语义网技术的迅速发展,旨在运用开放互联方式有机地实现资源之间的连接,有效地减少资源管理分散和重复建设等问题,能够跨越机构之间界限及数据异构性,提高各个机构之间资源互操作效率。将关联数据技术运用到LAM馆藏资源整合中,运用数据模型将不同机构的资源整合在统一语义框架中,采用资源描述框架表示描述对象之间的关系,将LAM馆藏资源表示成一个语义明确的数据网络,不仅方便普通用户更准确、全面地获取信息,而且有助于机器对数据做进一步处理,服务于问答、数据挖掘、知识发现等多种应用场景,提升数字文化资源利用水平。本文旨在客观分析国内LAM馆藏资源难度,明确关联数据优势的基础上,提出基于关联数据的LAM馆藏资源整合实现的流程及其推动措施,以帮助国内LAM机构提高馆藏资源整合效率,提升资源开发利用能力。
LAM馆藏资源整合是将不同机构的异构资源以统一的元数据形式表示而形成的有序化资源集合,其很大程度上依赖于各个整合机构馆藏资源的数字化水平。数据标准化、开放性程度越高,越有益于整合。馆藏资源的整合不是简单地将分布在不同机构的资源通过统一呈现的方式提供给用户,不单纯是资源聚集和浅层关联[2],应是馆藏资源内容层面的语义整合,需要将彼此间的资源进行合并、聚类及构建语义关联,以满足用户不同层面的服务需求。就当前LAM馆藏资源整合水平看,存在着整合过程各种格式混杂、数据内容丢失、集成程度不高等问题,而这些问题的产生源于一定程度上存在着的整合难度,主要体现在馆藏资源数字化程度、元数据标准及其描述颗粒度等方面。
我国图书馆、档案馆、博物馆隶属于不同的上级机构,其数字化发展水平差别较大。20世纪90年代因特网迅速发展推动了各个领域数字化建设。数字图书馆出现带动了馆藏资源的全面数字化,机读目录(MARC)已成为各大图书馆采用的共同标准,为图书馆内部实现资源共享及数字资源标准化提供了便利。相比其他领域,图书馆馆藏数据标准化程度较高,但由于MARC数据格式复杂,不易于外部数据进行交换,具有封闭性特点,导致图书馆馆藏资源开放度不高。档案馆馆藏数字化始于2000年后,档案资源对象多样,立档单位类型不一,其数字化发展水平不均衡,2010年国家档案局发布了《数字档案馆建设指南》,为数字档案馆建设提供了标准规范和建设依据[3],旨在提升公共档案服务能力及资源共享能力。档案馆馆藏数字化进一步得到发展,相对而言,档案馆资源对外开放度不高,多限于机构内部用户使用,影响了其进一步开发利用的能力。博物馆数字化建设约在20世纪90年代末,随着文化资源交流与共享需求提升,各大博物馆着手于自身藏品的建设,数字博物馆开始出现,2001年财政部、国家文物局联合开展了“文物调查及数据库管理系统建设项目”及其2012年国务院印发《关于开展第一次全国可移动文物普查的通知》促进了藏品的科学管理和有效利用[4]。并随着国际各种描述博物馆藏品标准的出现,博物馆馆藏的数字化质量水平不断提升,数字化资源服务能力逐步增强,对外资源的开放度相对较高。
由于各机构拥有的资源类型差异,元数据标准不一样。图书馆以图书、期刊等资源为主,统一采用CNMARC数据描述,为图书馆内部之间的数据交流提供了便利,但与图书馆以外的机构数据交流存在一定的困难。档案馆以为文书、照片、书信、声像等为主,除遵循《档案著录规则(总则)》(ISAD/G)、《档案著录规则》(DA T18-1999)之外,由于所包含的资源对象差异性较大,需针对性采用不同的元数据标准,如《照片档案管理规范》(GB11821-2002)、《文书类电子文件元数据方案》(DA/T 46-2009)等,形成了多样化档案资源描述标准。博物馆资源以藏品为主,涉及手稿、绘画、雕塑、装饰、标本及照片等,除了遵循国家文物局2001年制定了《博物馆藏品信息指标体系规范(试行)》外,各个博物馆针对不同资源,结合艺术品描述类目(CDWA)、视觉资源协会核心类目(VRA Core)、国际文献工作委员会概念参考模型(CIDOC CRM)等多个适用于博物馆藏品描述的国际标准[5],定义了自己的元数据标准。由于LAM机构之间元数据结构及其格式差异较大,为互操作带来了一定困难[6]。可以看出,LAM馆藏资源所使用的元数据标准很大程度上依赖于资源所属类型,随着元数据标准发展的专业化趋势,各个机构所使用的元数据类型不断增多,从而为资源整合带来了一定复杂度。
图书馆长期以揭示单件为主,以书目记录方式描述一本图书的题名、作者、出版社、主题等基本信息。档案馆以揭示馆藏为核心,记录了案卷的题名、密级、数量及单位信息,并辅之以文件的题名、责任者、编号、保管期限等基本信息,形成馆藏目录数据库。博物馆以揭示藏品为主,记录了藏品的名称、类别、质地、功用、形态等信息。不同机构描述的颗粒度大小不一且描述信息侧重点不同,图书馆、博物馆以揭示单件资源为主,档案馆以揭示馆藏为主,比如人物档案更多地揭示人物整体信息,而对其所收藏的相关照片、信件及日记等单件描述少[7]。各机构资源描述中,缺乏细粒度描述,多以基本元素为主,没有明确地表示各类资源之间关系类型,描述深度不够,这些差异性及其线性描述方式从而影响了资源整合的效果。
长期以来LAM馆藏资源的整合主要采用基于元数据映射的互操作模式,将不同机构的元数据映射到统一到元数据标准,完成不同格式的数据转换。映射作为互操作的重要方法,通过将一种格式表示的数据转换成另一种格式表示的数据而实现不同数据的合并,建立不同元数据标准之间的对照表是核心步骤,但由于不同标准差异性大,并不能建立一一对应关系,存在着有些元素找不到对应,多个元素对应一个元素,不能完全匹配等多种情况,导致部分语义内容丢失、整合效果不理想。
作为语义网的一种典型应用,关联数据旨在通过建立数据之间互联实现数据的发布、消费及再利用。依赖于资源描述框架(RDF)模型,不仅方便地刻画出所描述资源对象的特征,而且以谓词方式连接不同的资源对象,将异构资源整合到一个数据网络中,使分散在不同机构、不同系统的数据高效率地整合在一起。因此将关联数据运用到LAM馆藏资源整合中,能够在一定程度上避免元数据映射带来的数据丢失情况,提高整合质量。通过数据模型将不同机构的元数据模式集成在统一语义框架中,所构建的类与类、属性与属性间关系,充分揭示出不同元素之间的各种对应关系,突破原有元数据映射的单个语义关系(以等同映射为主),从而较好地实现不同元数据标准之间的重用及共享,一定程度上提高了数据互操作效率。除了整合LAM机构的内部资源,还可以建立与外部资源之间的广泛链接,丰富扩展了LAM馆藏机构以外的数据,使整合范围进一步扩大。整合后的数据采用开放互联方式进行发布,为后期的数据开发再利用提供了高价值的RDF数据集。基于开放关联数据的图书馆、档案馆、博物馆数字资源整合模式成为近年来LAM合作领域研究的焦点。为推动关联数据在LAM馆藏整合的广泛使用,从2011年开始,连续召开四界的国际图书馆、档案馆、博物馆关联开放数据峰会(The International Linked Open Data in Libraries, Archives & Museums Summit, LOD-LAM),旨在促进关联开放数据在LAM整合方面的研究和应用[8]。欧洲数字图书馆(Europeana)作为关联数据整合的典型,克服成员馆不同元数据标准的差异性,实现了以EDM数据模型为核心的资源整合,包含5 800万数字对象,与外部资源Dbpedia、GeoNames、GEMET建立链接,推动了欧洲文化遗产资源大范围传播与共享。其部分数据集已成为关联开放数据云图(LOD)中的重要构成[9]。基于所提供的API接口,Europeana及其合作机构设计开发了功能多样的APP程序达到158个,为需求方的系统开发和服务创新提供孵化环境[10],LAM资源整合的社会影响力得到进一步提升。
将来自成员馆元数据收割完成后,可以依据关联数据实现步骤将LAM资源整合划分为定义数据模型、建立数据模型与元数据模式的映射、转换元数据记录、与外部资源建立链接、发布数据五大步骤,如图1所示。
Fig.1 Integration steps of LAM collection resources based on linked data图1 基于关联数据的LAM馆藏资源整合步骤
数据模型用来描述LAM整体馆藏资源的类、属性及关系,采用统一颗粒度方式定义了资源描述的基本结构,发挥着顶层本体的作用。其不仅能揭示馆藏内外部特征,还能表示不同资源实体间的关系,以实现跨机构不同资源的聚类。数据模型确定需遵循以下原则。
基于实体分析构建。图书馆、档案馆、博物馆的资源是关于实物、人、事件等信息,每一条馆藏记录可能涉及了多个实体信息,抽取能够反映所整合资源特征的最小描述单元-实体来重新拆分、组合原有的馆藏记录。应用实体分析方法,从当前各机构描述的元数据层面抽取出适合的实体作为类对待,明确实体类间关系,根据类所具有的属性特征构建出一个类层次框架。实体作为较小的共享描述单位,符合当前语义网技术发展,有助于数据的加工与再利用。其中LAM资源共有的实体有馆藏(实体对象集合)、实体对象(图书、藏品、文件等)、代理(实体相关的责任者)、时间、地点、事件、概念等。实体关系有整体与部分、等级、来源、作品、版本、主题、相关责任者等。
类的选取及定义过程中,尽可能重用来自书目、档案和博物馆领域的书目记录的功能需求(FRBR)、编码档案描述(EDA)、CIDOC CRM和实体数据模型(EDM)等成熟的国际化数据模型,将来自不同领域的类整合搭建成一个有序化概念体系,提高所构建数据模型的数据交换能力,减少构建成本。选取整合机构共有的元素作为候选类或属性,比如一些通用元素题名、创建者、创建日期、格式、类型需进行明确定义,有助于保留整合机构数据的语义,提高整合效率。定义的类与属性概括程度尽可能高,能够有效地覆盖到所整合机构的元数据集合。尽可能定义最小的类与属性集合,以便于通过映射实现数据模型的扩展。LAM馆藏资源整合中,许多机构以EDM为基本数据模型,使用该命名空间所定义的类及属性,重用了FOAF、BIO、VIVO、都柏林核心元数据倡议(DCMI)等词表,并对其进行扩展,定义了自己的命名空间,共同作用形成一个可以表述LAM馆藏资源特征的数据模型[11]。
LAM成员馆的馆藏元数据标准作为来源数据,建立与数据模型(目标数据)之间的对应关系。通常在明确元素的含义基础上建立准确地对应关系,由专家参与完成。为提高映射的准确性及一致性,需建立映射规则,明确映射类型(包含完全匹配、上下位匹配)及匹配顺序,完成映射对照表。梳理出成员馆馆藏中所描述的主要资源对象,首先建立元素与数据模型的类之间的对应关系,并将单件与馆藏、单件与单件等已有资源对象之间的关系,转换为类与类间的关系。再建立元素与数据模型的属性之间的对应关系,比如每一个单件的题名、类型、形态等对应的元素作为实体类的属性处理。从匹配顺序看,需先建立完全匹配关系,即元素与数据模型中类或属性语义完全或近似相同,如果找不到完全匹配,则考虑上下位等级匹配,元素作为数据模型的子类或子属性,使用rdfs:subClassOf或rdfs:subPropertyOf表示它们之间的对应关系。如果元素找不到对应关系,则考虑延用成员馆已使用的元素名或者重用其他词表的类或属性,通过定义或引入命名空间,将其作为数据模型的扩展类或属性,以尽可能保留成员机构已使用的描述元素。
数据模型与元数据模式的映射属于模式层映射,其明确了馆藏数据转换的框架,为元数据记录转换提供了模板。元数据记录转换是将成员馆馆藏记录按照所定义的数据模型进行表达,将已有格式的元数据记录转换成RDF格式的数据。由于来自于不同成员馆的馆藏元数据记录互有重合及联系,则需进一步合并,形成统一的RDF数据集。数据转换内容包括URI创建、RDF文档生成。需为每一个描述实体对象创建URI,以便更好地识别资源,尤其对于元数据的取值来自于一个或多个词表,如许多机构的主题元素对应的主题词、类号,来自某一主题词表或者分类表,则需将字符串转换成相应的URI。定义数据转换规则,将馆藏记录转换成所对应类的实例或者属性值,应用自动转换程序将成员馆原有的MARC格式、XML格式及其关系数据库等转换成RDF格式进行存储。对于数据模型所定义的类或属性,一些成员馆原有元数据标准中没有提及,需要进一步分辨以添加新的属性值或进行类实例化。运用一定的匹配算法,识别分布在不同机构、不同记录的同一实体,对同一实体对象的多条记录进行合并或者建立关联。
建立与外部资源之间的链接,旨在进一步丰富LAM馆藏集合。外部资源包含词表和数据集。如果所定义的属性值取值来源于已发布为关联数据的主题词表、分类表、名称规范档等,则应建立与这些词表的相应链接。如果所描述的对象与外部数据集所指代的是同一实体,运用自动匹配技术,将转换后元数据记录与外部资源进行匹配,建立自动链接,以丰富语义内容。目前与图书馆、档案馆、博物馆相关的外部常用的数据集有:名称规范档如国际虚拟规范档(VIAF)、GeoNames、德国国家图书馆规范档(GND)、盖蒂地理名称表(TGN),网络百科如维基百科、维基数据,受控词表如美国国会标题表、杜威十进分类法、艺术和建筑类词表(AAT)等。
运用一定的发布平台将统一RDF数据集及其数据模型发布,供用户自由获取,提供API、SPARQL端口等多种获取方式,便于机器及用户能够及时地获取相关数据,在此基础上开展查询、问答、重用、知识发现及各种深层次开发应用。数据模型发布有助于其他LAM机构馆藏资源整合时进行重用共享,如欧洲数字图书馆的EDM发布导致许多机构采用该模型表示数据集,从而为后期大规模的整合带来了便利。
基于关联数据的LAM馆藏资源的整合对于提升LMA馆藏资源数字化建设水平及服务能力有重要意义。但从国内现有LAM发展水平看,推动LAM资源整合发展需要从以下方面做进一步保障,从而为整合顺利实施提供良好基础。
LAM馆藏资源是我国文化资源的重要构成,也是我国数字文化基础设施的重要部分,资源的开放性意味着可以与LAM机构内外的资源进行快速整合,以实现资源跨领域、跨机构深层次利用。LAM机构需增强资源开放意识,资源开放度越高,被利用的可能性越大,资源所发挥的价值愈大。各个机构应积极参与到资源共享与开放运动中,遵循数据的可存取、可发现、可操作及重用(FAIR)原则[12],将机构内部可重用、高价值数据采用RDF形式发布,以保证资源最大程度地被利用。
LAM资源整合是在已有馆藏元数据基础上实现,整合质量一定程度上取决于原有馆藏元数据的质量水平。各个机构在资源建设中应该注重尽可能采用使用较广泛的元数据标准,资源描述中应确保数据记录的准确性、完整性与及时更新,只有将元数据记录保持在一定的质量水平,才能在整合中确保数据转换的语义尽可能保留,减少数据质量控制成本,提升整合效率。
LAM与其他资源建立关联所形成的数据网络更有益于实现数据价值,发挥数据整合作用。而外部数据资源的形式化程度及可获取性都会影响着数据关联。目前我国可用的LAM外部资源,尤其以关联数据形式存在的有价值的数据不多,从而为数据更广范围地整合带来了一定的难度,需要进一步增强词表、政府数据、文化教育与经济、网络百科等重要数据的开放与关联,并定义相应的命名空间及其相应URI以便被参引,形成良好的开放关联数据生态系统,以数据驱动带动数字化经济创新发展。