面向发现服务的文献元数据集成整合研究

2019-01-15 09:28:10马袁燕
图书馆 2019年1期
关键词:来源文献资源

马袁燕

(中国科学技术信息研究所 北京 100038)

1 前言

云计算快速发展环境下,图书馆馆藏由印刷型资源为主转变为数字资源为主,文献加工深度由目录精细到图表章节的层级,颗粒度越来越细。图书馆资源揭示功能的实现手段由OPAC转为发现系统,系统功能由单一目录检索转变为丰富发现获取,且揭示层级越来越丰富。其中,元数据与实现发现系统的资源整合、资源检索、资源管理、资源定位、挖掘与分析等多个方面紧密相关,也是图书馆在发现系统的调研、测评、实施到调整各个阶段都不可回避的元素[1]。元数据种类多样,按照来源可以分为在藏品建立或数字化时产生的内部元数据和在藏品建立或数字化之后才产生的外部元数据;按作用可将元数据划分为管理元数据和用户元数据两大类;从数字信息资源组织与管理的角度,可按照功能划分为管理型元数据、描述型元数据、保存型元数据、技术型元数据和使用型元数据[2]。文献元数据作为描述型元数据可以帮助用户快速精确地检索所需要的资源,有利于图书馆管理和维护文献资源。文献元数据是资源发现系统的底层数据基础,其类型、形式、来源渠道多样,具有数量大、生命周期短暂、网络存储分散、类型格式复杂、资源组织异构、粒度层级复杂等特点[3],因此对规范化、科学性的文献元数据进行研究非常必要。

2 面向发现服务的元数据集成整合研究现状

2.1 面向发现服务的元数据描述标准研究

元数据是数据的数据,描述数据的数据。文献元数据[4]即对文献信息资源进行结构化描述、定位和指示的数据,它能帮助用户更快更精确地检索到所需文献,也有利于图书馆管理和维护文献信息资源。元数据的多源异构性决定了对其进行统一表示与描述的必要性。为了给资源发现系统提供强有力的支撑,我们必须将不同来源的元数据通过转换映射形成统一的元数据描述框架,且转换过程中要尽量减少信息损失的发生。

公益性文献服务机构Trove发现系统目前使用的各种元数据模式主要包括都柏林核心元素集。Trove系统的都柏林核心元素集包括创作者、日期、唯一标识等元素[5]。Europeana根据其自身数据特点,基于DC设计了ESE(可扩展存储引擎)元数据方案,并参照METS(元数据编码和传输标准)和RDF(资源描述框架),在保留原有ESE核心元素基础上设计开放跨领域的Europeana 数据模型。此数据模型可与多种元数据模式建立关联,为元数据实现语义层面互操作提供可能。

日本国立国会图书馆制定了“NDL都柏林核心元数据描述(DC-NDL)”。DC-NDL由三部分组成:第一部分是“NDL元数据术语”,包括日本国立国会图书馆描述的元数据术语列表;第二部分是“应用程序配置文件”,指定日本国立国会图书馆元数据中每个组件(属性、类和编码方案)的用法,其中包含用于描述RDF/XML格式的每个组件的示例;第三部分是“RDF Schema”,是日本国立国会图书馆元数据条款的资源描述格式(RDF)版本[6],除了基本的信息描述外,语义化趋势在统一的资源描述工作中也逐渐显现。

开放资源集成平台PubMed Central(PMC)支持NLM日志和交换XML格式与都柏林格式。国家生物技术信息中心(NCBI)和国家医学图书馆(NLM)创造了一套日志归档和交换标签套件,用于与出版商进行通用格式的日志内容交换。该套件提供了一组XML模式模块,用于定义所描述期刊文章的文本和图形内容的元素、属性,以及一些非文章材料,如字母,书籍和产品评论[7]。国家图书馆“文津搜索”支持多种元数据标准,包括MARC、DC、XML、MDB、XLSX以及MDF,它对各类数据进行清理和解析,并将所有元数据字段都映射到“文津搜索”定义的统一的XML格式上[8]。

2.2 面向发现服务的元数据集成整合实践研究

资源发现服务是一种“大数据”规模的元数据搜索服务,通过支持图书馆自动化系统,实现数据融合与语义检索服务、跨机构元数据的开放与复用和分布异构系统的关联访问[9]。资源发现系统致力于从图书馆、互联网、出版商和内容提供商处获得元数据,以建立元数据仓储系统,利用抽取、映射、规范、融合等智能化手段对数据进行全面聚合和深度组织,从而为用户提供简单的一站式检索服务[10-11]。本文通过对资源发现系统的调研,从元数据获取及整合方法两个方面分述发现系统中的元数据集成整合实践。

在元数据获取方面,国外主要是通过主动与元数据生产方谈判签约获取,部分依靠资源服务方的主动授权与上传。商业发现系统以Proquest Summon系统为例,元数据只通过签约厂商的途径获取,取消第三方元数据,从而保证了数据质量。Primo、EDS同Summon系统均采用与各资源提供商签订协议的方式获取元数据。与商业发现系统不同,国外一些公益性元数据集成平台主要采取合作共享的方式收集和获取元数据。澳大利亚图书馆Trove系统作为合作共享式的典型范例,通过社区组建和社区聚合,形成了一个规模不断扩大的全文数字资源库,接受来自数百个文化机构的元数据资源[12]。澳大利亚国家图书馆在与电子资源数据库商Gale和RMIT合作的同时,会在Trove中共享电子资源内容,并采取API、爬虫、FTP或HTTP等方式获取元数据。Europeana利用聚合器网络可以在机构间交换元数据,机构将数据提交到一个聚合器(项目或组织),数据经过处理后被提供给Europeana。

表1 国内外主要发现系统元数据集成管理概况

DOAJ(开放存取期刊目录)作为典型的开放资源集成平台,其元数据资源获取方式与其他平台不一样,要求出版商将元数据上传到DOAJ的网站而非主动去期刊出版商网站抓取文献元数据。DOAJ文献元数据采用CCBY-SA4.0的版权限制方式向外传播,允许自由地对文献进行共享、修改、转换或者以本作品为基础进行创作甚至开展商业行为[13]。目前国内对于海量外文文献资源元数据的获取收集还处于起步阶段,国家图书馆通过建设“文津搜索”集成了约2亿条文献元数据,国家科技图书文献中心也通过自主加工、谈判引进等模式共获取2.5亿多条文献元数据。

在元数据整合方法上,元数据集成管理流程主要分为解析、映射、查重合并及更新维护。Europeana对收集到的元数据采用RDF转换存储,以便在语义环境中通过关联数据对其进行有效揭示,提高资源可用性,并为欧洲的数字资源门户网站和搜索引擎提供支撑。OCLC利用SRU服务为VIAF(虚拟国际规范文档)项目提供来自14个国家图书馆的关联数据,通过匹配和关联整合这些不同语言国家图书馆的规范文档,提高了资源利用率。Proquest Summon需要对100多种不同资源类型的数据进行处理归类,其发现服务汇集了不同类别的元数据和多个来源的完整文本。Summon利用其独有的匹配和合并技术整合了包含学科专业词汇的元数据资源,在可用条件下创建描述全文内容的记录。所有的资源类型都被映射到Proquest Summon统一的结构框架下,从而实现同步平等地发现和揭示[14]。在传统元数据整合基础之上,研究者也越来越重视语义元数据的规范整合,并开展了相关实践。表1列举了国内外七个主要资源发现系统在元数据量、元数据获取方式、元数据标准及元数据整合方法方面的概况。

2.3 面向发现服务的元数据集成整合的必要性

发现系统以元数据仓储为基础,以元数据索引为核心[15-16]。面向发现服务的元数据集成整合是一般元数据集成整合的分支,其对多来源元数据集成、整合、规范可以更好地服务于上层发现系统。笔者立足资源发现系统实现功能,采取调研的方法比较现有资源发现系统与跨库检索系统在系统功能上的差异,从而总结出两者在文献获取方面的差异,进一步验证面向发现服务的底层元数据集成整合研究具有必要性,调研结果见表2。

表2 国内资源发现系统功能调研

从调研结果来看,国内985高校资源发现系统,主要分为Summon、EDS、Primo、Find+、超星发现系统,985高校中只有17所实现了中英文一站式发现。这17所高校中有14所是被动引进Summon、Primo、EDS等外文资源发现系统。首先外文资源发现系统在本地建立元数据仓储,然后将整合后的元数据统一发布在云平台上,通过接口调用的方式供国内使用,其发布前的元数据集成整合流程无从获知,加上网络传输等影响因素,检索效率不高。其次,资源发现系统与传统跨库检索系统相比,虽然都采用统一检索入口,但其文献获取原理却不同。跨库检索系统是数据库商提供各库独立接口,检索结果只显示订购资源,不显示无权限资源,资源发现系统却对用户检索结果提供多来源指引。发现系统整合馆藏OPAC,无法获取在线全文时依然可以获取纸质全文(如果有纸本的前提下),拓宽了资源获取途径。研究发现,系统的元数据集成整合,能为国家科技文献服务提供保障。

从面向发现服务的元数据集成整合与一般元数据集成整合的区别来看,后者只是基于数据层面的大规模整合,没有办法实现文献聚类等,它只是将元数据整合,但并未对元数据的薄厚作要求。调研结果显示,清华大学资源发现系统和超星资源发现系统实现了学科趋势分析及热点分析等知识关联,这是一般元数据集成整合做不到的。其次中科院文献情报中心的资源发现系统提供可视化分面导航,这都是基于厚元数据所作的知识关联分析。面向发现服务的元数据集成整合最终目的,是将单篇文献的多个来源进行整合,将薄元数据整合成一条带有多个来源指引的厚元数据记录。

纵观国内外主要的资源发现系统,我们可以发现,与跨库检索系统相比,资源发现系统的数据来源更加丰富。但图书馆在引进发现系统的过程中,只实现了本馆馆藏资源与发现系统资源的整合,未能整合联合目录数据库馆藏资源,也未能集成馆藏目录元数据资源;在全文获取途径方面,资源发现系统能够实现在线获取全文或多来源指引,但缺少馆藏等机构元数据信息,未能实现在馆藏信息统一元数据索引的基础上,依据馆藏机构的资源变化与当前用户属性动态呈现恰当的资源地址。此外,现有商业性发现系统的内部数据组织及外部发现服务功能仍然较为单一,其数据组织揭示多停留在题名、载体等资源外部特征,较少对资源内在特征进行知识组织揭示。对发现服务底层元数据集成整合的相关理论研究只注重检索结果相关性排序,缺少对文献元数据资源进行采集、加工、规范整合的流程研究。最后,国内发现服务多是直接引进或在国外发现服务基础上进行二次开发,导致中文元数据覆盖程度低、与国际标准脱节、ISSN号混乱、年代不准确等问题。因此,要实现基于海量元数据的资源发现向知识发现转变,深化知识服务需求,就必须探究发现服务在元数据集成整合方面的标准规范和加工方法,发展图书馆多层次的发现服务功能。

3 发现服务元数据集成整合框架

基于文献阅读和对现有资源发现系统建设实践的研究,文章总结出面向发现服务的文献元数据集成整合流程,它主要围绕总体流程与元数据标准映射体系、规范规则体系、查重/集成规则体系及规范文档体系四个体系展开,总体框架由数据源、元数据集成仓储和数据应用层构成。元数据集成仓储划分为注册模块、解析模块、集成模块和仓储中心。每一种数据源先将其元数据标准在注册模块进行注册,然后解析模块通过接口调用相应的映射规则进行解析,解析完成后经过数据清洗规范,数据流转至集成模块,以机器为主人工为辅的方式进行元数据集成。元数据集成后进入元数据仓储中心,建立中心索引,为知识发现、统计分析、专题计算等服务提供数据准备,总体流程见图1。

图1 文献元数据集成总体流程图

图2 元数据集成方法

元数据集成整合方法如图2所示,该方法首先梳理来源内各个业务系统间的元数据,主要考虑业务系统间的元数据是否有关联,关联是否完整等。元数据梳理后作为一种数据源被加载到文献元数据集成整合系统。不同来源间的元数据在集成过程中,无论其属于哪种文献类型,都要优先集成书目元数据,然后基于书目元数据集成结果,对论文元数据进行查重集成。如来源1、来源2、来源3,通过一定查重集成规则集成为一条书目元数据后,再集成这3个来源的论文元数据。具体来讲,A来源与B来源书目元数据集成时,以A作为首选元数据入库,以B作为补充元数据,将B元数据中的元素与A元数据进行系统比对,然后将设定的补充元素入库,并标记B。系统对所挂接的论文元数据进行查重集成,以A作为首选来源入库,然后B/C元数据的补充元素带着相应来源标记入库。随着数据源的增多,该元数据最终会形成一条丰富完整的厚数据。每个元素都标记来源,以便在数据有问题时对其进行拆分。书目元数据作为源头,其处理需要以人工为主机器为辅,论文元数据可以按照相应的集成规则以机器为主人工为辅的方式处理,依次形成母体集成库及文摘集成库直至元数据库。

4 面向发现服务的多来源元数据统一集成整合

4.1 文献元数据映射匹配规则

文献元数据集成整合为发现服务提供底层支撑作用,对发现系统功能的实现至关重要。元数据集成整合的最终目的,是将描述同一论文资源的元数据整合成多来源的厚元数据,提供多来源指引。建立文献元数据映射/匹配规则,实现元数据互操作,是进行查重比较的首要前提,因此有必要建立统一的元数据框架,并与各来源标准建立映射关系,确保元数据格式统一。发现系统元数据来源于出版社、数据库商、集成商等,出版社元数据标准各自为阵,亟待整合统一,不同标准中的元数据项表述不一。篇名在Wiley中元数据字段被表述为〈article-title〉篇名,而在Thomson Reuters中定义为〈title type=“item”〉篇名。对期刊论文元数据的调研发现,不同数据库元数据类型也有所不同。对比NSTL与WOS、Scopus发现,WOS、Scopus使用一套元数据Schema描述多种文献类型,只要在期刊论文中涉及某一文献类型就会出现相关描述;NSTL则以文献类型为基础划分元数据,某一文献类型的元数据包含在此类文献的Schema中。图3给出了常见的元数据映射/匹配规则流程:系统对多来源数据进行数据解析,抽取来源元数据特征,提取有效规则建立规则库,以期建立一种能兼容各种文献元数据的格式标准,即一种多对一的元数据方案;对多来源异构数据构建元数据统一描述框架,形成统一元数据格式。

图3 元数据标准映射体系

4.2 设计查重归一算法丰富多来源文献元数据

发现系统通常按照资源类型、主题、作者、时间、地区、馆址、语种、分类、流派、在线全文、同行评议以及是否扩展至本馆馆藏之外等元数据项提供分面导航功能,逐层深入并缩小检索范围,直到发现符合需求的检索结果。该功能实现的效果与元数据的薄厚及可获得性呈正相关。表3列举了同一篇论文在出版社和集成商平台中所呈现出的信息项差异。我们观察到各发现系统中元数据厚度参差不齐,相比出版社网站,集成商平台的元数据厚度有限、部分元数据信息缺失,严重影响了资源的揭示效果。

表3 出版社与商用发现系统平台元数据项差异

发现服务集成整合多源异构元数据,形成一条附带多个来源指引的厚元数据记录。映射完成后,我们需要根据不同文献类型制定查重匹配算法,分别从母体、卷期、篇级、来源渠道等多个层次对资源实施查重与归一;需要制定规则,确定所选元数据如仓储的优先级顺序,保证优势类型元数据进入仓储,且要确定作为补充元素的元数据类型。系统在元数据进入仓储的同时要对其进行查重归并,并标记相应的来源标签,使元数据字段由“薄”变“厚”。元数据查重主要包括来源元数据查重(即同一数据来源由于进入仓储的批次不同导致的重复)和系统内部的查重机制(同一文章有不同来源且进入仓储的时间不同,需要对其查重合并),图4为文献元数据查重合并流程图。查重体系中用户输入批次号,根据批次号获取原始数据,根据节点拆分任务,将数据涉及的刊种聚类并获取样例,随后将样例与任务分发至节点,最后获取节点完成的任务写回元数据库。

图4 元数据查重合并机制

4.3 集成海量文献元数据推进知识发现服务

发现服务并不是简单独立的文献资源集成检索系统,未来需要实现从基础文献服务到知识发现服务的转变。将元数据整合规范后,对底层基础文献元数据进行语义分析,这种知识组织管理可以更好地推进发现服务。文献发现层面通过科学文献中的各类引文,在文摘索引与其所标文献、文后参考资料与被引用资料之间建立关联和链接[17]。我们通过分析文献内容的关联,可以发现该领域的研究热点;而通过分析作者或机构的关联,可以发现该领域中的核心作者和核心机构。底层文献元数据整合后,将书目元数据、管理元数据、文摘元数据、结构元数据、关联元数据等依次归类,从而保证上下游链条间元数据的有效连接。研究者通过对文摘数据进行分词、概念提取,实现主题标引和学科分类;通过实体识别、名称消歧方法,实现名称规范和对象归一;最后基于汉语主题词表等对元数据进行语义标识,对同一元数据集合进行语义知识组织加工,实现主题关联、学科关联、热点分析、机构关联等,如图5所示。另外,基于馆藏等元数据信息建立资源调度知识库,将从图书馆、出版社、数据库商和互联网上获取的文献元数据资源与用户、机构信息整合,形成记录了来源的“集成化联合目录”与用户、机构信息库。依据用户及其所需资源间的不同场景构建资源关联的调度机制,设定调度规则,通过调度算法找到最适应用户情景的文献获取方式,即当前情景的最优决策。

图5 元数据知识组织关联

5 结语

文献元数据数量规模的扩大、文献元数据颗粒度的精细、文献资源数字化的扩展,使用户能够更便捷地得到更丰富、更准确的文献资源检索结果。由于现有整合技术的不成熟,文献元数据集成要从数据源、元数据集成仓储和数据应用层三个层次设计、完善。文献元数据获取方式的选择,既要保证其质量,又得保证其数量、时效性与涵盖范围。文献元数据集成应制定更加合理、规范、系统的文献元数据统一描述规则,为文献元数据映射、整合、加厚的后续处理流程提供更好支撑,设计更加合理的元数据映射规则、建设厚元数据以便将元数据本身多样化的信息更好地保留下来。与此同时,数字资源不断扩充、资源载体形态改变、外部链接失效、刊名变更等都依赖于元数据定期更新维护。如何建立数据获取、集成和故障追踪的全流程资源维护体系与元数据质量监控模型,都需未来进一步探索。

(来稿时间:2018年4月)

猜你喜欢
来源文献资源
将来吃鱼不用调刺啦
基础教育资源展示
Hostile takeovers in China and Japan
速读·下旬(2021年11期)2021-10-12 01:10:43
一样的资源,不一样的收获
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
大东方(2019年12期)2019-10-20 13:12:49
试论《说文》“丵”字的来源
资源回收
“赤”的来源与“红”在服装中的应用
流行色(2018年11期)2018-03-23 02:21:22
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
资源再生 欢迎订阅
资源再生(2017年3期)2017-06-01 12:20:59