郭丽霞,童忠勇
(国家图书馆,北京 100081)
数字图书馆是信息时代的产物。随着计算机和互联网技术的不断发展,信息资源共享的方式和手段也在不断地发展和提高[1],信息资源的传播和交换不再受到时间、空间、机构和文化差异等传统限制,实现了真正意义上的随时随地资源共享,极大地提高了人们信息获取的效率。
数字资源具有有机生命体的典型特征,其生命周期过程经历采集、制作、存储、管理、发布与服务等不同的管理阶段。资源建设的最终目的是服务读者。数字资源发布与服务是数字资源生命周期的最后一个环节,也是直接服务于大众的环节。发布与服务是一个有机整体,但也可以拆分为发布与服务两个环节,发布是服务的前提,服务是发布的目的,二者互相依赖,互相影响[2]。
从技术上讲,数字资源发布是将组织整理好的元数据和对象数据,根据需要,通过数据抽取、数据转换、数据封装、数据索引等处理手段,发布可直接提供服务的数据。数字资源服务是对已发布的数据提供资源服务,根据读者或外系统的数字资源服务请求,返回所需要的结果。图书馆的数字资源种类繁多,来源广泛,所以在数字资源的发布与服务中,对数据进行统一预处理和封装就非常重要,让用户不必关心数据的格式和来源,对其进行一致化访问。在数据的具体发布过程中,可以对数据进行详细分类,例如图书、期刊、报纸、图片、音频、视频等,根据不同类别建立相应的专题库,对不同类型数字资源进行完整的信息封装,实现各类资源的统一发布和服务。
发布与服务系统不是独立的,离不开其他系统的支持和交互。在数据层面,需要数字资源组织系统、长期保存系统、知识组织系统的数据、知识库的支持以及数据管理;在中间层面,需要与统一用户系统、唯一标识符系统以及版权信息系统进行交互,实现用户信息、唯一标识信息和版权信息的获取和更新;在用户层面,可以为搜索系统和读者门户系统提供信息支持和交互。
发布与服务系统,目的在于实现对专题库的定义、创建和管理等,对来自数字资源组织系统的数据进行转换、整合处理、入库以实现数字资源发布的功能;面向各类读者为各种专题数字资源提供检索、展现(权限控制机制下的)以实现数字资源服务的功能。总体而言数字图书馆资源发布与服务系统一般包括数字资源发布、数字资源服务、后台支持与管理、门户,分为读者门户、元数据检索、元数据展现、对象数据展现、后台支持等功能模块。图1说明了数字资源发布与服务系统中各子系统的功能切分以及和外系统的接口关系。
图1 数字图书馆资源发布与服务系统一致化模型
(1)元数据检索:发布与服务系统支持基于专题库的元数据检索功能。包括条件检索、分类导航检索和元数据检索结果展现。
(2)元数据详细信息展现:元数据详细信息展现模块能基于元数据的相关信息完成对单条元数据的详细信息的展示,如书目详细信息、图片详细信息、视频详细信息等。具体功能包括元数据展现模块定制、详细信息展现以及资源关联关系揭示,此外提供元数据访问接口服务,便于与其他系统和应用的对接。
(3)对象数据展现:提供数字对象的展现功能,基于已发布出来的对象数据库,对授权读者提供文档、图片等资源的下载和阅读,音频和视频流媒体的播放。功能包括资源访问控制、资源加密、资源下载、计费、客户端揭示,以及对象数据访问接口服务等。
(4)发布与服务后台支持与管理:发布与服务后台支持与管理对发布服务系统起了支撑作用,对系统的日常运行和维护非常重要。其主要功能如下所示:
专题库定义、创建与管理。提供专题库的定义其及属性管理功能,专题库属性包括名称、说明、限制范围、条件字段属性、检索结果展示属性、索引、状态等;提供专题库属性接口访问功能;提供基于专题库信息的对物理专题库的管理功能,包括物理专题库的创建、索引建立、删除等。
数据接收处理。对各种文献类型的数字资源进行相应的数据接收处理。包括数据接收方式和数据格式约定、数据检查、数据处理和入库、对象数据优化管理等。
数据处理后台支持工具。数字资源发布后台支持工具用于支撑数字资源接收、处理和发布过程中的数据整合功能,起到后台数据整合中间件的作用,通过该工具,可以快速定制面向特定资源的数据整合处理组件。
流程管理。数据接收和发布流程管理功能用于对发布和服务工作以任务的方式进行有效的管理、监视和控制,以方便发布工作的管理,并提高数据发布处理效率。
用户管理。发布与服务系统的各主要模块,包括元数据检索、详细信息展现、对象数据展现等模块,都应提供用户登录入口。用户登录时,通过统一用户管理系统的认证服务功能进行统一认证并获取返回的当前用户信息。
授权管理。系统应能根据资源授权访问策略, 提供授权管理功能。
基于资源发布与服务系统的一致化模型,数字资源的一致化封装在数字资源的发布流程中占有很大比重。在实际发布过程中,数字资源来源不同,结构不同,在一致化模型的框架下,需要人工干预,进行数据的识别和整理,从而实现资源的一致化封装。下文描述资源的发布与服务的一致化流程。
图2 元数据整理流程
3.1 元数据的一致化封装
虽然数据的来源可以多种多样,例如,比较常见的数据类型是EXCEL和MARC格式,为了实现资源的一致化封装,通常将来源不同的元数据进行处理,整理成一致化的格式,例如XML格式作为统一出口。将图书馆大量的书目数据从MARC格式转换为XML可以解决MARC类型标识、字段标识和子字段标识的问题,从而将MARC数据从严格复杂的规范流格式数据转换成机器可读的XML结构化数据,实现MARC书目数据库和Internet上的非书目数据的集成,从而使得现有的大量MARC格式书目数据能方便地在数字图书馆中加以利用,提供面向WWW的MARC信息,这在当前数字图书馆建设中具有重要意义[3]。在实际工作中,元数据整理的类型通常有整合、排序、过滤等,将不同文件中的元数据按照唯一ID进行合并,实现元数据信息的完整描述。在进行元数据整理过程中可以借助一些专业软件,例如etl工具kettle,实现批量元数据信息的整合处理工作[4]。图2展示了元数据整理流程。在实际工作中,需要对元数据进行识别,挑选出两个或多个元数据来源中的唯一ID,然后根据唯一ID进行信息合并。此外,在元数据的一致化封装过程中,为了实现发布过程中元数据和对象数据的对接,在数据整理过程中,需要考虑对象数据和对象文件的命名方式。
在发布工作之前,除了进行元数据的一致化封装之外,还要对对象数据进行一致化的预处理,例如格式转换、像素转换等等,使得对象数据符合发布系统的要求。在对象数据处理过程中,需要对数据类型进行分析,并对结果数据进行校验,保证数据质量和数量。由于对象数据的预处理一般是批量进行,往往需要较长时间。此外,图书馆数字资源种类繁多、数据量庞大,文件多且细碎,需优化管理海量对象数据文件,以提高整个系统的效能,如通过将多个JPG或者PDF等文件拼成一个文件并能对文件包内的文件进行定位的策略以减少所处理文件的数量。
基于一致化模型的数据发布任务可以包括多个处理阶段和状态,如初始、校验、转换处理、入库、完成、取消等。系统支持为不同的资源种类定义不同的状态集,支持在任务流程中加入人工处理环节和程序自动处理环节。对于需要人工处理的环节(如审核等),系统需要提供任务分派和权限控制功能。
可以根据来自组织系统的数据提交单自动创建发布任务,也可以手动创建发布任务;支持任务的分配、审核、处理记录、关闭、取消等;提供任务的条件查询、分类统计。通过发布任务的流程管理功能,可以查询和统计数据提交、接收方面的管理信息。
对于基于数据提交单自动发起的发布任务,系统能分析提交单的类别,进入相应种类数字资源的发布处理流程;系统能记录数据接收、检查、入库等管理信息;处理完成后系统能向提交者反馈数据接收结果,对接收失败的情况同时反馈错误原因。
任务在自动运行时,可以通过用户界面显示任务状态、进度和处理日志,让使用者了解任务进度,判断任务是否正常。对于处于程序自动执行阶段的任务,用户可以随时暂停、停止、启动、继续任务,以观察任务记录,判断是否有错误。任务在运行过程中,系统应提供界面反映该摄入任务处理的当前进度和状态;处理过程出现错误,界面须返回错误详情;提交成功后需返回本次任务的统计信息。整个任务结束后应向提交方反馈处理结果信息。
数据发布并向读者提供服务后,数据有可能存在没有发现的错误(如元数据描述信息存在问题、对象数据存在错误等),发布服务系统的前台展示模块应提供数据错误报告入口,以方便用户报告服务数据中存在的错误。系统支持数据错误报告的流程化管理。
发布与服务的一致化流程的实现离不开标准规范的支撑,无论是数据的组织还是服务的对接,标准规范给出了统一和可持续发展的思路。标准规范是发布与服务一致化实现的基本保障,也是保证发布与服务可利用、可互操作和可持续发展的基础。在具体实施时,主要有元数据标准、对象数据标准、唯一标识符标准、版权相关法规和标准等。目前这些相关规范比较多,例如元数据标准中,通用的图书类业界标准包括CNMARC、DC等。对于每一类文献的元数据,还需要落实各自的数字资源专门元数据标准,包括图书、图片、音视频、古籍、拓片、舆图等,标准规范的选择显得尤为重要。国家图书馆立足于国内外已有标准规范成果,结合国家数字图书馆建设经验,构建了国家数字图书馆工程标准规范体系,围绕数字资源生命周期为主线,主要包括数字内容创建、数字对象描述、数字资源组织管理、数字资源服务、数字资源长期保存五个环节[5]。数字资源发布与服务是生命周期的重要一环,其建设需要跟其他环节呼应和合作,标准规范的选择需要从全局出发考虑总体性,所以在搭建服务时可以依赖于国家图书馆标准规范体系。
随着计算机和互联网的飞速发展,图书馆数字资源的种类和数量飞速增长,图书馆数字资源环境逐步向分布式、异构和开放等方向发展,如何将这些资源进行一致化封装和发布成为数字图书馆发展面临的重要问题[6]。数字图书馆资源发布与服务系统一致化模型给出了数字资源的统一发布思路和实践方式,在保证适用性和可扩性的基础上,实现了各种类型数字资源(例如:图书、图片、音视频等)的统一批量发布。然而,对于数据量庞大的数字资源,发布起来往往需要较长时间,因此,数字资源的高效发布也是非常重要的,在保证数据质量的情况下,提高数据发布效率是数字图书馆资源统一发布中需要考虑的问题。