李白杨 肖希明
公共数字文化资源整合中的检索系统框架设计
李白杨肖希明
针对公共数字文化资源整合中技术环境的特点,提出了跨机构资源检索系统的整体框架和各部分的具体实施方案,包括元数据整合方案、资源描述格式、建立索引、前端查询系统设计等,并提出了重视标准化、协同构建和以服务为核心等检索系统设计建议。图2。表1。参考文献11。
公共文化服务机构数字资源整合检索系统
近年来,国家文化主管部门在“十二五”规划的指导下大力建设公共文化服务体系,以满足人民日益增长的公共文化产品与服务的需求,繁荣社会主义文化事业。《中华人民共和国国民经济和社会发展第十二个五年规划纲要》《中共中央关于深化文化体制改革推动社会主义文化大发展大繁荣若干重大问题的决定》《国家基本公共服务体系“十二五”规划》《文化部“十二五”时期公共文化服务体系建设实施纲要》等多个文件[1-3],为我国公共文化的发展规划提供了从宏观到具体的指导意见,其中指出了图书馆、博物馆、文化馆、纪念馆、美术馆等机构是公共文化服务体系的主要组成部分,应利用“云计算”“三网融合”技术推动全国文化信息资源共享工程、数字图书馆的建设以及基于移动环境的公共文化产品等服务的发展[4]。
鉴于国家文化战略的宏观规划和公众对于文化产品的具体需求以及未来“十三五”规划的新要求,公共文化服务体系中的资源亟待整合和数字化。本文从技术角度出发,尝试根据不同机构的数字产品在公共数字文化资源整合中的特点、现代信息检索的系统构架与用户需求,来构架统一检索平台以提供一站式服务,期望能够推动我国公共数字文化服务向数字化、智能化、泛在化的方向发展。
不同的公共文化服务机构所拥有的数字产品在内容、形式、类型等方面都有所不同、各有特点,因此形成了复杂的技术环境。资源整合过程中,必须对该技术环境进行分析和解构,从而制定有效的对策。
1.1多源异构环境
公共数字文化资源整合所面对的首要挑战是资源多源异构的技术背景。从机构来说,公共文化服务体系由图书馆、博物馆、美术馆等多种机构组成,每个机构所拥有和存储的数字资源有很大不同。这就是其面对的“多源性”,即数字资源有多个供应源。由于不同的机构所使用的计算机、数据库和数字产品加工方式各不相同,从而造成数字资源的异构性。跨机构的数字资源存在数据总量大、数据格式复杂、数据类型多样的特点,为用户检索和利用这部分数字资源造成了阻碍。
1.2互操作协议
互操作是在信息检索系统中解决多源异构数据问题的关键技术,对数字资源整合十分重要。针对公共数字文化产品的特点,检索系统应采用多种互操作协议,最大限度地支持多种数据和数据库的类型。目前,数字图书馆应用的互操作协议已经较为成熟,主要为Z39.50与OAI协议。但是,数字图书馆强调目录与索引功能,相比之下,公共数字文化资源偏重于产品的展示与获取,传统的数字图书馆检索系统互操作协议已经不能完全满足此需求。多机构数字资源整合环境下的检索系统,需加入更多的互操作协议以完成更加复杂的数据交换。Java数据库连接(Java Data-Base Connectivity,JDBC)和开放数据库互连(Open Database Connectivity,ODBC)是支持SQL语句的API,可以为关系型数据库提供统一的查询接口[5]。此外,开放链接(OpenURL)是一种附带有元数据信息和资源地址信息的可供运行的URL[6],采用与原文动态链接的方式,能够解决不同机构之间数字资源互操作的问题。在公共数字文化资源整合实现过程中,应针对数据库连接查询的具体类型选择互操作协议,以实现检索系统的兼容与扩展。
1.3知识组织模式
在信息时代的数字化浪潮中,各公共机构纷纷参与数字产品的生产和加工。长期以来,图书馆一直是信息资源建设的标杆和模板,传承并发展了许多信息组织的技术与方法。与图书馆领域不同的是,其他公共文化机构并没有长期涉猎信息资源建设,缺乏知识组织的技术积淀。因此,在数字资源整合中需要制定统一的知识组织模式,为不同机构的资源整合提供技术指引。为了更好地支持检索系统的构建,在资源整合时应采用具有前沿性的知识组织技术。目前,语义网(Semantic Web)技术在数字资源建设中应用较为广泛,对于提升资源利用度和扩展性具有较好的支持。欧洲数字图书馆(Europeana)建设的坎坷历程证明:在整合海量异构数据资源时,制定统一的知识组织标准至关重要。目前,该项目通过资源语义化处理,实现了一站式提供欧盟成员国1000多个图书馆、博物馆等机构的图书、录音、图片、档案、电影资料等资源。
基于上述对多机构公共数字文化资源特点的分析,对检索系统的框架进行重构。
2.1整体构架
如图1所示,整合型检索系统的整体构架主要由四个关键层面构成,第一层是元数据体系,处理不同机构元数据的交换;第二层是资源的描述与组织层,对元数据进行描述和组织;第三层是资源的索引与统一查询,依据元数据和资源特点建立索引点和索引目录;第四层是基于前端的用户界面(User Interface,UI)设计。这种检索系统构架与资源发现系统类似,但由于要实现多个机构之间的数据交互,因此更加复杂。
图1 整合型检索系统基本构架
2.2元数据整合方案
元数据整合是异构数据资源整合的基础,能够实现逻辑层面的数据共享与互操作,保障全局检索的检准率和检全率。然而,公共文化部门的数字资源整合中,各个机构的元数据标准各不相同,如有面向文化遗产的CCO(Cataloging Cultural Objects)、面向文献信息资源描述的MARC(Machine Readable Catalog)、面向地理信息描述的FGDC(Federal Geographic Data Committee)、面向博物馆信息计算机交换的CIMI(Computer Interchange
of Museum Information)以及艺术博物馆描述集AMICO(Art Museum Image Consortium)等[7,8]。元数据描述方案类型众多,这就使得资源整合面临着一定的困难。所幸的是,为了解决未来统一检索面对的异构元数据问题,元数据之间的映射被提出,它能在一定程度上解决资源整合后的检索问题。本文基于元数据映射提出元数据整合方案,对前人关于数字资源整合的研究,采用层次分类的方法进行重构,如表1所示。
表1元数据整合的层次划分与字段描述
层次1来源数据基本信息特点描述扩展信息弹性标签层次2拥有者;描述者;国家;地区;年代范围等题名;责任者;版本;语种;收藏机构等载体形态;分类信息;主题词;标目等;索引项;并列题名;丛编项;提要信息等人工标签;语义标签;社会化标签等
表1总结了不同公共文化机构数字资源元数据描述的字段,并将其划分为2个元数据层次、5个字段描述类别和对应的元数据字段。本文提出的元数据整合方案具有以下特点:一是保障元数据的厚度适中,以便能够根据不同的字段进行检索;二是保障跨机构的数字资源能够在统一的检索架构中进行检索;三是留有一定的扩展性;四是适合利用XML和RDF格式进行语义处理。
如图2所示,跨公共文化机构的数字资源整合,利用元数据分层和映射完成数据的交换和互操作,使检索过程中同一指令能够在不同机构的元数据中进行查询,将结果统一反馈给用户。元数据整合是整合检索系统的基础构架,其对OAI的支持也使得检索系统能够索引到更多来自Web的数字资源。总体上,该构架利用元数据映射完成数据的交换,进而把不同机构的数字资源进行联结,使检索系统能够实现一次命令,跨库检索。
图2 跨机构数字资源整合的元数据描述与映射构架
2.3资源描述格式
对欧洲数字图书馆、国际博物馆协会等机构数字资源整合实践与研究的调查与分析[9]表明,国际上越来越多的机构开始采用XML(schema)格式作为资源描述语言。事实上,对于数字资源整合而言,XML具有支持跨机构、可扩展、语义化处理等优势,是理想的资源整合语言结构。万维网联盟(W3C)近年来所开发的前端语言格式和资源描述语言都对XML提供了较为良好的支持,这是数字资源在未来能够得到持续利用的坚实保障。本研究对检索系统的设计同样采用XML语言,图书情报界对于XML语言已经较为熟悉,本文不再赘述,只讨论针对公共文化数字资源整合检索系统的描述结构。假设有机构1(以博物馆为例)和其对应的元数据层次,一个简单的XML描述的案例如下:
Xml version=”1.0”?>
/*实例名称*/
/*定义网址(url)字段为a*/
/*定义作品拥有着(owner)字段为b*/
/*定义作品国家归属(nation)字段为c*/
…………
/*定义作品责任者(author)字段为e*/
/*定义作品版本信息(edition)字段为f*/
…………
/*定义载体形态(carrier)字段为g*/
/*定义资源分类信息(classification)为h*/
/*定义作品摘要信息(abstract)为i*/
………… /*本例仅说明跨机构数字资源整合中XML字段的定义和描述*/
2.4建立索引
索引是检索系统中的数据交换环节,系统根据命令进行查询,在索引中找到对应数据后返回给前端界面。同时,索引也是决定检索系统响应速度的一个关键技术环节。基于XML的索引主要有节点记录型索引和结构摘要型索引[10],其实质也是基于SQL Server查询语言。如上文所述,跨机构的公共数字文化资源整合中存在一定规模的异构数据,在进行索引和查询时容易造成性能损失,即异构数据检索中检全率和检准率过低导致检索质量低、检索时间过长,从而引起检索效率低。事实上,计算机科学对XML索引查询进行了广泛而深入的研究,目前已有较多研究成果,例如研发了面向异构数据源索引查询的XML-QL、XML-GL、XQuery等语言[11]。我们在构架整合型检索系统时,需要考虑索引数据的结构和类型,以便在实现检索时更好地选择合适的语言进行查询。在公共数字文化资源整合中预先进行元数据的统一定义,其字段信息可以进行互操作和数据交换,以此建立的索引点(如2.3实例中的a,b,c,d等字段)能够实现异构数据源的统一检索,在元数据层面保障检索质量和检索效率。
2.5前端查询系统
随着HTML5、CSS3和JavaScript等前端语言的发展,前端查询的界面、方法、标准趋向统一。而上述的前端技术都对XML提供了较好的支持,甚至说是无缝对接。2014年10月29日,万维网联盟正式宣布完成HTML5标准规范的制定,新的标准使网页能够更好地展现数据驱动带来的成果,也全面支持RDF和XML格式的查询和展现,表现出了较强的兼容性和稳定性。
公共文化机构并非像传统图书馆一样只有书目资源,不少机构都有大量的多媒体资源,因此新的前端技术无疑是展现多媒体资源的福音。对于检索系统而言,前端查询的设计主要是图形用户接口(Graphical User Interface,GUI)设计和与后端数据库的链接,以及可检字段和界面友好性设计。在图书馆领域,资源发现系统已经较为成熟,其界面和字段设计为整合型检索系统提供了参考。
针对公共文化服务机构数字资源的特点,其前端检索应具有以下几个特点:(1)支持统一检索,即不限字段的自然语言检索;(2)支持可选字段检索,根据元数据描述的项目可进行字段设置;(3)检索界面友好,用户通过一次输入或二次输入就可以找到想要的页面或资源;(4)展现出资源之间的关联性和补充介绍。
上述内容给出了整合型检索系统的基本设计框架,但在系统的构建过程中,还需要注意以下几个方面。
3.1重视标准化
在摩尔定律的支配下,计算机技术的发展十分迅速,公共文化机构主要属于信息技术的应用机构,而非研发机构,因此要辩证地看待新技术的应用。在选择新技术进行公共数字资源建设时,选用标准化程度较高的技术和设备能够使资源整合中数据标准更加统一、降低资源描述和组织的难度。如前文在设计跨机构的整合型检索系统时,从底层元数据直到前端技术,采用的均是业界较为成熟、具有贯穿检索系统全部生命周期的标准化方案。如OAI、XML和HTML5等采用了从数据描述、数据组织到数据展现的全系列标准化语言,能够在不同的系统中实现兼容性、稳定性和高性能。
3.2协同构建
数字资源整合非一家之功,需多家机构共同努力。由于检索系统的构建贯穿了数字资源整合的整个生命周期,从资源采集和描述开始,就必须强调多机构的协同构建。理想的协同构建模式是在统一的组织领导下,多机构协同参与,采用同一种标准的数据著录方案,从源头实现元数据的标准控制;在资源组织过程中采用同类型的组织语言对其进行描述和数字化。只有实现了底层的数据结构、标准统一,才能够支持检索系统实现跨机构的精准检索。
而在现实中,不同公共文化机构的资源特点、技术力量、人力资源等情况各不相同,同时在数字资源整合服务中不同机构所收获的利益也不尽相同。这就需要一个强有力的组织机构出面协调各方利益,完成跨机构数字资源整合检索系统构建中的协同工作。
3.3以服务为核心
公共数字文化资源整合的目的是为用户提供服务。一方面,是为繁荣社会主义文化事业,满足人民日益增长的文化需求;另一方面也是为实现社会主义文化成果资源长期保存的目的。因此,整合型检索系统必须坚持以用户服务为核心的主旨,在操作性、用户界面设计、资源可获取性等方面加以考虑。良好的用户入口是吸引越来越多的用户使用检索系统的保障,也是公共数字文化资源整合可持续发展的保障。
1 中华人民共和国国民经济和社会发展第十二个五年规划纲要[J].领导决策信息, 2011(12).
2 李爱玲. 中共中央关于深化文化体制改革推动社会主义文化大发展大繁荣若干重大问题的决定[J].求是, 2011(21).
3 姜晓萍, 陈朝兵. 我国基本公共服务体系的共同趋势与地区差异——基于国家和地方基本公共服务“十二五”规划的比较[J].上海行政学院学报, 2013(6).
4 罗云川, 等. “十二五”时期我国公共文化服务体系建设研究[J].图书馆建设, 2011(12).
5 Hunt J. A Beginner’s Guide to Scala,Object Orientation and Functional Programming[M]. Switzerland:Springer International Publishing,2014:311-333.
6 Archimbaud J L. Identifiants des documents numériques:ISBN,ISSN,URL,DOI,OpenURL ...[EB/OL].[2016-01-27]. http://arch ivesic.ccsd.cnrs.fr/sic_01068135/document.
7 Mugridge R L. Cataloging Cultural Objects: A Guide to Describing Cultural Works and Their Images[J]. Library Collections Acquisitions & Technical Services, 2007, 31(3):230.
9 Yeates R. An XML infrastructure for archives,libraries and museums:Resource discovery in the COVAX project[J].Program-Electronic Library and Information Systems,2002,36(2):72 -88.
10 范颖捷. XML索引与查询的若干关键技术研究[D].上海:复旦大学, 2008.
11 周晓滨. 基于DTD的XML-GL与XQuery的查询转算法[D].济南:山东大学, 2009.
(李白杨武汉大学信息管理学院图书馆学专业2014级博士研究生,肖希明教授武汉大学信息管理学院)
Design of Framework of Retrieval System in the Public Digital Cultural Resource Integration
Li BaiyangXiao Ximing
Based on the characteristics of the technology environment in public digital cultural resource integration, this article proposes an integrated framework for interagency resources retrieval system and the concrete implementing schemes for all sections which include metadata integration solutions, resources description formats, creating index, query system design, and so on. Then, this article proposes some suggestions for the designing of the retrieval system,including valuing standardization, collaborative constructing and regarding service as the core. 2 figs. 1 tab. 11 refs.
Public Cultural Service Agencies; Digital Resource Integration; Retrieval System
2015-11-07
*本文系国家社会科学基金重点项目“公共数字文化服务中的资源整合研究”(项目编号:13ATQ001)研究成果之一。