赵 悦
〔摘 要〕标准规范是数字资源共建共享的基石,是数字图书馆建设的基础。本文在对我国数字资源建设及标准规范应用现状进行简要介绍的基础上,分析了国内外数字资源标准规范建设的情况,研究了基于宏观层面和微观层面标准规范建设的内容,并对我国数字资源标准规范建设的发展提出了建议。
〔关键词〕标准规范;数字资源;数字图书馆
〔中图分类号〕G250.7 〔文献标识码〕A 〔文章编号〕1008-0821(2009)03-0071-03
标准规范是数字资源共建共享的基石,是数字图书馆建设的基础。数字图书馆是在网络环境下建立的数字资源采集、加工、描述、管理、服务和存储的系统,最终要实现数字资源的最大共享化。为保证数字图书馆的资源和服务在整个数字信息环境中的可利用、可互操作和可持续发展,实现数字资源的共建共享,避免新的信息孤岛的产生,必须重视标准规范建设。
1 数字资源建设及标准规范应用现状
1.1 数字资源建设现状
随着现代计算机技术、网络技术的发展,用户对数字资源与服务的需求不断增强。我国图书馆界近年来在数字资源建设方面投入了很大的精力,取得了一定的成果。通过对国内几家大型图书馆的调查分析,可以看出各机构都已自建和购买了大量的数字资源。其中自建数字资源在建设内容上是以中文、馆藏特色资源为主,包含有文本、图像、音频、视频等类型;购买数字资源主要包含有电子图书、电子期刊、电子报纸、学位论文、会议论文、年鉴、工具书、专利标准、文摘索引等内容。随着数字资源的数量增多,标准规范问题已成为数字资源建设与持续发展的关键与瓶颈,其关系到网络环境下图书馆能否实现数字资源的共建共享,能否为用户提供广泛方便的服务。
1.2 标准规范应用现状
通过对国内几家大型图书馆数字资源的元数据及对象数据格式的调查分析,可以看出目前在元数据格式方面是以MARC、DC及基于DC的扩展为主。在馆藏资源数字化建设中,图像数据主要为TIFF(保存格式)、PDF、JPEG、Djvu等格式;文本数据主要为PDF、TXT、DOC等格式;音频数据主要为MP3、RM、WAV、WMA等格式;视频数据主要为MPEG-4、MPEG-2、MPEG-1、AVI、WMV、ASF等格式。
而购买数字资源的数字对象格式,国内的几大数字资源内容提供商大都有自己专有的数据格式,如超星的PDG格式、方正APABI的CEB格式、清华同方的CAJ格式、重庆维普的VIP格式等,需要用户分别安装不同的浏览器,为用户利用资源造成了很大的不便。随着有关国际标准的发展与对用户需求的日益重视,目前许多数字资源内容提供商也都在专有格式的基础上又提供了PDF格式,以方便用户利用资源。但也仍有部分数字资源内容提供商只提供专有格式的对象数据。
2 数字资源标准规范建设分析
随着数字信息资源和网络信息服务的不断发展和丰富,数字资源标准规范建设在世界范围内引起了广泛的关注,国内外多家图书馆、数字图书馆建设项目及标准化组织对数字资源建设相关的标准规范进行了研究和实践。
2.1 我国数字资源标准规范建设
2.1.1 图书馆界
我国图书馆界一直比较重视标准规范的建设与发展。在数字图书馆建设初期,国内图书馆即相继制订了数字资源建设方面的一系列标准规范,例如国家图书馆的《中文元数据方案》;北京大学图书馆的《中文元数据标准框架》;清华大学图书馆在建筑及数学数字图书馆中的元数据方案;上海图书馆的元数据方案等。
近年来,一些国家层面的数字图书馆项目相继启动,在标准规范建设方面均予以了高度的重视。国家数字图书馆工程计划建设30余项数字资源建设相关的标准规范项目,包括汉字处理、惟一标识符、元数据、对象数据、知识组织、资源统计、长期保存等多个方面,以支持国家数字图书馆的规范建设、开放服务;我国数字图书馆标准与规范建设(CDLS)项目由国内多家图书情报机构参与,对数字图书馆标准规范进行了深入研究,发布了百余份技术报告,并且对我国数字图书馆标准规范的发展战略、建设机制等进行了研究分析;中国高等教育文献保障系统(CALIS)发布了《中国高等教育数字图书馆技术标准与规范》,广泛应用于CALIS项目建设中,经过不断地修订完善,已形成了一系列资源、服务与技术等方面的标准规范;党校数字图书馆系统、军队数字图书馆系统、全国文化信息资源共享工程等也在标准规范建设与应用方面,进行了一定的探索与实践。
2.1.2 标准组织
随着数字资源建设的发展,对我国国家标准的需求日益增强,相关标准组织在国家标准的制修订方面一直进行着不懈的努力,尤其是进行了一些国际标准的翻译、研究、转化等工作。例如,全国信息和文献标准化技术委员会正在依据ISO 15836都柏林核心元数据元素集制订国家标准;全国文献影像技术标准化技术委员会也在依据ISO 19005-1(PDF/A)制订国家标准。
2.2 国际数字资源标准规范建设
2.2.1 图书馆界
国际上主要发达国家的数字图书馆建设对数字资源标准规范非常重视。在一些主要的数字图书馆建设项目中都建立了一系列的标准规范或指南性文件以指导数字资源建设与服务。如美国国会图书馆的美国记忆(American Memory)项目对元数据、保存、扫描和转换、文本标记等方面进行了详细的规范;英国的电子图书馆计划发布了eLib标准指南(eLib Standards Guidelines),在该指南中对应用服务、数据交换、元数据、安全认证和支付服务等方面进行了规范;加拿大的文化在线项目也发布了技术要求及推荐指南;另外,澳大利亚、新西兰、日本等国家也制定了一系列数字资源建设的标准规范文件。
2.2.2 标准组织
国际标准化组织ISO、美国国家信息标准化委员会NISO、万维网联盟W3C等标准组织发布的标准中有一些已经被广泛地应用于数字资源建设中。例如ISO标准中的ISO/IEC 10646(UCS)、ISO 19005-1(PDF/A)、ISO/IEC 10918-1(JPEG)、ISO/IEC 14496(MPEG-4)、ISO 15836(DC元数据)、ISO 14721(OAIS)等;NISO标准中的Z39.50检索协议及Z39.89(Z39.50协议在图书馆的应用)、Z39.84(DOI语法)、Z39.85(DC元数据)、Z39.87(静态数字图片技术元数据数据字典)、Z39.88(OpenURL)、Z39.93(SUSHI协议)等;W3C推荐标准中的XML(可扩展置标语言)、RDF(资源描述框架)、OWL(Web本体语言)等。
2.3 综合分析
从国内外数字资源标准规范发展来看,在数字资源建设方面已有一些标准规范被广为应用,成为国际上的主流标准规范。例如,在元数据方面,主要有用于描述的Dublin Core,用于编码传输的METS,用于元数据收割的OAI-PMH等;在对象数据方面,主要有PDF、TIFF、JPEG、MPEG-4等;在惟一标识符方面主要有URI等;在开放链接方面主要有OpenURL等;在长期保存方面,主要有OAIS模型、PREMIS保存元数据数据字典等。
相比而言,国际上较为重视标准的发展,已将一些成熟的规范发展成为了国家标准或国际标准。如前面所述国际标准化组织ISO、美国国家信息标准化委员会NISO、万维网联盟W3C等均发布推荐了一系列数字资源建设中采用的标准。而国内对于数字资源标准规范大都尚处于研究与探索性应用层面,较为缺乏国家标准,这也是导致目前出现重复建设与采用标准不一致的重要原因。
3 数字资源标准规范建设内容
3.1 宏观层面
3.1.1 建立数字资源标准规范体系
随着数字图书馆建设的深入,数字资源标准规范建设已不再仅局限于对单个标准规范的研究与应用,而是应从整个数字资源生命周期的角度,围绕数字资源的创建、描述、组织、服务、长期保存来建立完整的标准规范体系框架,并按照整个框架体系来规划、组织各方面的标准规范建设,这将有助于全面地了解标准规范的内容,系统地认识各标准规范在整个体系中的层次、位置及与其他标准规范的关系,以促进标准规范间的相互支撑和互操作,保障数字资源的开放建设与集成服务。
数字资源标准规范体系的建立也将有助于解决在数字资源建设中如何选择与应用标准规范的问题;以及还需要制订与完善哪些标准规范的问题。
3.1.2 建立标准规范选择制订原则
在数字资源建设中,首先要解决的即是面对众多的标准规范如何选择与应用的问题,要确定选择标准的几项基本原则,如成熟性原则、前瞻性原则、开放性原则等,并确定标准应用的原则,如何时应用、如何应用、应用范围等。在此基础上,在数字资源标准规范体系框架的指导下,进一步确定还有哪些标准规范是数字资源建设中需要的,而目前又没有的,需要我们制订。
3.2 微观层面
3.2.1 主流标准规范
在数字资源建设中,围绕数字资源生命周期的主流标准主要包括字符编码、对象标识、数据格式、元数据、检索服务、长期保存等方面。
(1)字符编码
字符编码方面的国际标准、国家标准主要有ISO/IEC 10646、Unicode、GB2312、GB18030、GB13000等。其中,ISO/IEC 10646是国际字符编码标准;Unicode是与ISO/IEC 10646内容基本一致并且同步发展的工业标准;而GB2312、GB18030、GB13000是目前我国字符编码方面的主要国家标准。
(2)对象标识
对象标识方面的标准主要有URI、DOI、SICI、BICI等。其中,URI统一资源标识符,是所有标识互联网资源的地址和名称的通用集合,包含URN和URL;DOI数字对象标识符,是用来标识数字环境中的内容对象;SICI是用来标识期刊和期刊包含文章的标识符;BICI是用来标识图书和图书包含内容的标识符。
(3)数据格式
数据格式方面的标准非常多,不同资源类型、不同应用级别需要采用不同的格式标准。目前在数字资源建设中主流的对象数据格式标准主要有ISO 19005-1(PDF/A)、ISO/IEC 10918-1(JPEG)、ISO/IEC 15444(JPEG2000)、ISO/IEC 11172(MPEG-1)、ISO/IEC 13818(MPEG-2)、ISO/IEC 14496(MPEG-4)及一些工业标准,如TIFF等。
(4)元数据
随着数字资源的发展,元数据标准呈现多元化的发展趋势,国内外针对不同领域、不同资源、不同应用已有多种元数据规范存在。如主要用于传统文献描述的MARC,用于网络资源描述的DC,用于档案资料描述的EAD等。除描述元数据外,技术元数据、管理元数据、保存元数据等近年来也日益受到重视。
(5)检索服务
检索服务标准对于实现数字资源系统间的互操作非常关键。在数字资源建设中比较常用、通行的标准主要有Z39.50信息检索协议,该协议是实现联机书目检索服务的国际标准;OAI-PMH元数据收割协议,是实现元数据互操作的协议标准;OpenURL开放链接协议,是实现资源对象调用获取的协议标准。这些协议在数字图书馆建设中已经被广泛地采用。
(6)长期保存
OAIS开放档案信息系统参考模型已成为ISO标准(ISO 14721:2003),被普遍接受为数字资源长期保存系统的基本框架,被国内外众多图书馆的数字资源保存项目所采用。此外,在长期保存元数据方面,OCLC推出的PREMIS保存元数据规范的应用与发展前景较好,已被许多项目所采用。
3.2.2 重点发展方向
根据目前数字资源标准规范的发展现状及趋势,我国图书馆界应对以下几个方面予以重点研究:
(1)元数据映射规范
鉴于目前多种元数据格式并存的情况,建立元数据格式间的映射规范是实现元数据互操作的有效方法。例如美国国会图书馆在MARC21、Dublin Core、MODS等之间建立的映射(Mapping)关系。
(2)CNMARC XML规范
鉴于ISO 2709格式的局限,为适应新的通讯环境,更好地实现不同机构间CNMARC数据的交换,应将基于XML的CNMARC数据交换格式(CNMARC XML)作为未来重点发展方向。可参照ISO/DIS 25577 MarcXchange,以及美国国会图书馆的MARCXML规范。
(3)DC元数据的应用规范
DC元数据已成为ISO标准(ISO 15836:2003),并且也正在被发展成为我国国家标准,鉴于其具有简单性与扩展性强的特点,可以建议作为各机构进行数字资源描述的最小集、核心集,既有利于实现元数据的互操作,也能通过扩展满足不同机构、不同类型的应用需求。
(4)管理元数据、保存元数据规范
管理元数据和保存元数据规范目前在国内的研究与实践相对薄弱,应是未来元数据规范的重点研究方向。
(5)网络资源长期保存规范
网络资源的长期保存是我们所面临的重点和难点,其规范建设涉及很多方面内容,包括文件格式、描述格式等一系列问题。目前,ISO正在发展的WARC(Web ARChive)文件格式,我们应该予以关注。
4 我国数字资源标准规范建设的发展建议
我国数字图书馆经历了10余年的发展,在数字资源建设与服务方面已取得了一定的成果,标准规范问题也越来越受到重视,已有一些国际标准、国家标准、行业标准或事实标准在我国数字资源建设中被广泛地、普遍地采用,但在一些方面也还仍然缺乏标准规范的支撑,尤其是数字资源建设方面的国家标准比较少,关于标准规范合作、开放建设与共享的机制也还需要在业界达成共识。
为了保证数字图书馆建设的可持续发展,保证数字资源建设的共建共享,我国数字资源标准规范建设应坚持科学化、系统化和规范化相结合,采取合作、开放与共享的方式进行建设。尽快建立标准规范开放登记机制,加快我国国家标准的制修订,加快相关国际标准的本地化,加强标准规范的宣传贯彻,重视标准规范的具体实施,并关注国际数字资源标准规范的应用与发展,以进一步促进我国数字资源建设的标准化进程。
参考文献
[1]彭绪庶,蒋颖著.资源数字化标准问题研究[M].北京:北京图书馆出版社,2005.
[2]张晓林,等.我国数字图书馆标准规范发展战略[R].2004.3.
[3]张晓林,等.我国数字图书馆标准规范建设与应用的实施指南[R].2004.5.