用于数字资源长期保存的开源软件比较分析
李爱明
(湖北工程学院, 孝感 432000)
摘要:目前,世界上数字档案馆和数字图书馆项目开展的如火如荼,以实现对不同领域、不同格式数字资源的组织与管理。开源软件常常被用来组织、存贮和检索数字资源。文章在探讨数字资源长期保存评价标准的基础上,通过构建一个测试环境,对现有数字图书馆开源软件(OSS-DL)的信息资源长期保存功能进行对比分析与研究,期望为用户选择开源软件提供参考借鉴。
关键词:数字图书馆;开源软件;数字保存;CDS-Invenio;Fedora;DSpace;GreenStone;Eprints;MyCoRe
中图分类号:G250.71
文献标识码:A
文章编号:1006-1525(2015)01-0075-04
Abstract:Digital archives and digital library projects are being initiated all over the world in order to achieve different formats and domains in the units and organization of resources. Open-source software is often used to organize, store and retrieve the digital content. In this paper, the evaluation standard about long-term preservation of digital resources is discussed. By constructing a test environment, the author makes an analysis and study of the long-term preservation function of digital resources about existing open-source digital library software (OSS - DL) with the hope of providing a reference for the users to select open -source software.
基金项目:湖北工程学院科研项目(R2014019)
作者简介:李爱明,女,副研究馆员。
收稿日期:2014-07-28
Comparative analysis of open-source software based on the long-term preservation of digital resources
LI Ai-ming
(Hubei Engineering University, Xiaogan432000, China)
Key words: digital library; open-source software; digital preservation; CDS-Invenion; Fedora; DSpace; GreenStone; Eprints; MyCoRe
引言
网上数字信息不断产生,其格式多种多样,如 pdf文档、doc文档、mp3文件、mpg视频文件等。数字信息爆炸性增长并以异构的形式存在,增加了其被利用的复杂性。同时,创建数字信息的软件与硬件不断变化,对数字资源的保存及将来的使用提出了重大挑战。我们知道,存在于互联网或内联网上的数字资源,其数字存储的目标之一是不管创建资源的格式与应用程序是什么,必须保证数字资源的正常输出。数字文档被添加到数据库,通常都是由提供支持数字内容长期保存的开源软件来完成。本文首先探讨开源软件用于数字资源长期保存的评价标准;然后通过安装具有代表性的数字图书馆开源软件(OSS-DL),进行数字保存实验,从数字资源长期保存的角度对数字图书馆开源软件进行比较分析。
1开源软件
目前,大量的开源软件项目被用来建设数字图书馆、机构知识库、数字档案馆或数字资源库。开源软件在开源许可条款与条件下可免费获得,也可在获取其资源代码后对其加以修改,使其在此基础上进一步的发展、定制和再分配[1]。例如北京大学图书馆早在1998年就与新西兰数字图书馆合作,利用他们的Greenstone开源软件系统进行拓片项目和学位论文文摘及索引项目的建设[2]。
自1997年以来,开源软件(OSS)声称占有了巨大计算机产业的市场份额,用户在网上可获取大量的OSS,世界上最大OSS开发网站是SourceForge.net。目前,SourceForge仓储聚集了30多万个项目,有4600多万注册用户[3]。OSS被应用于图书馆各个方面,其中最重要的一项应用是建设数字图书馆。作为创建数字图书馆的工具,OSS逐渐被认为是建设商业数字图书馆系统的选择,其它商业软件因某些功能缺陷、费用高昂、支持不足等原因不能满足应用需求。OSS-DL以其可免费获得以及功能性强的优势,已被全世界大量机构所使用。
2数字资源长期保存
数字资源长期保存是指为保证数字比特流可长期维护和其内容可长期获取的必要管理活动,有两层含意,一是长期存储(storage),二是长期可获取(access)。数字保存适用于原生数字文档的保存、在线文档的存储、以及模拟数字转换产品的保存,它涉及许多程序来进行电子文档的长期保存,并供人们长期访问。相比纸质印刷型文献,数字资源保存过程更复杂,既要组织信息内容,又要保证长期保存,并能与不断发展的技术相适应,确保经过多年后仍能够被用户检索与获得。由于数字资源保存依赖于网络,而信息技术变化很快,硬件和软件都在不可预测地老化,故存储媒体稳定性较差,若干年后可能会因无法进入保存数字信息的物理存储介质造成数字信息丢失。在使用方面,多数情况下信息机构仅购买了数字资源的使用权,可能会因多种原因,数据库商或其委托的镜像服务商有可能终止经营或者停止向用户提供服务。一旦出现上述问题,数字资源就无法使用。因此,数字资源的长期保存问题一直是学界研究的热点。
3开源软件用于数字资源长期保存的评价标准
目前,国际上尚没有形成数字资源长期保存的权威标准体系。数字资源长期保存评价标准涉及数据录入、数据管理、元数据管理、唯一标识系统、认证授权与安全等多个方面,贯穿到知识库系统的编目、查询、检索、流通的工作流程中,涉及的标准多且复杂。下面将从数字资源长期保存的角度,探讨在使用OSS-DL建立资源库时应用到的相关标准。以下定义的标准是从相关研究及其它探讨有关OSS-DL数字资源长期保存的资料中总结出来,主要标准有:
(1)文件特征(如大小、格式等)
①是否支持任何数字保存策略?如果是,它是否明确地支持一些特定的保存策略,如位阶保存、格式迁移或对提交文件格式的限定。
②是否保存文件的原始特征?如文件名、文件大小以及创建日期。
③如何管理复合对象?(同一对象的多种文件格式被链接在一起的情况)
④能否添加或删除新的文件格式?
⑤是否有能力处理多种文件格式,并支持文件格式版本?
⑥是否使用格式注册?如果是,使用哪种格式注册(如PRONOM、GDFR、DCC)来表示格式信息?
⑦使用什么标准来描述文件格式?软件是否记录表征信息?是否使用网络MIME类型?
⑧是否支持自动格式注册?对于未知格式,系统是否发信息给提交者索取有关文档格式描述的附加信息?
(2)完整性检查
①是否对那些被添加到知识库的数字文档进行数据完整性检查?
②是否有质量控制措施确保被添加到知识库的每个文档的完整性与持续识别?
③是否能维持提交对象保存后的永久识别?
(3)元数据
①是否支持每个被添加到知识库的文档的元数据保存,如出处、真实可靠性、保存活动、技术环境。
②软件在进行数字保存时实际数字文件和元数据的保存位置。
③软件怎样验证存储对象及元数据的准确性?能否对元数据进行自动检查?
(4)许可、权利与认证
①是否有机制来保持对知识库中单个图像/对象的许可状态?
②是否支持跟踪与管理著作权;支持合同或许可证上所要求的使用限制?
③能否定期自动验证校验和?
④校验和能否密码签名以防止被篡改?
⑤是否对发生在程序包生命周期中的所有事件提供审计日志?
⑥如果知识库接收到具有不明确所有权的数字内容,软件是否有策略处理那些因所有权造成的不利因素与挑战?
⑦是否有机制决定数字资源库中的对象何时应该迁移到新的硬件与软件?
⑧是否支持预定事件?如按预定时间表通知人们对过时的格式进行手动检查。
4比较分析
首先建立一个测试环境,在这个环境下将安装一些主要的OSS-DL,所有被选择安装的软件都可在开放资源许可条款和条件下获得,主要有CDS-Invenio、space、Eprints、Fedora、Greenston和MyCoRe。这些软件程序常常被用来创建数字档案馆、数字图书馆、机构知识库[4-7]。它们被安装在Debain Lenny操作系统中,该系统拥有2GB的RAM和1TN的磁盘空间。
所安装的每种软件都是最近的版本,分别为:CDS-Invenio(版本0.99.3)、Dspace(版本1.7.0 )、Eprints(版本3.2.4)、FEDORA(版本3.4.2)、Greenstone(版本2.8.3)和MyCoRe(版本2.0.2)。为了检验软件对不同数字资源类型的保存特征,上传了一个小型馆藏,该馆藏具备所有文献类型,如文本文件、音频文件、视频文件、数据集文件等。
根据前面提到的标准,我们将从以下几个方面进行比较:
(1)元数据支持。理论上,每个被添加到知识库的数字文档必须附有一个详细说明。软件应具有为每个数字对象添加管理性、结构性文献详情的功能。元数据保存包括数字内容格式、结构及使用的技术性细节、所有对资源的操作历史、文档的责任与权利等。从数字资源长期保存的观点来看,管理性、技术性的元数据是非常重要的。目前不同类型的文档有不同的元数据格式,主要有Dublin Core、MODS、MARC、METS、LOM、ETDMS、MPEG21/DIDL等[8]。
(2)永久识别。为了实现数字馆藏的长期稳定管理,永久识别是必须的。文档被添加到数字储存软件后,系统将给每个文档分配一个唯一的识别码,这有助于为网络上的数字文档建立一个唯一的、广泛支持的识别体系。
(3)校验和与版本支持。校验和是一个用来检验数字资源有效性的计算机值。通常,校验和被用在通信环境中检测数据是否被成功地传输到网络。版本支持是指软件是否支持文档的不同版本[9]。
(4)自动格式识别。对数字知识库进行设定以识别某些常见的格式。
(5)审计日志。主要跟踪用户的相关操作与活动。
(6)文件的详细信息。包括文件名称、文件特征等。
(7)实际数据文件存储。实际文件和元数据分别被保存的位置。
通过运行测试,对六种软件的比较分析如表1:
表1 测试结果
CDS-InvenioDspaceEprintsFedoraGreenstoneMyCoRe实际数据文件存储实际文件被保存在“data”目录,元数据被保存在“mysql”表中。实际文件被保存在“assetstore”文件夹,元数据被保存在“postgres数据库中。元数据被保存在“mysql”中,实际文件被保存在Eprints“disk0”目录中。实际文件被保存在“data/datastream”文件夹,元数据文件被保存在“mysql”数据库中。所有文件及元数据被保存在“import”文件夹。元数据以metadata.xml文件保存。元数据与实际文件被保存在“data”文件夹中。
通过以上比较分析,Dspace、Fedora、Eprints具有较完备的数字资源长期保存策略。FEDORA从数字保存的角度能支持较多的重要功能,但是它缺乏友好的界面,因此,它被安装得不多。现在,Dspace和Eprints被大量用于建设数字存储库。Eprints具有较大的灵活性,能按用户的实际需求进行相应改进,在全球的用户较多。Dspace遵从相关标准、支持任意类型的数据内容存储、兼容性强、具有高度的可扩展性,界面友好,受到各高校及研究机构青睐。目前,大量的知识库采
用Dspace来建设,如清华大学图书馆于2004年就开始基于Dspace进行各种应用探索[10]。
5结语
关于数字信息的保存,还有许多值得了解和研究的地方。对国外代表性的开源软件进行研究与借鉴,有助于掌握其核心技术,加快我国数字图书馆建设的进程。目前,我国数字资源长期保存的发展状态仍然还处于比较早期的实验阶段。今后,图书馆将处理更多的数字资源,因此,这些软件程序必须通过更友好的界面提供合适的数字保存支持。诚然,众多的开源软件给图书馆应用和数字图书馆建设发展带来了生机, 图书馆在选择开源软件时,应考虑多方面的因素,如资金、技术力量,以及是否有能力对开源软件进行扩展与改进等。各软件无绝对的优劣之分,应结合图书馆实际来进行选择。
参考文献:
[1] 耿庆军,王朋,孙华玮.开源软件在教育信息化中的应用研究[J].软件导刊,2010,(4):26-28.
[2] 钱国富,涂颖哲.基于开源软件的图书馆2.0建设研究[J].图书情报工作,2007,(5):63-66.
[3] http://sourceforge.net/,2013-10-1.
[4] http://www.dspace.org/,2013-11-4.
[5] http: //www. fedora-commons.org/,2013-11-4.
[6] http: //www. eprints. org/,2013-11-4.
[7] http: //www. greenstone. org./ ,2013-11-5.
[8] 路莹,郝继英,王红军.开源软件在图书馆的应用研究[J].现代情报,2012,(12):140-142.
[9] Linstead E, Bajracharya S, Ngo T, et al. Sourcerer:Miningand searching internet-scale software repositories[J].DateMining and Knowledge Discovery,2009,18(2):300-336.
[10] 曾婷,董丽.Dspace的相关研究进展及应用探索[J].现代图书情报技术,2007,(6):11-15.
(责任编辑:王靖雯)