国际档案馆应用云计算的平台和模式研究

2016-03-10 13:29程妍妍
档案管理 2016年1期

程妍妍

摘 要:从缩短我国档案机构摸索和运用云计算服务周期,提高其运用效率和质量出发,对目前国际档案馆应用云计算的主要平台和模式进行调研,包括公共云、私有云、混合云和领域云四种模式,并对每一种模式进行了案例分析,为我国档案领域积极引进和运用云计算服务,提供最佳实践指南和有益借鉴。

关键词:云计算平台;公共云;领域云;混合云

Abstract:To shorten the period of exploration and application of cloud computing services in our archives,as well as improve the efficiency and quality of the application, the paperconducts a survey of international archives main platform and mode of cloud computing,including public cloud, private cloud, hybrid cloud and community cloud, each mode withcase studies analyzed. It aims at providing best practice and useful reference for the introduction and use of cloud computing services in our archives.

Keywords: Cloud computing platform,Public cloud, Community cloud,Hybrid cloud

据国际数据存储和管理公司(EMC)的一份研究报告预测[1],从2009年至2020年,每年数字信息的新增幅度将达40余倍,而每年新生成的数字信息,三分之一以上都会存储至云环境中。在此背景之下,国际档案界正在积极主动地运用云计算技术进行馆藏存储、格式迁移等工作,其积累的宝贵经验可以缩短我国档案机构摸索和运用云计算服务的周期,提高其运用效率和质量。因此,本文通过调研和分析国际档案馆应用云计算的主要平台和模式,为我国档案领域积极引进和运用云计算服务,提供最佳实践指南和有益借鉴。

1 国际档案馆应用云计算的必要性

所谓云计算,指的是一种按使用量付费的计算模式,这种模式可提供方便快捷、按需的网络访问,进入到以服务形式提供给用户的计算资源共享池(包括网络、IT资源、存储、应用软件)。云计算服务商可以为档案馆提供软硬件设施、应用服务、存储资源等动态虚拟化资源,来支持档案资源的存储、长久保存、管理、利用等服务。

国际档案馆应用云计算服务的必要性主要来自于:(1)受政府“云优先”采购技术的推动:目前,各国政府为减少系统维护费用和寻求更高程度的资源利用效率和控制能力,纷纷出台或计划“云优先”(Cloud First)的信息化采购策略,例如英国政府2012年制定的“云优先”政策中,规定所有政府部门的信息化建设和产品采购都应优先考虑使用云计算的潜力,英国国会档案馆成为这项政策的先驱实践者,成为英国国会第一个部门应用G-Cloud框架来进行云存储的实践者;(2)云计算在数字档案长久保存方面具备特殊优势,主要表现在:云服务价格低廉,可以大幅度减少长久保存工作费用,特别适用于小型档案馆;云服务商可以为档案馆量身定做适用于其需求的长久保存工作、方法、工作流和服务协议等;云服务可以提供方便自动化的档案备份和专业化的完整性校验、存储等工作,其保管数字档案位流的能力可能会超过档案馆自身的系统能力;云服务灵活、易测试和实验等。

2 国际档案馆应用云计算的主要平台

国际档案馆应用云计算的平台主要分为两种,通用和专业云计算服务商。

(1)通用云计算服务商:通用云服务商向全球各领域提供服务,可对大数据集进行存储和处理,代表包括Amazon Web Services (AWS)、Google、IBM、Microsoft云服务等,例如美国国家档案馆应用通用云服务Amazon EC2,转化希拉里作为第一夫人期间大量PDF格式档案,9小时转换完毕,费用仅144.62美元。一般来说,通用云服务商提供的服务比专业服务商价格低,用户帮助和开发支持服务更完善,用户群也更广泛,但是,通用云服务商通常不能够完全满足档案领域的专业需求,例如档案采集、处理、长久保存、数据丢失和恢复等。

(2)专业云计算服务商:专业云服务商通常是在通用服务商提供的基础设施基础上,附加了一层档案工作流和方法层,专门提供给档案机构使用。专业云服务商代表包括Arkivum、DuraCloud、Preservica、Archivematica等,这些云服务商收费比通用服务商略高,服务时间通常以月或年计算,而不是像Google等以小时或分钟计算。专业云服务商可以为档案机构实现基于云的档案长久保存和利用功能,可以以云主机或本地部署安装的形式支持这些功能的完成。其中有一些专业云服务商提供非常有针对性的服务,例如美国互联网档案馆提供的云服务“Archive-It”专门针对Web站点归档。

3 国际档案馆应用云计算的主要模式及案例

目前,国际档案馆应用云计算主要有四种模式:公共云、私有云、混合云和领域云模式。

3.1 公共云模式及案例。公共云模式,指由云服务商提供档案馆所需的各类资源,例如服务器资源、应用软件等,档案馆以免费或按量付费的形式通过网络来使用这些资源,云中资源的运营和维护完全由云服务商负责。公共云是目前使用最为广泛的方式,世界各地都有提供商业服务的大型云数据中心。公共云服务主要通过在用户间共享昂贵的硬件资源,在同一个物理服务器上运行多个安全虚拟机来降低经济成本,可用于档案馆档案存储和其他长久保存任务。使用公共云模式的档案馆例如多塞特历史中心档案馆(Dorset History Centre)[2]。

多塞特历史中心档案馆,为多塞特、普尔和伯恩茅斯三个地方政府提供档案采集、利用和长久保存服务。该馆从2010年开始和ancestry.com项目合作,数字化五十万份数字图像文件,提供网络利用,未来还需要长久保存大量数字化胶片档案和音像档案等。该馆使用的是公共云Preservica Cloud Edition提供的数字档案长久保存服务,其获取的主要经验是:(1)档案机构应在云服务方面采取主动,因为数字档案的长久保存工作,只不过是档案机构核心职能在数字时代另外一种形式的延续。长久保存工作对档案领域来说是一种挑战,同时也决定档案机构存在的必要性。(2)采用云服务,获取持续性经费支持是非常重要的,因为云服务需要资金的不断投入,该馆计划在未来3年,能够通过收费服务或广告赞助在数字长久保存方面产生收益,或是进一步研究基于云服务的用户收费机制。(3)地方政府对使用云服务会有疑虑,主要集中在安全性问题,为确保安全,一是明确远程存储数据的物理地址,该馆在选择云服务商时就考虑到服务器的地点问题,采用的Preservica Cloud Edition是基于亚马逊位于都柏林的服务器存储档案数据,确保数据存放的物理地址位于欧盟区内;二是云服务商安全资质,该馆对云系统进行风险评估,建议云系统在存储和处理档案信息时达到政府云存储认证标准第一或第二级别,达到该级别后档案仍然会面临一些风险因素,档案馆必须对这些因素进行评估。

3.2 私有云模式及案例。私有云模式,指档案馆单独构建云环境,具备云环境所需的基础设施、应用软件、数据等,通过大型物理服务器集的虚拟化以及实施方法来让用户按需获取计算资源。这样既复制了公共云的优势,同时也保持了对硬件、数据和成本的直接控制。在私有云建设中,机构规模很重要,因为档案机构需要足够大型的IT基础设施来支持弹性按需资源获取和用户快速申请新虚拟机。

私有云最适合于那些已经具备大型数据中心、设备和员工的档案机构,只需要增加投资即可。档案机构可以使用专业云服务提供商提供的本地部署软件来创建私有云,实现档案存储和数字长久保存功能,例如DuraCloud提供OpenStack版本支持机构建立私有云服务。使用私有云模式的例如牛津大学图书馆。

牛津大学图书馆为其档案材料数字馆藏提供私有云服务,该图书馆具备300TB的数据容量,未来三年将计划在Petabyte级别展开数据归档,目前主要内容是图像和文本,未来将扩展至音视频和其他格式档案。该馆建立的私有云主要为研究人员提供研究档案数据的存储服务,按月付费,基于Vmware ESX系统建立,在多个地点集群服务器上运行。该机构在云建设方面的经验是:(1)云服务风险对档案机构来说比服务提供商更高,因为一旦云服务商停止运行,可能无法及时把数据导出来。一旦发生问题,对档案机构的影响要远大于云服务商,档案机构需要在实施云服务时降低这种风险和实施退出战略。(2)私有云建立不简单,得面临大量的数据集、网络基础设施和带宽问题。(3)采用共享的私有云服务或者是集合相同目标的机构形成联盟,共同完成云,对档案机构来说更为可行,类似美国数字长久保存网络服务联盟。(4)私有云维护费用较高:该馆目前主要针对研究数据存储收费,其付费收入模型从长期看是非常昂贵的,该项目也担心未来将数据提取出来的费用也会代价太高,因此,也在研究考虑未来采用公共云Arkivum的可能性。

3.3 混合云模式及案例。混合云模式,指由档案馆和云服务商共同建造云。混合云主要基于信息安全考虑,对于涉密档案资源和关键应用程序可以运行在档案馆自身的私有云中,而普通的应用程序可以运行在服务商提供的公共云中。档案馆应用混合云,可以充分利用公共云的规模和弹性,存储大规模的公开数据或者执行批量的格式转化任务。而在私有云中,易于控制和确保数字档案的真实性,可以用于存储密级档案。理想的系统可以充分利用两者的优势,无缝链接。使用混合云架构的例如英国国会档案馆[3]。

英国国会档案馆负责管理、长久保存和提供英国国会相关历史档案的利用。该馆目前拥有50TB档案材料需要采集,格式包括PDF、JPEG、TIFF、Audio Visual (AV)、CAD、Web和XML等。该馆在本地存储系统存储涉密敏感信息,同时使用公共云(G-cloud)存储公开信息,形成混合云结构。英国国会档案馆应用云的经验是: (1)档案馆应用云服务应首先考虑管理数据的完整性、信息的安全性以及如何在服务发生变更时将数据完整取回。(2)云中数据的安全性方案:该馆决定只使用云存储公开档案,其他档案本地存储。但是未来将对云服务提供商进行资质审查,以决定是否将密级档案交由云存储。(3)云服务商的依赖性问题:单独依赖于一家云服务商保管数字档案是否稳妥值得商榷,特别是在发生业务终止,或出于风险管理的考虑。因此,该馆同时选择两家云服务商,其中一家相当于应急备份,作为退出战略的一部分,并且这两家云服务商使用的是完全不同的底层技术,一家云服务商基于Amazon S3,另外一家基于EMC Atoms,以确保不依赖于特定的技术。

3.4 领域云模式及案例。领域云是云的一种特殊实例,领域云仅提供给特定领域的用户使用,例如亚马逊公司在美国运行的一个版本的云环境,仅供美国联邦和州政府使用。从体系架构上说,该领域云和亚马逊公共云服务效率一样高,但是其利用只限定在一定范围的用户。无论机构采购的是公共、私有还是混合云资源,如果仅提供给一定范围的用户使用,都可以视作领域云。领域云先驱性的项目例如威尔士数字长久保存联盟[4]正在朝领域云的方向过渡。

威尔士数字长久保存联盟,是威尔士档案和文件委员会内部成立的,致力于威尔士数字化和原生档案的长期利用问题,成员来自政府各部门、院校等,由于该工作组的成员来自于不同的部门,因此项目需要在各个具体的需求中取得平衡,共享最佳实践和尽量争取采用一致的方法。该项目计划向固定的用户群提供云服务,因此可视为领域云,具体的云技术包括开源归档软件Archivematica和CloudSigma云存储,其使用云的经验是:(1)在云项目正式上马之前,开展一些测试性的项目是非常重要的,可以获取关于系统的实际经验。该项目测试了Archivematica、Microsoft Azure、CloudSigma、Preservica等云产品,这些测试让成员在系统操作中理解了长久保存理论的实施,加深理解,同时,项目也对不同云服务的优劣进行了比较和选择,例如对微软提供的Microsoft Azure平台和云服务提供商CloudSigma进行了比较,当使用微软平台的时候,为保持和机构归档系统(基于Linux)的兼容,测试组不得不在云平台和归档系统之间增加了一层虚拟化层,增加了成本和云实施的复杂性。因此,选择云产品也要考虑和档案机构现有系统的兼容性问题。(2)在使用领域云的时候,能够提供基于浏览器的接口来实现共享云安装是非常具备前景的,威尔士的所有机构能够合作建立领域云基础设施,通过浏览器提供数字长久保存软件的利用和云存储链接。

参考文献:

[1]Kendz.y.2010年全球数字信息量可达1.2ZB[EB/OL].2014-4-22.http://www.jifang360.com/news/2010624/n69407438.html.

[2]The National Archives.Case Study:Dorset History Center[EB/OL].2014-4-22.https://www.dorsetforyou.com/dorsethistorycentre.

[3]UK Parliament.Digital Preservation in Parliament[EB/OL].2014-4-22.http://www.parliament.uk/business/publications/parliamentary-archives/digitalpreservation/.

[4]The National Archives.Case Study: Archives And Records Council wales Digital Preservation Working Group[EB/OL].2014-4-22.http://archiveswales.org.uk/.

(作者单位:南京政治学院上海校区军事信息管理系 来稿日期:2015-09-18)