安新宇 钱毅
摘要:备份是防范风险、维护档案数字资源安全的重要手段。综合档案馆进行备份介质选型时,存在选型要素研究零散、介质管理动态性强、备份数据分级策略不清等问题。论文在分析备份介质技术基础与实践现状的基础上,对选型要素进行多来源的全面收集和重新聚类,构建了涵盖介质、管理、对象三个维度的选型要素整合框架,有助于综合档案馆形成更有针对性的备份介质选型方案。
关键词:备份介质 档案数字资源备份 介质选型
Abstract: Backup is an important means to pre? vent risks and maintain the security of digital archival resources. The selection of backup media for compre? hensive archives has problems such as fragmented research on selection elements, dynamic media man? agement and unclear classification strategy of back? up data. Based on the analysis of the technical foun? dation and practice status of backup media, this pa? per comprehensively collects and re-clusters the se? lection elements from multiple sources, and con? structs an integrated framework of selection ele? ments covering three dimensions of media, manage? ment and object, which helps comprehensive ar? chives form a more targeted backup media selection scheme.
Keywords:Backup media;Digital archival resourc? es backup;The selection of backup media
檔案数字资源对技术环境的强依赖特点导致数据灾难发生的风险增加。根据IBM报告,2022年数据泄露或丢失等安全事故频发,数据恢复成本相比2020年攀升了12.7%。[1]安全技术公司SOPHOS的一项调查显示,在网络攻击勒索中,通过备份(56%)找回数据的人数是支付赎金(26%)的两倍之多。[2]备份已经成为综合档案馆重要的工作内容,但如何选择合适的备份介质、如何在全面考量选型要素的基础上形成针对性的介质选型方案一直是困扰综合档案馆的难题。综合档案馆作为档案数字资源保存主体,亟须依据馆藏特点、管理需求和多介质性能差异,形成有针对性的备份介质选型方案。本文拟就备份介质选型展开研究。
综合档案馆备份工作的实质是在资源对象复杂化的现实中实现支撑灾难恢复、维护档案安全的目标,备份介质选型方案的形成需要以此为准绳,为综合档案馆备份工作提供良好的物质基础。
(一)适应备份对象复杂化是备份工作的现实任务
备份工作的主要对象是以档案数字资源为代表的海量数据,其复杂化特征主要体现在三个方面。一是档案数字资源对象愈发多元,数量规模将急剧攀升。综合档案馆馆藏档案数字资源类型发展很快,从纸质件的数字化副本,到自身携带大量元数据的增量电子文件,再到蕴含大量规则信息和数据内容的数据态对象,包括数据库、三维模型等。各省“十四五”规划在馆藏量、归档率方面制定了目标,如山东省提出全省馆藏档案数量增长45%以上,[3]综合档案馆备份的数据量预计将大幅攀升。二是综合档案馆备份对象将逐步从冷数据为主拓展到冷热温兼具。当前综合档案馆的备份对象以数据量大、访问频率和活跃度低的档案冷数据为主,随着技术升级,备份对象将逐渐拓展,从单纯的冷数据载体托管型备份,逐渐向维系业务连续性的热数据备份拓展。三是备份对象将从相对单纯的数字资源扩展到系统。国家“十四五”规划已经提出建设国家电子档案战略备份中心的任务,综合档案馆的备份对象将不再止步于目前主要的档案数字资源,有望进一步延伸扩展至应用系统、应用环境乃至数字档案馆基础设施整体。
(二)支撑灾难恢复是备份工作的直接目标
备份工作的直接目的是应对各类风险因素引发的灾害事故,如信息系统的严重故障甚至瘫痪。在灾害发生导致档案数字资源丢失、损坏时,能够通过备份资源进行有效恢复。从某种程度上看,备份数据只有在灾难发生后才有意义。备份工作是为了灾难发生后将数据恢复至某一时间点的完整状态,其实施需要合适的备份方式与合理的备份周期等策略的配合。在灾难未发生时,备份主体对于备份数据的需求是较低的,备份介质能够支持数据正常读取即可。在备份实践中,需要在备份周期内维护备份载体自身的物理安全,并保证备份数据的正常读取,因此选择适宜的载体完成备份任务对综合档案馆来说尤为重要。
(三)维护档案安全是备份工作的基本使命
备份是指“为防止出现操作失误或系统故障导致数据丢失,将全部或部分数据集合从应用主机复制到其他的存储媒体或系统的过程”《信息技术备份储存备份技术应用要求》(GB/T 36092—2018)。因此进行备份活动的基本使命在于维护档案安全,为馆藏档案数字资源打造一张“防坠网”,尽力实现档案数字资源不丢失、档案馆服务不停摆。馆藏资源是档案馆的立身之本,在规范形成、实体保护、技术保存、语义管护的基础上,[4]备份进一步降低不可抗力等通过有效管理无法解决的风险因素,使档案即使在已经损毁甚至灭失的情况下,仍能迎来“重生”。
进行备份介质选型研究,有必要对各类主流备份介质的基本特性、优缺点及当前技术发展的态势进行了解。
(一)磁带
作为存储介质中的“世纪老人”,磁带一贯具有容量大密度高的优点,当前最新的存储型磁带LTO-9标准容量据称能够跃升至18TB~45TB,在10年总拥有成本比较研究中,LTO-8磁带比磁盘存储便宜7倍,比云系统便宜3倍。[5]近年来磁带相关技术也在逐步升级,如现代磁带库能够自动监测磁带盒、驱动器和其他组件的状态和健康状况,使得老式磁带容易出错的刻板印象被打破。但磁带与生俱来的线性存储和顺序读取特点是其固有缺陷,在一定程度上影响其存储与读取效率。此外,磁带还有较明显的技术与品牌绑定趋势,即使同为LTO格式,但不同品牌和隔代产品之间的兼容性存在问题,复制与恢复等操作也比较受限。
(二)磁盘与磁盘阵列
磁盘存储容量大、单位价格低、读取速度快,西部数据设备和平台业务高级副总裁Yusuf Jamal评价磁盘“能为超大规模的数据中心提供大规模的总拥有价值”[6]。磁盘属于非易失性载体,断电后存储数据也不会消失,因而具有较强的离线备份能力。在速度上磁盘相较于磁带和光盘具有比较优势,某品牌5TB的磁盘读取速度能够达到140MB/S。国际数据公司IDC预测“来自云服务提供商和超大规模数据中心客户的磁盘需求将保持强劲,在2020—2025年预测期内,全球磁盘行业PB级出货量的复合年增长率将达到18.5%”[7]。在规模性备份活动中还会采用由多个磁盘构成的磁盘阵列来进一步提升性能。但磁盘复杂的机械结构同时也增加了它的脆弱性,存在磁头碰撞和磁干扰的风险,冬季静电放电、夏季盘体过热等也在威胁着磁盘寿命。
(三)光盘系列
光盘在我国综合档案馆的备份工作中曾占据重要位置,目前有三项专门的行业标准《档案数字化光盘标识规范》(DA/T 52—2014)、《电子档案存储用可录类蓝光光盘(BD-R)技术要求和应用规范》(DA/T 74—2019)、《檔案级可录类光盘CD-R、DVD-R、DVD+R技术要求和应用规范》(DA/T 38—2021)对光盘介质的技术要求及应用进行规范。档案级可录类光盘具体包括CD-R、DVD-R、BD-R等多种规格,其中BD-R指可录类蓝光光盘,技术指标优于光盘工业标准,保存寿命大于30年,已得到世界各国的广泛认可。光盘的读取速度也在随着技术更新而提高,现有档案级光盘生产厂商宣称其产品最大写入速度可达1.5Gbps,读取速度可达3Gbps。[8]在记录原理上,采用pit-land模式记录的信息坑一旦受烧灼形成后就无法被改变或者覆盖,实现了真正意义上的不可篡改。由于光盘的配套管理相对复杂,与磁盘产品相比,其盘片与驱动器管理都需要备份机构进行专业管理,甚至需要配套光盘库才能进行,存在较大的技术和管理风险。同时优质档案级光盘在价格上也不具有明显优势,主流档案级蓝光光盘的官方报价高于磁盘和LTO-8磁带。光盘的优缺点使得不同档案馆在选型时存在较大的差异。
(四)缩微胶片
缩微胶片在档案数字资源备份领域的应用亦有突破,存在数字图像和数字信号写入两种方式。缩微技术是以胶片为介质将纸质档案原件按不同比例进行缩拍记录在感光胶片上的传统转换技术。21世纪以来出现了数转胶技术,较为成熟的是数字图像转缩微方式,《数字档案信息输出到缩微胶片上的技术规范》(DA/T 44—2009)与《纸质档案缩微数字一体化技术规范》(DA/T 71—2018)都是关于纸质档案数字化图像输出到缩微胶片的规范。目前业界已经出现直接将数字信号写入胶片的技术,挪威Piql公司研制的数字缩微技术可以将数据和文件元数据编码为二维条码图像写入胶片,每一帧能保存2MB以上数据,写入速度为40MB/s,读取速度为24MB/s。[9]缩微胶片具有长寿的优势,国际原子能机构认为在适当的温湿度条件下寿命或可达到500年以上,[10]但缩微胶片与其他介质相比检索读取速度仍较低,当前数字缩微技术有待进一步标准化,技术成熟度也有待进一步提升。所以缩微胶片常用作异质备份,较少作为承担大规模档案数字资源备份的主要介质。
为了解当前档案数字资源备份介质选型中出现的实际问题,笔者深度访谈了数家已经规模性开展备份工作并已具备较为丰富实践经验的省级综合档案馆。同时为了解备份介质市场趋势以及产品选择空间,补充访谈了产品较为成熟且有一定市场竞争力的备份企业。同时结合关于备份介质选型已有研究成果,从研究与实践两个层面洞察选型现状,总结了现有支撑介质选型的多样要素。
(一)国内外备份介质选型要素研究现状
1.国外:国家档案馆为主体提供选型指导。国外备份介质选型过程中国家档案馆发挥了重要作用,通过指南等形式为备份工作推荐参考要素。其中,澳大利亚国家档案馆2004年的《创建、管理和保存数字记录指南》概括了政府机构在进行介质选型时应考量的八个要素,即利用频率、读取速度、多功能性、寿命、兼容性、技术开放性、环境敏感性和总拥有成本。[11]美国档案与文件管理局(NARA)2006年的《电子记录存储介质的选择和维护》提供了介质选择时推荐参考的七要素,包括记录的寿命、保留记录所需的维护、存储和检索记录的成本、记录的密度、检索存储记录的访问时间、媒介的可移植性、介质是否符合当前联邦信息处理标准等。[12]英国国家档案馆2008年编制的备份工作指导说明关注介质寿命、容量、可行性、技术成熟度、成本(兼顾总体拥有成本)和环境敏感性等六大要素。[13]新西兰国家档案馆2020年的《关于数字存储和保存的最佳实践指南》认为在进行数字存储系统选型时需要关注安全性、可访问性、寿命、耐用性和过时风险。[14]
2.国内:学术研究与标准化引领选型实践。由于事关档案与数据安全,备份介质相关研究在我国受到相当的重视,最早可以追溯到1998年。[15]伴随存储技术的发展,针对备份介质选什么、如何选的研究成果不断积累,对于影响备份选型要素的认识也逐渐深化。中国档案学会[16]在《数字档案的存储载体》中确定的存储载体选择六大量化参数,包括技术成熟度、保存期、存取速度、容量、成本和数据关联支持度;张静等[17]在中国科学院档案馆的实践中按照长期保存从高到低的需求将存储载体性能指标归纳为寿命、防篡改安全性、总体拥有成本、读取速度和容量;袁钧[18]强调了存储介质的稳定性;杨道玲[19]提出要考虑部门具体情况以及参考国内外相关标准、规定以及行业推荐意见。在要素分类上,李从卫[20]进一步将要素分为基本性能因素、外界环境因素和利用效能因素三类;陈苏琪等[21]认为选择归档电子文件存储载体时主要关注存储载体本身、归档电子文件本身、电子文件的存储方式和存储载体所需的环境要求四方面。在标准化上,我国《公务电子邮件归档与管理规则》(DA/T 32—2005)附录中,将一次性写入磁带、CD-ROM、CD-R、DVD-R光盘等纳入备份用途;《电子文件归档与电子档案管理规范》(GB/T 18894—2016)指出,应按备份形式选择载体,宜采用磁带备份系统进行近线备份,离线备份采用一次性写入光盘、磁带、硬磁盘等离线存储介质。
总体来看,国内外在研究介质选型时都综合考虑了多个因素,包括介质的寿命、兼容性、可访问性等。但要素研究仍以分散列举为主,不同的研究者提出了不同的要素分类和参数,缺乏体系性支持和具体场景,尤其对综合档案馆的指导性不足,抑或形成了简单分类,但其类别无法有效涵盖所有相关要素,因而需要从新的视角出发对要素进行重新组织。
(二)变化管理成为综合档案馆备份介质选型常态
综合档案馆在开展备份介质选型时需要秉持变化管理理念。首先,存储技术更新换代速度快,新技术应用与备份需求需要动态平衡。与芯片领域的摩尔定律类似,数据存储厂商也一直在快速迭代升级各类存储设备和技术方案以获得竞争优势,这就需要综合档案馆及时掌握发展动态,合理应用新产品。其次,备份产品多元,存在复杂的品牌与代际兼容关系。档案数字资源备份介质目前以磁带、磁盘、光盘等产品为主,各个系列内部与彼此之间存在较为复杂的关联关系,对综合档案馆持续开展备份工作提出了挑战。最后,综合档案馆备份工作需要考虑备份介质及持续运维过程中的综合风险,如技术层面的专利风险和市场层面的断供风险等。
(三)现有备份数据分级策略缺乏针对性
综合档案馆资源类型复杂、数据体量庞大,既有存量纸质档案的数字化副本,又有包含版式电子文件、音视频、三维数据等多种类型的档案数字资源。因此,有必要根据一定策略划分资源类型,以便匹配不同的备份方案,综合利用优缺点各异的备份介质,实现安全可靠的备份目标。但在访谈中,受访综合档案馆和企业对如何实施档案数字资源备份数据分级策略莫衷一是,都认为目前的备份策略对于档案数字资源状况的针对性不强。这一模糊状况不利于备份介质选型形成兼顾安全与成本的方案。
根据访谈结果,综合档案馆依据自己的实践经验主要根据数据稳定性划分活跃与非活跃数据,同时重点关注是否涉密;而备份企业所提供的备份服务中使用的分级策略则主要关注备份数据的利用频率,同时兼顾数据稳定性和性能要求、系统能耗。档案数字资源备份分级标准各行其是、缺乏针对性,一方面是由于备份工作标准建设仍处于探索过程中,另一方面则是由于日益庞大的数据量、不断增长的数据预期以及时时变化的资源状况,不利于备份介质选型形成兼顾安全与成本的方案。
基于对综合档案馆备份介质选型需要关注的要素总结与分析,本文提出进行备份介质选型工作时需要密切关注的三大维度,包括关注介质本身客观性能的介质维、关注备份主体管理需求的管理维和关注备份档案数字资源对象特征的对象维(见图1)。介质、管理、对象三维能够最大限度地覆盖前面所梳理的选型要素,为备份介质选型提供综合参考和具体情境。
(一)介质维:备份介质客观属性为备份介质选型提供基础
备份介质选型的基本出发点是建立在备份介质自身的各项性能上,介质维要素可总结为九个,它们较为全面地呈现了备份介质的综合属性。
寿命、容量、成本、技术成熟度是备份介质的核心要素。寿命指介质的物理寿命,是备份介质能够保障档案数字资源安全可用的时间期限。需要关注的是,在数字环境中介质寿命也并不是越长越好,用于读取介质的驱动技术的过时通常比备份介质本身的物理恶化更重要,因而需要关注介质全程维护成本。容量关注介质实际能够提供的备份数据规模,选择时需要与馆藏资源数据量、成本进行平衡。成本要素在介质维中指狭义的载体成本。技术成熟度可参考国际咨询公司Gartner提出的技术成熟度曲线进行判断,新技术的发展传播被划分为科技诞生期、泡沫巅峰期、泡沫破裂低谷期、稳步爬升期、规模应用期五个阶段,[22]综合档案馆备份介质选型求稳不求新,故而从技术成熟度角度看备份介质可考虑后两个阶段的产品。
介质维还包括环境敏感性、存取速度、防篡改安全性、机械穩定性、多功能性等五个相关要素。环境敏感性指介质对物理环境变化的敏感程度。备份介质需要选择环境敏感性低的产品,例如,低环境敏感的磁性介质能够减少被暴露于磁场导致的意外擦除的概率。存取速度是介质性能的重要指标,需要与对象维的备份数据稳定性以及管理维的总体拥有成本结合考量。防篡改安全性关乎备份数据的真实完整,只有未经篡改的备份数据才有资格进行灾难恢复。机械稳定性则指备份介质的出错、故障情况是否频繁发生。多功能性指备份介质适应备份对象大小、数量和复杂性的能力,这回应了当前备份对象复杂化的趋势。
(二)管理维:介质选型应满足综合档案馆备份管理工作需求
管理维侧重综合档案馆的管理需求,筛选后管理维要素主要包含可移植性、总体拥有成本、合规性、国产化程度和备份管理配置等。可移植性指对不同类型、不同品牌、不同代际介质的兼容,可移植性强的备份介质能够在多个厂家提供的设备上运行,支持备份信息完好无损地从一种介质转移到另一种介质上,同时支持在不同代际之间的迁移。总体拥有成本是占有某项资产所需要花费的全部成本,该要素对综合档案馆备份而言更具实际意义,要求综合档案馆选型时考虑固定成本外的维修养护、培训人员等可变成本。合规性要求在备份介质选型时符合国家、行业要求,备份工作标准化既能够减少问题发生,也能满足监督检查要求。国产化程度要求在同类产品中注重品牌选择,防范市场断供风险。备份管理配置指综合档案馆的备份目的、备份对象、经济能力等,它使得管理场景进一步具体化,不同的备份管理配置也对应着介质维和对象维的不同侧面。
(三)对象维:档案数字资源本身特征指导备份数据分级分类
精准的介质选型方案应该与备份数据分级结果相匹配,而常用的分级策略则来源于档案数字资源本身的特征,这也构成了对象维的要素。
對象维要素主要包含数据稳定性、备份对象基本状况、保密性等。数据稳定性是在档案数字对象生命周期的框架下讨论的,可将数据区分为稳定数据和活跃数据,活跃数据对备份介质读取速度要求更高,在转化为稳定数据后需要向容量大、速度较慢但是寿命更长的载体迁移。这也是冷温热数据动态备份方案必须考虑的要素。备份对象基本状况指摸清馆藏家底,详细开展馆藏档案数字资源的基本统计,包括馆藏档案数字资源的数量、类型、格式、增长预期等。维护涉密档案安全是综合档案馆不容有失的重要工作内容,保密性要求备份介质将涉密档案与不涉密档案进行区隔,看重介质的防篡改能力、加密验证功能。
在应用三维选型框架时,可将其视为由介质、管理和对象三维架构起的立方体。综合档案馆在运用备份介质选型框架开展工作时,需要首先关注管理维和对象维要素交叉形成的二维平面。这个交叉平面代表了特定的综合档案馆馆藏对象和管理手段的配置情况,涵盖了该馆在备份工作方面的个性化需求。将该平面向介质维延伸,依据本馆档案数字资源状况确定基本分级分类策略,就能够在这个三维模型中确定总体管理配置下不同类别数据对于介质性能的需求,最终得出兼顾管理、资源和介质三个维度的最适宜的备份介质选型方案。
*本文系国家档案局“档案数字资源战略备份中心技术规范研究”项目。
注释及参考文献:
[1]IBM.Cost of a data breach 2022:A million-dollar race to detect and respond[EB/OL]. [2022-12-12].https://www.ibm. com/downloads/cas/A48NDEYW.
[2]SOPHOS. The state of ransomware 2020–Sophos News[EB/OL].[2022- 09- 07]. https://news.sophos.com/enus/2020/05/12/the-state-of-ransomware-2020/.
[3]中国人民大学档案事业发展研究中心.中国档案事业发展报告(2022)[M].北京:中国人民大学出版社,2022:71–77.
[4]钱毅.从保护到管护:对象变迁视角下的档案保管思想演变[J].档案学通讯,2022(2):82–88.
[5]Arcilla A. Quantifying the Economic Benefits of LTO-8 Technology[EB/OL].[2022- 09- 20].https://www.tapetember. com/portals/0/tapetember/resources/esg%20-%20quantifying% 20the%20economic%20benefits%20of%20lto-8%20technology% 20(sep%202018).pdf.
[6]Media O. Expert Predictions for 2020, Part 2: IoT and the Cloud[EB/OL]. [2022- 09- 20]. http://embeddedcomput? ing.com/technology/iot/expert- predictions- for- 2020- part- 2-iot-and-the-cloud.
[7]IDC. IDC Forecasts Solid Growth for the Hard Disk Drive and Solid State Drive Markets to Meet Increasing Demand for Data Storage Capacity[EB/OL].[2022- 09- 20]. https:// www.idc.com/getdoc.jsp?containerId=prUS47975921.
[8]Sony.ODC5500R - Optical Disc Archive Cartridge Generation 3 - Sony Pro[EB/OL]. [2022-09-21].https://pro. sony/en_HR/products/optical- disc- archive- cartridges/opti? cal- disc- archive- cartridge- generation- 3#ProductSpecifica? tionsBlock-optical-disc-archive-cartridge-generation-3.
[9]SABLINSKI J, TRUJILLO A. Piql. Long-term preser? vation technology study[J]. Archeion, 2021(122):13-32.
[10]International Atomic Energy Agency. Long term preser? vation of information for decommissioning projects[M]. Vienna: International Atomic Energy Agency,2008:68.
[11]National Archives Of Australia. Digital recordkeeping: guidelines for creating, managing and preserving digital records.[M].Canberra:NationalArchivesofAustralia,2004:41.
[12] NARA.National Archives and Record Administrations (NARA) Standards for Guidance on Maintenance and Storage of Electronic Records[EB/OL].[2022-09-22]. https://dor.mo. gov/taxation/business/audit/documents/erecords_000.pdf.
[13] Brown A. Document Reference: DPGN-02 Issue: 2 Is? sue Date: August 2008[EB/OL]. (2008)[2022-08-12].https:// cdn.nationalarchives.gov.uk/documents/information- manage? ment/selecting-storage-media.pdf.
[14] Archives New Zealand. Best practice guidance on digi? tal storage and preservation–archives new zealand[EB/OL].[2022-09-27].https://www.archives.govt.nz/manage-informa? tion/how- to- manage- your- information/digital/best- prac? tice-guidance-on-digital-storage-and-preservation.
[15]馬可为.浅谈数据备份[J].金融电子化,1998(6):50–51.
[16]中国档案学会.数字档案的存储载体[M].北京:中国文史出版社,2016:144-148.
[17]张静,王梦瑶,单嵩岩,等.磁光电混合存储在数字档案资源长期保存中的应用研究[J].图书情报工作,2020,64(20):89–95.
[18]袁钧.数字地质档案存储介质的选择[J].兰台世界,2014(23):10–11.
[19]杨道玲.数字存储媒体选择策略[J].湖北档案,2004(11):12–14.
[20]李从卫.基于长期保存的数字档案存储载体选择研究[D].北京:中国人民大学,2012:29-33.
[21]陈苏琪,刘雨娇.对选择归档电子文件存储载体的思考[J].机电兵船档案,2017(3):3.
[22] Gartner.Whats New in the 2022 Gartner Hype Cycle for Emerging Technologies[EB/OL]. [2022- 10- 02].https:// www.gartner.com/en/articles/what- s- new- in- the- 2022-gartner-hype-cycle-for-emerging-technologies.
作者单位:1.中国人民大学信息资源管理学院
2.中国人民大学电子文件管理研究中心