■ 何 畏 叶惠杰
数字档案馆多平台档案数据同步管理研究
■ 何 畏 叶惠杰
分析数字档案馆多平台档案数据同步的概念、目标、特点、管理和技术要求,研究构建物理隔离多平台环境下以数据包为同步单元的多平台档案数据同步的业务框架模型,建立有效和可靠的数据同步机制,实现管理和数据的一致性,确保档案数据的真实、完整和可用。
数字档案馆建设是各国档案领域解决数字化档案资源长期永久保存问题,确保数字档案真实、完整和有效的解决方案,其目标在于构建覆盖数字档案管理全周期的管理体系。根据国家安全保密法规规定,为确保数字档案管理系统及档案信息安全,数字档案馆系统应根据业务需求在物理隔离的局域网、政务内网、政务外网、互联网等多个网络上进行部署和应用,以实现对不同安全域内数字档案的接收、整理、存储和利用全过程管理。这种物理隔离在不同程度上截断了数字档案管理流程,可能导致同一档案数据在数字档案馆的不同平台上出现版本、内容和形式的差异,影响数字档案的真实、完整和有效。为此,本文将研究和设计物理隔离多平台环境如何建立有效和可靠的数据同步机制,以实现管理和数据的一致性,确保档案数据的真实、完整和可用。
数据同步是指数据在分布式应用环境下,使不同系统的数据之间或者数据的来源与其副本之间保持相互一致性。数据同步一般包括变化捕捉、数据分发、数据更新、数据验证四个主要过程。
图1 数据同步一般过程
数字档案馆系统多平台数据同步(以下简称多平台同步)是指数字档案馆系统中,多个平台(子系统)中的档案数据来源与其副本在数量和内容上保持一致的过程。其目标是:在数字档案馆多平台部署的环境下,维护多平台档案数据的一致性,确保档案数据的真实、完整、可用和安全。
这里的平台包含了系统、网络两重含义,即应用系统(子系统)和物理网络(如局域网、政务内网、政务外网、互联网等)。同时,这些网络、系统之间进行了物理隔离。
档案数据来源是指在数字档案馆系统中完成整理、著录、封装等操作的最终版本的档案数据,这类数据通常保存在数字档案馆局域网数字档案管理平台上,是数字档案馆系统其它网络、子系统的副本数据来源和基准。
多平台同步相对其它类型信息系统的数据同步具有以下特点:一是分布式应用,一体化管理。多平台同步的完整流程分布在多个平台,必须遵循统一的标准和规则对同步过程进行全程管理,以确保同步过程中档案数据的真实、完整、可用和安全。二是物理隔离。多平台同步在物理隔离多个平台间进行,必须依托脱机载体、网闸等方式进行间接数据交换,同步的效率、时效性和结果验证受到隔离影响。三是海量数据。多平台同步是海量累积数据的处理工作,给同步系统功能的承载能力、执行效率和稳定性带来巨大的挑战。四是单向同步。多平台同步是以正式档案数据为核心,向其它平台辐射的单向同步。五是基于数据封装包的同步。在基于OAIS模型的数字档案馆系统中,多平台同步以数据封装包为基本同步单位,这是维护数字档案真实、完整和可用的有效方式。
多平台同步应遵循“有序可控,稳定可靠,便捷高效,安全保密”的原则进行。有序可控是指同步应当遵循确定的规则,按既定程序和流程进行且全程处于控制中。应制定明确的同步规则,界定同步的条件、流向和内容,同步工作程序应当基于规则设计,同步的操作流程应清晰、明确,可控制、可验证,同步的过程和结果应当记录并能验证和审计;稳定可靠是指同步功能在设计的承载范围应能持续稳定工作,在长时间、大负荷的应用状态下同步操作应能正常运行,同步的结果应保持正确;便捷高效是指数据同步能够在具体软件硬件环境下达到最优的效率,以适应海量档案数据不断积累的需要;安全保密是指在实施数据同步的过程,必须确保数据不被损坏、信息不被泄露、不被非法复制留存。
数字档案馆多平台部署环境下,由于管理、利用及安全等业务要求,必须进行同步以维护多平台档案数据的一致性,同时同步过程必须遵行并符合有关法律规范的要求,以确保档案数据的真实性、完整性和有效性。
在数字档案馆系统,对数字档案的管理和利用是一个动态的过程,档案数据的稳定是相对的,而变化则是必然的,这些变化包括对数据的增加、删除和对数据内容的修改等。因此,必须通过同步将这些变化反映到数据的所有副本上,以维护分布存储档案数据的一致性,以确保档案管理和利用的一致、有效和可用。同时,为了确保安全,必须采取措施来确保同步过程和同步数据的安全。
多平台同步的架构、流程和应用应当符合《中华人民共和国电子签名法》、《电子文件管理暂行办法》、《电子文件归档与管理规范》(GB/T18894-2002)、《电子档案移交与接收办法》等相关法律、制度和规范对档案数据真实性、完整性、有效性的规范和约束。
多平台同步最终是依靠数字档案馆计算机系统数据同步技术处理过程来实现和完成的,其要求体现在功能、性能和安全三个方面。
集中式管控就是按照数字档案馆系统一体化管理的原则,设置专门的同步管理控制系统和同步数据库,以存档数据的管理平台为中心,协调和控制分发数据生成以及目标平台的同步操作,并记录和验证同步操作的过程和结果。
自动同步就是系统根据同步规则,自动选择相应的符合同步条件的档案数据,按照数据模板生成同步数据,向目标平台实施同步。而手动操作就是由人工方式选定同步数据,确定同步流向和同步数据模板,启动同步操作的方式。
离线同步是指在物理隔离的平台之间,使用中间介质,以半人工方式实现的数据同步。而在线同步是指在逻辑隔离或者建立了数据通道的平台之间,通过数据链路直接进行的数据同步。为了适应不同的网络隔离情况,多平台同步应当同时支持离线和在线方式的同步。
支持选择XML、文件夹等不同方式进行数据封装迁移。用户能够根据数据格式、存储容量等特性,选择不同方式进行同步数据封装。
数据同步操作能够使用光盘、硬盘、U盘等常见的脱机介质和网闸设备,通过不同硬件接口以不同数据传输速度完成同步操作,同步过程中能对这些脱机介质直接进行读写操作,无需人工辅助进行数据的拷贝复制。
同步操作的性能要求主要体现在同步速度、可控性、可靠性、稳定性、安全性等方面。
同步速度,就是在给定系统软件、硬件环境下,单位时间内能够完成同步操作的数据量。在多平台环境下的数据同步操作需要经过分发数据生成、写入同步介质、同步介质运送、读取同步介质、数据更新、同步确认等多个环节,同步速度受到同步数据的数量和单条数据的容量、分发数据的生成效率、同步介质的I/O速度、同步介质送达时间、数据更新速度、同步确认效率等多重因素的影响。
可靠性是指数据同步功能在某个时间点能够正常运行,运行的过程和结果达到预期目标。可靠性主要体现同步结果正确率,一般要求平均运行正确率大于99%,对于单条数据而言必须达到100%。同时,对于出错或者没有完成的同步,能够检测并能自动重新同步,直至同步正确或者取消同步。
稳定性是指数据同步功能在一定时间内正常运行。由于数据同步是数字档案馆系统正常运行的基础业务,因此稳定性的要求应与整个数字档案馆系统对稳定性的要求一致。
可控性是指数据同步过程和结果可控制、可追溯、可审计。数据同步建立操作权限控制机制、操作过程和操作结果的记录机制、以及记录保存和审查机制。
安全性主要是指数据同步过程能确保数据的安全和完整。安全主要是指档案数据在同步过程不被泄露、不被篡改。完整是指档案数据在同步过程组成要素完整无缺失。
综合前述研究,数字档案馆多平台档案数据同步管理的基本业务模型(以下简称同步模型)如下:
图2 数字档案馆多平台档案数据同步业务模型
同步模型主要由分布在来源平台、目标平台的同步控制中心、同步管理数据库、安全机制及同步流程构成。其中包含了模板定制、变化捕捉、数据封装、数据更新、校验数据封装、同步验证六个功能模块,存档数据、副本数据两类数据对象,同步数据包、验证数据包两种数据包。同步流程分为首次同步和变化同步两个阶段,包括变化捕捉、同步数据生成、数据分发、数据更新、确认数据生成、同步验证等步骤。
来源平台是数字档案馆多个平台中处于核心位置的平台,具备完整管理功能的数字档案管理平台(系统),一般在数字档案馆的局域网上部署,与其它系统和网络物理隔离。目标平台是指数字档案馆中承载部份业务功能的平台,如部署在政务内网、政务网外网、互联网的利用平台、本地及远程的备份平台等。
数据同步控制中心实现数据同步的管理和控制,包含数据同步各环节操作功能模块和菜单,集中显示操作过程反馈的各类信息,是数据同步过程操作的入口和信息反馈的出口。同步控制中心分布式部署在来源平台和目标平台。
提供用户根据不同用途预先设定同步数据包内容和结构的功能。模板规定不同用途(流向)的同步数据包的内容和结构,为同步数据包的生成提供模板。同步数据包应包含同步管理数据(包括档案唯一性标识、同步流向、数据变化标记、档案数据完整性校验值等)、档案数据(包括数字档案原文数据、档案元数据)。档案元数据的选择根据不同平台数据应用的需求确定。
提供对来源数据的增、删、改等变化进行检测并记录的功能。检测的内容包括了数据的增加和删除,数据内容(元数据、原文数据)的增加、删除、修改。捕捉和记录的粒度最大不能超过文件级。变化捕捉的实现方式应综合考虑粒度、数据特征、系统资源开销因素等。
提供同步数据选择、设定模板和封装功能。同步数据选择分为两种方式:一种是人工选择需要同步数据,主要用于同步新形成的档案数据;一种是自动根据设定的规则自动筛选需要同步的数据,主要用于同步后又发生变化的数据以及符合同步规则的数据。设定模板就是为已选出的数据指定同步数据包模板。封装则是根据指定的模板生成同步数据包的过程。封装生成的数据包在物理隔离环境下需要复制到脱机载体上进行数据分发。
提供在目标平台上同步数据包提取和更新副本数据的功能。
提供生成校验数据和封装的功能,为来源平台确定同步完成提供反馈。以更新的数据为基础,生成校验数据并封装。
提供同步结果的确认功能。在来源平台上通过比对校验数据,以判断同步是否正确完成。
用于记录同步过程形成的各种元数据。同步管理数据库以文件为单位记录每一份档案的唯一性标识、已同步流向、同步完成标记、数据变化标记(增、删、改)、档案数据完整性校验值等。
安全机制通过应用权限控制、加密、防篡改、防拷贝、载体管理、日志审计等管理、技术的手段,确保同步操作的过程及数据安全。
存档数据是存储在数字档案馆来源平台中长期保存的正式的档案数据。它的内容最完整,状态最新。存档数据是同步的对象。
副本数据存储在目标平台,是以存档数据为蓝本按照不同用途复制生成的存档数据的副本。副本数据是存档数据的子集,根据用途不同其内容一般与存档数据相同或者少于存档数据。在完成同步更新之前,副本数据的更新状态一般晚于存档数据。副本数据体现同步的结果。
同步数据包是以存档数据为蓝本根据同步模板生成的用于同步分发的数据包。一般包含了同步管理数据(包括档案唯一性标识、同步流向、数据变化标记、档案数据完整性校验值等)、档案数据(包括数字档案原文数据、档案元数据)。用于备份用途的同步数据包的内容构成和数据结构与存档数据一致。用于利用等其它用途的其内容构成和数据结构与存档数据可能会有所不同。
校验数据包用于确认同步更新完成且结果正确的信息反馈数据包。校验数据包在目标平台生成,包含了档案唯一性标识、同步流向、数据变化标记、档案数据完整性校验值等数据。同步系统通过比较校验数据包和同步管理数据库的数据来确认同步是否正确完成。
同步过程分为首次同步、变化同步两个阶段。首次同步是指档案数据首次从来源平台向目标平台的同步。而变化同步是指已经进行过同步的数据,由于自身发生变化而再次进行的同步。
(1)定制模板。根据同步数据用途,预先设定不同用途的同步数据包格式。
(2)选择数据。通过两种方式进行数据选择,一种手动选择数据,通过点选、输入范围等方式选择一条或多条数据。另外一种是通过设定规则自动方式筛选出需要同步的数据。数据选定后,确定其同步数据包的模板和同步流向。
(3)生成同步数据。根据不同的分发模板生成对应的同步数据包,将同步数据数据包管理数据写入同步管理数据库,包括档案标识、同步流向、完整性校验值等。
(4)分发同步数据。将同步数据包写入脱机载体,移送目标平台。
(5)更新数据。在目标平台上,读取同步数据包中的同步管理数据和档案数据,并与本平台同步管理数据进行比对,完成档案数据的增、删、改操作,将本次数据更新情况记入本平台同步管理数据库。
(6)生成校验数据。将本次数据更新情况封包形成校验数据包(包括档案唯一性标识、同步流向、数据变化标记、档案数据完整性校验值等)。
(7)返回同步数据。将同步数据包写入脱机载体,返送回来源平台。
(8)同步验证。在来源平台,读取校验数据并与同步管理数据比对,如果比对一致则,写入同步成功标识,结束本次同步。如果比对不成功,则写入同步失败标识,重新启动同步流程。
(1)变化捕捉。对来源平台档案数据的增加以及已同步数据的删、改等变化进行检测并形成数据更改记录,存入同步管理数据库。
(2)选择数据。比对数据更改记录和数据同步记录,自动筛选出同步后又发生变化的数据,自动设定这些数据的同步数据包模板和同步流向。
(3)数据同步。后续过程与首次同步一致。
云南省档案局