企业数字档案馆(室)通用归档接口方案探析

2023-06-10 10:44李春伟
北京档案 2023年4期
关键词:数字档案馆

李春伟

摘要:企业在业务系统立项建设时,大多没有考虑归档需求,面对数量众多、部署各异、功能复杂的各类业务系统,归档接口开发和运维面临较大的技术困难、成本压力。通过建立规范、统一的通用归档接口方案,统一归档接口建设标准,可以有效降低业务系统归档接口开发难度与开发成本,促进企业数字档案馆(室)建设。

关键词:数字档案馆(室) 归档接口 归档信息包

进入数字经济时代,企业各类业务高度数字化、智能化,形成和积累的海量电子文件需要归档。由于企业在业务系统立项建设时,大多没有考虑归档需求,面对数量众多、部署各异、功能复杂的各类业务系统,归档接口开发和运维面临较大的技术困难、成本压力。企业数字档案馆(室)亟须建立规范、统一的通用归档接口方案,以满足当前归档需求。

一、通用归档接口建设背景

自2009年以来,国家先后出台了一系列电子文件归档与电子档案管理的规范标准,内容涵盖电子文件元数据方案、电子文件封装、电子档案四性检测、业务系统归档接口功能要求等内容。由于涉及较多的电子文件、信息技术等跨学科专业知识,缺乏具体、通用、先进的技术支撑,企业数字档案馆(室)在业务系统归档接口开发过程中,存在较大的困难和障碍。归档接口开发主要存在以下问题。

(一)归档信息不完整

完整的归档信息应包括电子文件及其元数据,其中元数据应包括文件实体块、机构人员实体块、业务实体块等内容。部分单位的归档信息不规范、不完整,主要表现在以下几个方面。

1.电子文件元数据不齐全,业务系统仅捕获文件实体块的内容描述元数据,没有捕获文件实体块的其他元数据,以及机构人员实体元数据、业务实体元数据等内容。

2.在数据传输过程中,由于网络波动、系统运维、计算机资源不足、服务器重启等意外事件影响,易出现数据丢包、传输中断等情况,导致条目和电子文件原文传输不全或传输失败。而且受限于企业内网带宽,超大电子文件无法在线归档。

3.由于综合档案管理系统著录字段数量限制,档案条目仅记录了主要的文件实体元数据,没有记录电子文件在收集、整理和归档过程中形成的各类元数据,造成归档信息不完整。

(二)归档接口功能不完善

部分单位受限于成本、技术等原因,业务系统归档接口功能缺失或存在缺陷,比如归档接口没有四性检测功能,无法检测归档电子文件及其元数据的完整性,归档后易出现条目元数据和原文不规范、缺失等情况,人工处理效率很低;归档接口没有自动查重功能,易出现重复归档;归档接口没有格式转换功能,部分归档的电子文件格式没有转换为通用格式;归档接口没有斷点续传功能,无法确保归档信息包的完整性;归档数据为明文传输、存储,没有加密,存在安全漏洞。

(三)归档接口无法灵活扩展

部分单位在开发归档接口时,没有考虑业务系统升级、归档范围变化、档案管理系统升级、档案门类模板变化等系统变更因素,或者进行了固化处理,如只支持固定的元数据、固定的归档范围、固定的版式文件等。出现系统变更时,归档接口的可扩展性差,需要对归档接口重新开发,二次开发成本较高。

二、通用归档接口方案和技术平台设计

对于企业而言,由于各类业务系统数量众多、部署各异、功能复杂,归档接口开发需要考虑规范化、标准化,制订规范、统一的归档接口方案,统一归档接口建设标准,无疑成为首选。同时,为降低业务系统归档功能开发的技术难度与开发成本,避免四性检测不合格的电子文件进入综合档案管理系统,有必要单独建设独立的归档接口平台,在业务系统与综合档案管理系统之间搭建一座“桥梁”,专门用于电子文件在线归档的预处理。归档接口设计方案如图1所示。

(一)归档接口平台主要功能

归档接口平台被定位为电子文件在线归档的预处理平台,主要包括:元数据管理、四性检测、格式转换、智慧编号、SDK(软件开发工具包)管理、中间库管理等功能。该平台的主要作用在于:将元数据方案动态封装到SDK并集成到前端业务系统中,简化业务系统归档功能开发工作,实现企业标准化归档信息包结构;将电子文件归档四性检测前移到归档接口平台,避免将检测不合格的数据归档到综合档案管理系统。

1.元数据管理。将企业各门类电子档案元数据方案分别配置到归档接口平台,定义电子文件元数据结构,配置业务系统与综合档案管理系统各门类档案的字段映射关系,从而实现电子文件元数据方案的集中、统一、规范管理。

2.四性检测。将归档环节四性检测前移到归档接口平台,只有四性检测通过的电子文件方可被传输到综合档案管理系统并创建条目、挂接电子文件,四性检测不通过的电子文件将被拒绝传输到综合档案管理系统,从而避免在综合档案管理系统人工排查归档失败数据。

3.格式转换。由于部分业务系统不具备格式转换功能,可以在归档接口平台配置格式转换策略,将业务系统归档电子文件自动转换为通用格式(比如PDF格式、JPG格式等),并与原始格式电子文件同时保存。

4.智慧编号。归档接口平台可以自动检测综合档案管理系统已编制档号的各类数据,为待归档的电子文件自动编制档号,从而减轻电子文件编制档号工作量,提高工作效率,提高编号准确性,避免人工编号错误。

5.SDK管理。SDK是为特定的软件包、软件框架、硬件平台、操作系统等建立应用程序时所使用的开发工具的集合。由于业务系统归档功能要求较多,如果由每个业务系统单独开发元数据封装、四性检测、格式转换、智慧编号、加密标准、断点续传、时间戳服务等通用功能和服务,归档接口开发将面临技术复杂、开发成本高、开发周期长、后期运维困难等问题,而若将相关通用功能和服务集成到SDK并提供给业务系统供应商,则业务系统不需要单独开发相关功能和服务,通过调用SDK即可具备丰富的归档功能,极大地降低归档接口开发难度,降低开发成本,缩短开发周期,降低运维难度。

6.中间库管理。部分业务系统受限于技术、成本等因素,或者供应商无法配合,无法直接收集电子文件和提交归档信息包,可以通过中间库方式开发归档接口;通过在归档接口平台配置中间库,使用ETL工具(数据仓库技术)将业务系统数据库迁移到中间库,并在中间库进行电子文件封装和提交归档信息包。

(二)数据传输模式

1.电子文件元数据与原文同步传输。业务系统将电子文件及其元数据封装成一个归档信息包,同步传输到归档接口平台。只有传输完成并通过四性检测的歸档信息包,才会被传输到综合档案管理系统创建条目、挂接电子文件,从而避免电子文件元数据与原文异步传输造成的问题。

2.数据传输使用断点续传技术。业务系统向归档接口平台传输归档信息包时,通过调用归档接口的断点续传服务,将归档信息包切片分割传输,切片大小一般应小于断点续传的最高网速,确保归档信息包完整、快速地传输,避免因意外事件造成电子文件元数据与原文的不完整、缺失,同时,超大文档归档不再受限。断点续传服务应配置传输限速、传输数量限制等措施,避免过度占用或独占企业内网专线的带宽,影响其他业务系统正常运行。

3.数据传输使用加密传输。业务系统向归档接口平台传输归档信息包时,先将归档信息包采取DES对称加密,在数据传输过程中,将文件切片后采取FTPS加密传输,保障电子文件传输信号难以被截取解析。FTPS的密钥由企业掌握,从而避免归档信息包明文传输、保存造成的安全漏洞。

(三)归档信息包封装策略

根据《基于XML的电子文件封装规范》(DA/T 48—2009)中的定义,电子文件封装包中包含文件、文件元数据、电子签名、封装描述信息等,封装包是一个格式规范的XML文件,其扩展名为EEP。计算机文件的二进制流因应XML技术特点,在封装包中用BASE64编码表示,在实践过程中发现,较小文档的二进制流BASE64编码字符数较少,写入后形成的XML文件较小,而企业各类业务系统情况复杂,普遍存在每份电子文件包含超大文档等情况,其二进制流 BASE64编码字符数很多,写入后形成的XML文件超大(可能超过数百兆)。由于归档接口平台在解析XML文件时,需要将XML文件加载到系统内存,超大XML文件非常消耗内存或无法解析处理。另外,由于XML文件超大,在综合档案管理系统查看XML文件中的元数据信息亦非常困难。

因此,电子文件封装结构需要寻找一种新方法,经过改进后的电子文件归档信息包是由电子文件元数据XML、电子文件元数据XSD、文档FILE等多个电子文件构成的压缩包,其扩展名为SIP,归档信息包封装结构如图2所示。

1.电子文件元数据XML是一个格式规范的XML文件,其扩展名为XML,元数据结构参考DA/T 48—2009附录A进行描述,主要用于记录电子文件元数据、综合档案管理系统创建条目等。主要改进点在于:文件编码数据不再记录二进制流BASE64编码,改为记录数字摘要。数字摘要是文件通过MD5算法生成的散列值,每份文件的数字摘要一般不超过50个字符,写入数字摘要后形成的XML文件一般不超过100KB,从而确保XML文件被快速解析、快速查看、有效保存。

2.电子文件元数据XSD是一个格式规范的XML文件(XML Schema Definition),其扩展名为XSD,元数据结构参考DA/T 48—2009附录B进行描述,主要用于校验元数据XML文件的完整性、规范性。业务系统每次归档前,通过归档接口从归档接口平台自动获取最新的元数据XSD文件,在归档信息包传输到归档接口平台后,将XSD文件与XML文件结构进行校验,校验通过,方可归档。

3.文档FILE是一个文件夹,用于保存业务系统形成的多个文档。公文处理单、正文、附件等归档电子文件均被保存在以FILE命名的文件夹中。

(四)数字签名策略

综合档案管理系统配备专用的时间戳服务器,时间信号由我国唯一法定时间源——国家授时中心负责授时和守时,可以保障时间的权威和准确。业务系统在封装元数据XML文件时,通过SDK调用时间戳服务,可使用加密算法(例如:国密算法SM2、SM3等)结合时间戳对XML文件的被签名对象进行数字签名,并记录在XML文件的数字签名块,具备防冒充、防篡改、防重放、防抵赖、防泄密等特点,能有效证明被签名对象产生的时间及内容完整性、真实性,确保归档信息包的完整性、真实性、保密性,保障电子档案的来源可靠。

三、通用归档接口建设的价值与意义

制订规范、统一的通用归档接口方案,建设独立的归档接口平台,对企业档案信息化建设具有积极的推动作用和显著的经济效益,能够有效满足企业数字档案馆(室)建设需求。

1.有效降低业务系统归档接口开发成本,切实为企业降本增效。业务系统通过调用归档接口平台提供的SDK,不需要独立开发通用功能和服务,极大地减少了归档接口开发的工作量,降低了开发成本。以笔者所在单位为例,每个业务系统归档接口开发成本平均约100万元,在归档接口平台上线后,归档接口开发成本平均约30万元,集团各类业务系统约3000个,节约归档接口开发成本显著。

2.促进业务系统电子文件归档,满足企业数字档案馆(室)建设要求。通过归档接口平台的建设,极大地简化了业务系统归档功能开发工作,降低了业务系统改造难度,减少了来自相关各方的阻力,促进了各单位及时、完整、规范地完成电子文件归档任务,更好地满足了企业数字档案馆(室)建设对业务系统电子文件在线归档的要求。

3.验证了国家电子文件归档的标准规范,形成可推广复制的经验做法。在国家相关标准规范的指引下,结合企业实际,积极探索国家电子文件归档标准规范在企业具体实践中的实现路径,进一步明确和完善了国家电子文件归档的通用技术和功能要求,形成一套完整、规范、先进的通用归档接口方案。

参考文献:

[1]杨迪.基于OAIS模型的归档接口实现[J].中国档案,2016(5):65-66.

[2]国家档案局.文书类电子文件元数据方案:DA/T 46—2009[S/OL].(2009- 12- 16) [2010- 06-01]. https: //www. saac. gov. cn/daj /hybz /201806/ af2c513b5e284571952d6595fd5383b8/files/ 9b2a46526ddb4b66b5b5bef32d7aa21a.pdf.

[3]国家档案局.基于XML的电子文件封装规范:DA/T 48—2009[S/OL].(2009- 12- 16) [2010- 06-01]. https: //www. saac. gov. cn/ daj/hybz /201806/ af5bf561f75343f69bf2efb78913a284/files/ 08d2e2120d134cf58f927d9766c6e4b9.pdf.

[4]国家档案局办公室.企业电子文件归档与电子档案管理指南(档办发〔2015〕4号)[EB/OL].(2015-12-02)[2023-03-31]. https: // www. saac. gov. cn / daj / fxwj/201910/1d5c7e2b0230445e8acaf0457c8e92a7.shtm.

作者单位:华润(集团)有限公司

猜你喜欢
数字档案馆
浅议企业数字档案馆建设
台湾数位典藏计划对内地数字档案发展的启示
浅谈数字档案馆与传统档案馆的区别
高校数字档案馆建设的理论与实践
谈数字档案馆信息收集与管理