尹哲
本文就北京数字档案馆(电子文件中心)的档案数字资源建设的规划思路、总体架构、数据库逻辑划分、数据存储模式设计、应用系统与数据库间的关系和数据迁移工作六部分内容进行了详细的介绍。
一、规划思路
档案数字资源是北京数字档案馆(电子文件中心)建设的重要组成部分,在建设过程中必须做好档案数字资源的规划工作。首先,明确档案事业发展战略与档案业务管理对于数字资源支撑的需求;其次,确定各业务形态以及应用系统中已有的数字资源;最后,通过综合分析两方面需求,提出未来数字资源的架构目标以及分步实现的路径。具体内容包含:
(一)档案事业发展战略与档案业务管理对于数据支撑的需求,总结档案事业发展业务模型,包括:业务域划分、主题分析、用户视图、业务流程、数据流程、业务实体、数据元素、分析指标集等。
(二)梳理档案业务管理中各业务系统的架构,理清数据流向,特别是市档案局(馆)与区档案局(馆)、档案馆与档案立档单位之间的数据流转关系,建立全市档案数据资源分布框架。
(三)总结描绘档案业务管理数字资源主题域和关键实体,分析数据价值链的各个环节的处理和运用方式。
二、总体架构
北京数字档案馆数据资源总体架构如图1所示,分为三个区域:政务外网数据区、互联网数据区和市、区档案馆局域网数据区。其中政务外网数据区和互联网数据区采取逻辑隔离方式,市、区档案馆局域网数据区与政务外网、互联网数据区采取物理隔离方式。
北京数字档案馆(电子文件中心)项目数据库建设要求统一存储、分级管理,即各个单位数据统一存储在北京数字档案馆(电子文件中心)的大集中数据库中,在业务操作上各单位独立管理本单位的数据。
三、数据库逻辑划分
数据是数字档案馆的基础,以档案数字资源为基础的业务数据经过采集、传输、处理、标准化和规范化后,装载到因特网、政务外网和市档案馆专网等各网络的数字档案馆业务应用系统的数据库中。
为了科学的管理和维护数据,满足全市档案管理业务的需要,在数据需求分析的基礎上,根据数据关联程度及数据库存储等特征,系统数据可以分为结构化数据和非结构化数据两大类。结构化数据以行数据为主,存储在数据库里用二维表结构来逻辑表达实现的数据;非结构化数据无法用数字或统一的结构表示,如文本、图形、图像、声音影像等。
(一)结构化数据
根据数据的关联关系和业务逻辑关系,结构化数据可分为:
1.基础信息库:包括档案管理常用的基础性数据,如机构、用户、权限、基础编码、档案移交单位、数字化加工外协单位及员工等。
2.目录信息库:档案数字资源的目录信息,包括档案目录和资料目录,其中档案目录包括全宗目录、案卷级目录、文件级目录、专题目录、专门档案目录等,资料目录包括书刊、报纸、地图等。目录信息库还包括对目录信息的注册、审核、管理、发布及目录之间关系等业务信息,为档案的目录管理提供数据支撑。
3.元数据库:存储档案的元数据信息,从档案类型分为文书类、照片类、录音类和录像类等元数据。
4.业务过程库:是数字档案馆平台业务操作过程中的相关数据。包括电子文件中心业务管理、档案的接收、整编、利用、数字化、音视频档案整编处理、征集、缩微、自定的计划、下达的任务等相关业务过程数据。
5.业务辅助信息库:包括档案长期存储的鉴定专家库、征集线索库、库房基本信息、库房仓位信息、库房规划信息、存储载体目录、存储备份策略、存储载体索引、检索工具、知识库等。
6.运维日志库:包括用户操作日志信息、运维过程记录、安全审计信息、系统故障信息及实时监控信息等。
7.共享资源库:主要存储档案共享资源的注册、审核、管理、发布、控制等业务信息,以及各类共享资源的具体及描述信息,如政策法规、技术规范、共享文件、档案信息网的发布信息及网页内容信息记录等。
8.统计信息库:包含自定义及定制的统计报表模板、统计结果、统计临时数据资源等相关数据信息。
9.电子档案身份证数据库:电子档案身份证就是证明一份电子档案身份的真凭实据,它是一种能够保证电子档案唯一性、真实性和真实性的身份证件,也是电子档案作为司法证明的重要依据,就像一个人拥有身份证一样。电子档案的身份证由电子档案身份证编号、档案移交单位名称、电子档案全文数字摘要、电子档案其他核心元数据、档案移交单位数字签名等构成。
(二)非结构化数据
档案数字资源库:由市和区档案局(馆)馆藏档案数字资源,市和各区属档案室室藏档案数字资源组成,主要包括档案数字副本和电子档案。其中,档案数字副本包括纸质、照片、录音、录像、缩微胶片、实物、地图等数字副本;电子档案包括文本类、图形类、图像类、声音类、影像类等。
四、数据存储模式设计
从数据结构形式上划分,结构化的数据(除XML文档之外)均采用关系型数据库进行存储。非结构化的电子文件采用文件方式进行存储。
(一)结构化数据存储模式
结构化数据存储方式可分为具有逻辑关系的数据库表存储和XML存储两种方式。本方案针对应用系统访问采用数据库表存储,针对长期保持的结构化数据采用XML方式存储。
1.数据库表存储
在数据库中建立档案数字资源信息物理库表,存储档案数字资源的基础信息、目录数据、元数据、业务过程数据、业务辅助信息库、运维日志信息、共享资源、统计信息等。通过结构化的管理,方便快速检索定位。
2.XML存储
数字档案馆涉及电子文件长期保管,根据元数据封装规范,将档案信息存储到XML文档中,并将此文档和电子原件打成压缩包进行长期保管。并且不同的档案馆建设中有相同元数据结构,可以将元数据结构保存在XML,以便其他档案馆利用。XML存储包括两个方式:endprint
(1)文件形式存储方式
原始XML文档或经过系统转换后符合标准的XML文档,以文件形式存储。针对读写直接操作,节省多余开销,能够对文件结构做专门的优化,获得更高的读写性效果,适用于元数据封装存储和浏览。
(2)平面表存储
原始XML文档或经过系统转换后符合标准的XML文档,经过XML解析器解析分解后,以约定的格式将XML文档中的内容存储在数据库的表或字段中,适合于元数据结构维护和存储。
(二)非结构化数据存储
档案数字化副本包括纸质、照片、录音、录像、缩微胶片、实物、地图等数字副本。北京市档案馆馆藏纸质文书和传统照片档案数字化副本的数据存储结构按照“全宗--目录--案卷”的结构存储,录音和录像档案数字化副本数据存储结构保留原始“档号”命名的存储结构。其他类型数字化副本存储类型待定。
五、应用系统与数据库间的关系
应用系统的运行需要数据库中各种数据的支持,随着系统的运行还会不断地产生新的数据。本项目中应用系统与主要信息资源数据库之间的关系见图2:
六、数据迁移工作
数字资源的核心是数据,要根据旧系统的数据库结构提供新旧系统的转换方案,保证数据在迁移过程中的完整性、准确性、一致性。
在数据迁移工作启动前,先依照相关标准规范进行数据清理工作,为保障数据安全,建议将计划迁移的数据做一次完整备份,避免因意外情况导致数据出现不可逆的损失。
(一)数据迁移的原则
对于原有的数据库的数据,对照新的数据结构,检查每个字段是否都满足要求,包括非空要求、唯一性要求、小数位数要求、字节长度要求、取值范围要求、代码格式要求等。此时,可以发现一些数据格式不一致等问题,根据经验对这些问题提供一些参考解决方案。
(二)数据迁移采取的步骤
在实施迁移计划的时候,建议按如下步骤进行:
截止一个时间段,把此时间段前的所有数据进行整理,然后迁移到新系统的数据库中;第一部分数据迁移完成后,新旧系统肯定存在并行的階段,要制订出旧系统运行的最终结束日期;旧系统到结束日期后,把系统并行运行这段时间新产生的数据,按原来的规则进行迁移。
截止到2017年7月,共有1400余万条档案机读目录数据和7000余万个档案数字化副本数据迁移至北京数字档案馆(电子文件中心)数字资源库。
七、结语
随着档案数字化工作的推进、电子文件的大量增长,以及用户信息利用需求的日趋多样化,如何科学有效地进行数字档案资源建设已成为档案事业发展的重点问题。建设数字档案馆需要合理规划国家档案资源的流向,加强数据资源整合,实现数据资源共享。在系统建设过程中针对数据管理合理设计,兼顾历史数据需求;在数据资源整理和迁移过程中应重点保证数据资源的真实性、完整性、可用性和安全性。数字档案资源建设除了对档案数字资源本身的重视外,强化数字档案馆应用系统建设,构建良好的档案信息平台,提供便捷准确的利用是其最终目的。endprint