见雪冬
摘要:本文以平谷区档案馆为例,对档案数据整合与存储提出策略分析,即通过从分散到集中、从异构到同构、从综合到专题、从独立到共享实现档案数据的整合;在档案数据的存储上,实现分布式集中存储策略。
关键词:档案数字化数据整合数据存储
档案数据整合是指把原来通过各种渠道收集到的零散的档案数据,通过技术手段和方法,进行数据结构重构或数据结构匹配,以形成相对规范的档案数据。档案数据存储则是把档案数据以某种格式记录在计算机内部或外部存储介质上。档案数据的整合与存储主要是为了实现档案数据结构的合理配置及优化,通过对档案数据的整合,形成体系完整、内容丰富的档案数据。目前,北京市平谷区档案馆保存着大量的档案数据,而且呈TB级增长,特别是档案数字化后,数据的整合和存储变得更为复杂。基于此,笔者以平谷区档案馆的在相关方面的具体做法为例,对档案馆的数据整合与存储提出建议,以供探讨。
一、平谷区档案数据来源及其分类
(一)案卷级、文件级电子目录
1.从各立档单位接收的案卷级、文件级电子目录。平谷区档案馆以每五年为一轮从各立档单位接收纸质档案,且每年都要接收案卷级电子目录和文件级电子目录。比如1996~2005年期间,共接收电子目录26万条。
2.从各村接收的案卷级、文件级电子目录。平谷区档案馆在新农村档案示范区的建设中,从各村收集了部分案卷级、文件级电子目录。内容主要涉及10类村级重点档案,包括两委换届、林改档案、产改档案、养老保险、合作医疗、网格化管理、村集体经济管理、户口底册、计划生育、承包合同。此外,村务管理档案、农村科技档案作为涉农档案的重要来源,其形成的档案数据量也很大。
(二)从各立档单位接收的电子文件
自2005年至今,平谷区档案馆共接收电子文件11.6万件,数据总量73.5GB,包括文本文件、数据文件、图形文件、图像文件、影像文件、声音文件。
(三)各类档案的电子目录和数字化形成的电子版扫描件
平谷区档案馆馆藏目录主要分成14类基础数据库,包括文书档案、婚姻档案、房产档案、老土地照档案、招工档案、知青档案、兵役档案、独生子女档案、教学档案、二胎档案、现行文件档案、开放档案目录、老报刊目录、声像档案目录。截至2015年,共整理案卷级目录13.7万条,文件级目录153万条。数据总量1.5GB。据2015年5月传统载体档案数字副本的统计数据显示,历年来,平谷区档案馆共数字化纸质档案12.38万卷,700万页,数据总量8TB。数字化录音、录像131盘,数据总量1.5TB。
(四)通过档案业务系统采集的数据
平谷区档案馆业务系统主要包括4个,一是平谷区档案信息网,二是平谷区数字档案平台,三是平谷区村级档案信息管理发布平台,四是平谷区档案工作管理系统。这四个系统每年产生的数据总量在40GB左右。以2011年平谷区村级档案信息管理发布平台为例,全年度,平谷区村级档案信息管理发布平台产生数据总量1.2GB。其中,从镇罗营镇上镇村采集案卷级电子目录283条,文件级电子目录2030条;从大华山镇大华山村采集案卷级电子目录481条,文件级电子目录1809条。
二、平谷区档案数据整合的策略分析
平谷区档案数据来源于不同的基层单位(全宗),不同的数据库,不同的系统,无论数据结构还是数据内容上都会存在差异。结构化数据(行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)也好,非结构化数据(视频、音频、图片、图像、文档、文本等)也好,虽然已经按照全宗进行分类,但依然零乱、不便管理。通过整合、存储,数据清晰、结构统一,更便于档案数据的收管用。
(一)从分散到集中,将分散于乡镇、行政村的档案基础数据集中到档案馆保存
平谷区档案馆要求各立档单位每年6月到10月,将上一年度的电子目录和电子文件,通过平谷区数字档案平台和平谷区村级档案信息管理发布平台来实现数据的集中上交。
1.利用平谷区数字档案平台实现对乡镇档案基础数据的集中。该平台链接在平谷区政务内网中,可以覆盖到平谷区所有乡镇、委办局,这样每个单位的档案室都可以连接政务内网,因此实现了档案数据在乡镇、委办局这一层级的数据集中。自2008年至2014年底,平谷区档案馆利用该平台共接收档案目录3万卷、24万条,电子文件1.2万件,数据总量达20GB。可以说,通过这种方式,基本上实现了网络环境下文件归档、移交馆室的一体化;档案管理馆室的一体化;档案利用馆室的一体化;档案工作监督指导馆室一体化的工作模式,为各立档单位电子目录和电子文件的实时归档移交提供了支持平台。
2.利用平谷区村级档案信息管理发布平台,实现对全区273个行政村的案卷级和文件级目录的收集工作。2010年,平谷区村级档案信息管理发布平台在熊儿寨、黄松峪、镇罗营、马坊四乡镇58个村推广使用。2011年,又在大华山、大兴庄、南独乐河、山东庄四个乡镇,63个村进行推广。2012年,完成系统在全区的推广工作。目前,273个行政村都可以使用该系统实现村级档案目录的录入工作,基本上实现了村一级档案数据的收集工作。
(二)从异构到同构,把不同软件、不同系统生成的档案数据结构调整统一
就安装的档案软件来说,2008年以前,全区各立档单位自行安装各类软件。在使用系统上,部分单位使用Word、Excel、Access等办公软件录入电子目录。这些不同的软件和系统所产生的数据结构千差万别。平谷区档案馆针对这种情况,从数据库字段项、字段格式等方面规范了电子目录数据库结构。通过数据导出、合并数据库等方式,将数据统一保存到Sql server数据库中。目前,相关全宗数据涉及80个、目录150万余条,这些数据形成后均可在在查档大厅直接利用。
(三)从综合到专题,在收集到的文书档案数据库中抽取同类数据,构成专题数据库
平谷区档案馆根据实际利用情况,从150万余条文书综合库中抽取具有同类属性(内容、格式、结构基本一致)的数据,逐步形成婚姻档案、房产档案、老土地照档案、招工档案、知青档案、兵役档案、独生子女档案、教学档案、二胎档案等14个专题目录数据库。笔者认为,未来结合编研的需要,还会形成以重大活动、专题事项为主线的数据库。比如:四清档案、文革档案、阶级成分档案、纪检案件档案、林权证档案等。
(四)从独立到共享,采取复制、提前进馆等方式,实现各个机构独立数据的共享
目前,每个立档单位都会形成具有行业特色的数据库,这些数据基本上相对独立。针对这种情况,平谷区档案馆采用基层档案数字化的方式,通过复制、提前进馆等方式,将这部分数据提前利用。比如:民政局的婚姻档案、残联的业务档案等。
三、平谷区档案数据存储策略分析
(一)结构化数据和非结构化数据的存储分析
1.非结构化数据主要采取文件夹方式分级存储,根据档号编制规则建立文件夹,并与检索数据库形成对应关系。如果有相应的管理系统,可以通过文件管理的方式进行。比如扫描档案的原文、接收的电子文件等。采用档号分级的方式命名文件夹的优势在于:一是便于管理,方便非结构化数据和目录形成对应关系;二是便于利用,文件数据可以直接导入到档案管理系统中;三是可以解决操作系统的文件夹数量限制问题;四是方便数据的拆分,一旦出现数据量较大的情况,可以将数据拆成几个小份来存储和管理。如图1所示。
2.结构化数据主要通过数据库存储。目前较为常见的数据库(DB2,ORACLE,SQL,MYSQL)都有数据自动备份和快速恢复功能,不论哪种数据库,只要数据资源脱离机器本身,形成备份文件,就可以移植到任意计算机中。备份的数据不论以什么格式存在,只要形成备份文件,都可以存储。经过数据库系统的导入、导出功能,合并、拆分字段,形成数据格式一致、结构统一的数据库。
(二)档案数据存储策略的选择
根据平谷区档案馆的设备情况和档案数据量情况,最终确定分布式集中存储策略。分布式集中存储,采用可扩展的系统结构,利用多台存储服务器分担存储负荷,可以有效解决存储服务器的性能问题。
1.所谓分布,主要是实现数据备份的分布。在数据大量增加的情况下,只需要增加硬盘,对于节省成本具有优势。一方面,数据在移交档案馆之前,分散存储于各乡镇、村档案室,通过档案数据上报、接收等方式,统一集中到档案馆,数据经过整合之后再保存到阵列集中存储;另一方面,档案馆可以把重要备份的数据分成N份,按照不同的数据级别分别存储于不同的数据中心或者异地备份基地,这样的管理方式对安全和成本控制都有较好的效果。据统计,平谷区档案馆目前存有档案数据8TB。其中,包括电子目录150万余条和纸质扫描件700万页。2015年,其数据量增长了6TB左右,档案馆只需购买3块2TB的硬盘,就可以完成拓展。
2.所谓集中,主要是实现数据存储的集中。在存储资料的安全性上,由于采用了专用的磁盘阵列,数据安全性较好,而且方便管理,可以把主要数据集中存储于磁盘阵列,采用交换机交换模式,建立不同的工作站。比如:查档利用工作站、管理鉴定工作站、数字转化工作站、数据收集整理工作站等,这些不同的工作站相互独立,数据清晰不冲突。工作人员可以根据权限、职责,分别工作,既不影响数据的整体性,又能保持高度共享。