王建文
北京数字档案馆(电子文件中心)系统存储体系是档案数字资源的载体,是系统软硬件基础环境建设的核心,也是档案数字资源的信息安全基础保障。高效可靠的档案数字资源存储体系,将确保核心应用能够稳定支撑多种关键业务、相关业务按需获得资源;能够按照数据存储量和分步实施的需要,扩展未来的存储、备份相关设备。
一、概述
北京数字档案馆(电子文件中心)的存储体系建设,以先进性、扩展性、实用性、可靠性为原则,基于信息技术行业标准进行了系统设计与实施,在北京市档案馆专网(内部局域网)、北京市政务外网及因特网进行部署,建设完成专网存储系统、政务外网和互联网存储系统。存储系统分别采用云存储架构,并通过分级存储,满足按需获取和分级资源管理的要求。
二、需求分析
北京数字档案馆(电子文件中心)的存储备份系统需要对各种来源的数据进行充分整合集中,提高协同能力,由“面向单系统”的结构转变成“面向资源”的档案馆云系统。存储体系部分主要需求包括:整合不同类型、不同阶段的档案数字资源形成统一的存储管理;按照特定应用需求规划存储资源分级管理;根据数据生命周期管理理念,兼顾数据特性和数据访问规律,实现设备内部磁盘间和跨设备间的数据分层存储管理;结构化数据和非结构化文件存储的高效访问以及原有存储的利旧整合。根据北京市档案馆现有存储所承载业务及档案数据的现状,要解决以下六个方面关键问题:
(一)对数据集中、媒资系统、档案管理系统等多个存储系统进行资源整合共享、数据统一管理
(二)档案数字资源多个平台,文件系统不一,大量非结构化档案数据文件存储受原有操作系统限制,单盘容量较小,档案数据无法集中,数据访问效率低、系统平台整合存在结构性缺陷
(三)随着电子文件的累积以及档案数字化程度越来越高,档案数字资源数据量级对计算资源和存储资源要求越来越高,计算系统的单一架构处理档案数据已无法满足性能要求,同时存储空间也不能满足档案数字资源的存储
(四)现有数据访问模式使用NAS方式,通过IP网络对数据进行共享访问,性能和稳定性都难以得到保证
(五)本地存储空间越来越紧张,尤其是音视频档案管理系统数据量很大,在前期项目设计中,由磁带库保存全集数据,而且设计磁带库主要功能为数据集中及备份,实际工作中无法利用归档模式,直接调阅磁带库数据,严重影响了数字化音视频档案利用效率
(六)档案数据的增长以及档案业务逐渐走向热点,存储系统的存储量以及数据读取性能都不可能在一次建设中完备,应考虑存储架构未来的发展方向,统筹设计系统扩展性能
三、功能设计
根据需求分析以及存储技术现状,系统建设主要運用存储虚拟化、多协议文件共享等技术满足系统关键需求,这里主要就系统功能设计中的五个方面进行说明。
(一)统一存储池
配置具有存储虚拟化功能的高端存储阵列建立统一存储池,兼容各品牌、各型号、各存储介质,实现存储设备的开放式统一管理,将众多独立系统、分布在各种存储介质中和各个来源的档案数据融合在其中,实现面向所有数据的统一优化平台,解决业务系统对存储资源透明的统一存储的要求,也为统一容灾备份打下坚实的基础。
(二)分级分类存储
指按照数据生命周期的发展规则,将数据分成三级,一级是业务系统结构化数据库数据、服务器虚拟化存储、业务处理中的数据,这些数据需要存放在高性能、快速磁盘阵列中,保证本部分数据存储的高性能、高可靠性和高可用性。二级存储承接在线数据的近线备份和共享文件系统的迁移归档数据,部署转速稍慢容量大的SAS NL磁盘。三级存储承接长期迁移归档数据以及系统、数据库等结构化数据的备份,部署更为廉价的磁带介质。
(三)存储动态逻辑分区
动态逻辑分区主要包括存储逻辑分区、动态供给和动态分区等三个主要功能点。存储逻辑分区针对不同的安全域在磁盘阵列上划分不同的业务分类存储逻辑分区,实现对所有服务和业务的数据资源分配。动态供给使得用户可以将上述逻辑分区中没有被真正使用的存储空间分配给其他应用系统,动态伸缩逻辑分区的空间,而不改变分区的安全属性。动态分区根据数据访问频率,自动化地迁移数据到最适合的磁盘类型;动态分层技术,高效地使用闪存或磁盘,以较低的成本提高性能,会将最经常访问到的数据,迁移到更高速度的磁盘,也会自动地将很少访问的数据迁移到低速的磁盘如SAS NL盘上,这样可以提升存储的整体效率。
(四)多协议文件共享
多台服务器组成高性能集群进行数据处理,利用多协议文件共享,在原有IP网络数据共享的基础上,实现FC网络的共享,不仅提供更高的性能满足业务快速处理的需要,由FC网络层实现非应用层的数据迁移,可提升档案数据业务流转中的安全性。
(五)横向扩展
根据档案业务前端应用的需求扩展,有较好的系统容量、性能扩展能力,以支撑海量档案数据的保存和处理,并提供主机到存储系统的I/O通道负载平衡和故障自动切换功能。
四、存储体系架构
北京数字档案馆(电子文件中心)存储系统建设包括专网存储系统建设、政务外网和因特网存储系统建设相关部分。
(一)专网云存储系统
专网的统一存储系统采用统一的SAN分级管理存储池结构,利用高性能存储通过存储虚拟化技术挂接原有的存储阵列,把大容量低速存储阵列作为二级存储,所有物理存储设备在一个虚拟化存储池统一调度和管理,然后再结合超大容量的磁带库设备作为三级存储,在保证扩容和利旧的同时,实现整体存储池的分级管理(见图1)。
(二)政务外网和因特网存储系统
政务外网在集中存储基础上,针对不同的数据类型添加相应的优化的数据处理节点,以实现数据统一后的面向各区档案馆、各档案移交单位数据的统一平台。为统一各区档案馆、委办局档案信息管理进行数据组织并获得硬件级的技术支持。
因特網使用共享的SAN存储网络和存储设备,只需要在存储端根据因特网的业务应用划分不同的分区给因特网生产服务器,整体仍然采用SAN存储架构。
政务外网和互联网存储系统从架构层次上分为主机层、网络层和存储层,如图2所示。
1.主机层。采用以太网连接方式,与内容云网关集群建立连接,结合各区县档案馆部署的前置存储收集器,形成内容云存储网络,为各服务器提供内容云存储通道。
2.网络层。采用全冗余链路通过FC交换机连接光纤磁盘阵列,实现数据双链路,保证链路安全性。同时通过云架构设计的内容网关集群模块,实现对内容云存储的管理。
3.存储层。由磁盘阵列提供存储空间给内容云平台的网关模块,其上存储所有应用系统的数据,并针对不同的安全域在磁盘阵列上划分存储分区,各安全域只能存取对应分区上的数据。存储设备上的存储分区与LAN业务网络中的安全域一一对应,通过对其配置的高性能SAS磁盘和高容量SAS NL磁盘进行划分,形成单独的存储空间,作为各区档案馆、档案移交单位集中到数据中心的云存储容器,并实现高可用、高性能的存储访问。
五、结语
随着社会以及政务信息化的发展和进步,在大数据时代的今天,档案数据,不管是结构化还是非结构化的数据都呈几何级增长,档案数字资源的数据存储需求将不再只是简单的安全存放、数据的共享访问和实时共享交换、海量数据的快速访问和检索,同时还要能进行数据分析和挖掘、数据的内容管理等。档案信息化工作者必须思考这些业务发展模式,在现有块存储、文件存储模式的基础上,就最适合档案数据的对象存储技术模式进行探索,为档案信息资源的安全保管,整合共享奠定技术与设施基础。同时,北京数字档案馆作为区域性数字档案馆,符合国家信息化建设集约化的发展趋势,其功能扩展特别是全市档案数字资源数据量的累积,决定其存储体系必须满足大数据处理,存储体系应融入数据中心构建模式来统筹规划设计。