当前,档案部门在政府信息化建设向云计算、大数据、数据共享快速发展这样的“新常态”下,面临着巨大挑战,主要表现在以下几个方面: 第一,如何能够高效、快速、敏捷地响应各种业务系统的规则变化,完整地收集、归档和集成业务数据,为档案部门扩展信息种类和数据量、积极参与到智慧电子政务和智慧化城市建设中提供数据保障。第二,各个机关单位的信息系统面临数据膨胀的压力,如果能够切实有效地帮助他们解决系统的数据压力,将数据归档转化为一种真正的信息化服务。第三,如何突破现有的归档模式,真正实现数据库归档,为各类业务系统提供业务数据的长期保存、管理和访问等功能,以支持业务合规、信息统计和数据挖掘等信息利用的需要。
眼下,全省档案系统在“最多跑一次”工作的引领下,根据省档案局的工作部署和要求,正紧锣密鼓地开展“最多跑一次”事项电子数据归档工作[1]。作为此项工作的试点单位之一,杭州市档案局以理念创新为推动、业务优化为保障、技术路径为手段,针对上述问题大胆尝试,探索出了一条行之有效的“最多跑一次”事项数据归档实践路径。
杭州市电子业务数据归档系统(Electronic Data Archive System,EDAS)是杭州市档案局开发的针对电子业务数据归档的全新系统。它不但能够有效地实现对政务服务网行政事项电子数据进行归档,而且能够对其他各类重要的业务系统进行数据归档,并且能够保持业务数据、办理过程信息和结果的完整性。EDAS、电子文件管理系统ERMS、数字档案馆系统一起构建起了完整的信息生命周期管理环境。
基于对前述问题的思考,杭州市档案局对EDAS的建设提出了以下要求:一是自动化归档。采用全自动化归档以降低人工干预,确保系统具有足够高的归档效率。二是不依赖第三方的数据摄入。通过配置和工具即可完成归档数据的摄入,无需第三方的软件定制开发。三是高度灵活的数据管理功能。支持各种类型的数据格式和信息/记录结构,并最大限度地保持业务信息的有机关联。四是高性能。能够对TB甚至是PB级规模的数据具有很高的信息检索和访问并发能力。
2.1 业务规则前置。数据自动化归档的前提条件是需要制定规则,只有通过既定的规则,EDAS才能够实现数据摄入、封装、生成档号、赋予保管期限、确定系统保留时间、自动分类、入库等一系列业务操作。因此,制定详细的归档管理计划成为项目实施之前的业务重点。
相对于传统的保管期限表,市档案局要求各个业务单位必须根据自己的业务职能重新梳理业务分类,并对各类业务的业务编码、归档范围、文件保管期限、处置动作、开放等级、密级划定做详细的要求,使得传统的保管期限表升级到了更为细致、科学的综合性归档管理计划,并嵌入系统中形成业务规则。
2.2 统一数据模型(Unified Data Model,UDM)。从业务角度看,不同的业务过程和业务信息千差万别,而这些差异化极大的信息又是在各种技术环境中产生、流转和交换的。如果针对每一个业务单独构建一个归档数据标准规范,无疑在后期的标准管理和维护上都不可行。因此EDAS提供了一种统一的归档数据模型(Unified Data Model,UDM),能够帮助实现以下目标:一是具有足够的灵活性以应对不同业务系统的数据;二是足够抽象和通用,帮助用户更好地访问和理解数据;三是建立全方位的数据视角,消灭数据差异性,保证归档数据的一致性。
UDM在逻辑模型设计上参考OAIS的数据包模型[2],在逻辑上由三个部分构成:一是数据包描述信息和封装信息,包含了信息封装报的各类描述信息;二是保存描述信息PDI,指与归档内容相关的描述信息,比如历史参考信息、归档信息等;三是业务信息,即业务过程中产生的文件材料和业务的描述信息、过程信息等。
在数据抓取的过程中,可以将这些信息按照相应的元数据规范组织成信息包描述文件、保存信息描述文件和文档,通过封装技术将其组织在一起。
2.3 混合式的数据库架构。在数据库的构建形式上,EDAS采用RDBMS和NoSQL混合式的数据库架构。这样做,一是为了实现数据的管用分离,更重要的是为了更好地管理半结构化数据(XML、JSON)。这种架构当中RDBMS因为只承担最为基础的信息管理(如SIP、AIP信息包的基本描述信息),所以应尽可能简单。管理和使用半结构化数据的任务则由NoSQL数据库承担。在实际的业务场景中(比如行政审批业务),其数据的结构会根据业务的调整不断发生变化(业务环节、信息的变更)。由于NoSQL数据库的反范式化操作无需事先定义实体关系、字段,添加新的属性或组合对象操作都非常灵活,也就意味着应对业务变化的能力相较于RDBMS更强。因此采用XML或者JSON来构建数据物理模型是非常理想的选择。
EDAS通过前置机实现与政务服务网的数据库同步,依靠ETL工具对同步数据库进行数据抽取、转换,并将每一条业务数据库记录以及文档附件封装成一个归档信息单元(Archival Information Unit,AIU)。除了使用ETL工具之外,通过灵活的数据模板配置,EDAS也可以接收第三方已经封装的归档数据包,因此在数据兼容性上完全符合相关的要求和标准。
多个AIU形成一个归档批次进入SIP封装队列进行信息提交包的封装。系统对SIP封装包进行数据校验并形成MD5码,以确保封装内容不被改动。通过校验之后,SIP封装包进入AIP封装队列进行归档信息包封装并最终进入数据仓库进行归档保存。在SIP封装到AIP封装的阶段,数据包的真实性保障可以通过MD5码、数字签名或者时间戳予以保证。
4.1 现行管理制度的遵循。由于EDAS直接与业务系统对接,传统从业务部门到档案室再到档案馆的三段式管理由于绕开了档案室变成了两段,因此不可避免地出现了与现有档案管理模式不一致的地方,尤其是归档数据的归属权和管理权问题。从信息管理的角度来说,减少管理环节能够提升管理效率。但是考虑到与现行管理制度的兼容,杭州市档案局通过在电子文件管理系统ERMS中嵌入各立档单位的行政事项归档规则,如分类、编码、保管期限、系统保留时间、处置动作、开放权限等,同时将EDAS收集的各单位归档数据自动导入到ERMS对应单位的数据归档区,以此规避与现行管理制度上的矛盾。
4.2 多系统多数据源的集成。EDAS的建设初衷,就是要构建起一个能够集成多个数据源的归档系统,将归档转变为一种信息治理的服务,通过技术推动来实现档案管理部门服务能力的提升和数据管理能力的进步。要达成这样的目标,集成平台的多系统多数据源接入就成为关键。只有通过灵活地数据定义和前端数据的接入方式,多系统集成才能成为可能。传统的依托于第三方的定制开发或者数据导出,虽然在技术上可行,但是存在以下几个问题:一是业务系统已经失去原开发商的技术支持;二是面临着高昂的开发定制费用;三是多方工作协调的难度;四是数据获得不够齐全完整。
如果存在上述任何一个问题,显然无法满足杭州市档案局的建设目标和要求,因此杭州市档案局采用了ETL数据抽取和第三方定制开发相结合的方式进行多数据源集成。经过前期的数据测试,EDAS完成了30家机关单位共计12.4万笔的测试数据归档,证明了建设思路的可行。目前,除了正在与行政服务网对接之外,正在与卫计委的医学出生证明系统、林水局的自建业务审批系统进行对接。
4.3 数据模板。数据模板是EDAS的核心功能,是统一数据模型UMD在系统中的具体实现,也是多系统集成的最重要、最基础的保障。在数据模板的定义中,一个业务记录(Record)由多个区块(Block)来构成[3]。Block是用于对数据对象进行组织以达到信息充分表述的信息容器,它将有关联关系或者有特殊意义的一组信息以Block这种方式组织起来。每个Block可以代表着一组信息,比如归档信息、业务信息、技术环境信息等。节点(Node)是一种特殊的Block,用来描述业务环节。如果存在着业务流程并且需要对每个环节进行描述时,可以将每个环节形成一个Node。如果不存在业务流程(比如直接登记)则无需定义Node,只需将信息直接存储于Block当中即可。
在Block和node中,除了系统默认定义的元数据,可以根据业务信息自定义不同的元数据。正是这种数据模板和单独对Block、Node的元数据定义,使得EDAS能够真正应对各种类型的业务系统数据。
目前,考虑到未来应对多数据源的归档效率和数据的利用分析,杭州市档案局正在对EDAS做进一步的升级和改进,重点是改进底层的数据支撑框架和分析计算框架,以期EDAS能够满足未来对大数据的数据关联、对比和组装等诸多数据利用分析的需求,努力将其打造为一个新型的归档数据集成平台。