基于数据起源技术的政府网站信息长期保存研究

2017-04-11 17:23黄新平
新世纪图书馆 2017年3期

摘 要 论文对数据起源的概念、数据起源追踪方法、数据起源的存储机制进行了概述,将数据起源技术创新性的引入政府网站信息长期保存研究,分析了基于数据起源技术开展政府网站信息管理的价值,在此基础上,对数据起源技术支撑下的政府网站信息长期保存管理系统进行设计,并提出实现政府网站信息长期保存应解决的关键问题及策略。

关键词 数据起源 政府网站信息 长期保存

分类号 G255.76

DOI 10.16810/j.cnki.1672-514X.2017.03.008

The Application of Data Provenance Technology Within Government Website Information Long-term Preservation

Huang Xinping

Abstract This paper gives a fair summary of the concept of data provenance, the tracing method of data provenance, and the storage mechanism of data provenance, and innovatively introduces the data provenance technology within government website information long-term preservation, and analyses the value of government website information management based on the data provenance technology. On this basis, it designs the government website information long-term preservation and management system supported by the technology of data provenance. In addition, the problems and countermeasures of how to realize the government website information long-term preservation are also discussed.

Keywords Data provenance. Government website information. Long-term preservation.

在電子政务促进政府服务转型背景下,各类政府网站每天都在生产大量信息数据,这些规模巨大的信息资源涵盖政府服务的方方面面,具有极大的开发利用价值。然而由于不同政府网站的构建相对独立,受到技术、法律、管理等因素的限制,形成政务信息“条块分割”的局面,无法抵挡媒体迁移、技术更新等带来的影响。如何借助网络信息采集处理技术,实现对政府网站信息的长期保存,是当前迫切需要解决的问题[1]。数据起源是处理大量派生数据,掌握数据由产生到利用整个生命周期变化的技术,能详细记录数据对象的动态变化,完整保存初始数据及其衍生物,保障了数据资源存储的真实性和可靠性。因此,将数据起源技术引入政务网站信息长期保存中,通过分析政府网站信息管理特点,设计政府网站信息数据起源管理系统,对于电子政务信息的存储与共享具有重要意义。

1 数据起源技术及其相关研究

1.1 数据起源的概念

起源又称为溯源,体现了数据信息的产生与发展过程。人们通过记录起源信息,可以掌握数据对象的一系列变化,了解与之相关的原因、地点、时间等信息,进而解决包括数据分析、数据引用、数据可靠度等在内的复杂问题。数据起源技术产生于上世纪九十年代,在金融、生物、计算机等领域均有应用。数据起源的基础研究包括语义描述、起源捕获、组织模型等。Greenwood认为其属于记录实验过程、工作流的元数据;Lanter则认为其是对原始数据及其转换过程的动态描述。实质上,每个数据对象都要经历从生成、加工、转换、存档直至消亡的过程,即具备独特的生命周期,而数据起源技术正是对数据对象生命周期的记录[2]。

1.2 数据起源追踪方法

由于不同的系统对数据的记录、加工方式不同,要想有效追踪、管理起源信息,首先需要设计相应的组织模型,发挥统领全局的作用。而数据起源技术的应用关键,也在于通过设计与构建组织模型,分析起源信息包含的内容,对数据捕获、存储与加工等进行引导。对起源信息的追踪和捕获,主要应用到双向指针追踪、标注、位向量存储定位等方法。其中标注法是将与起源数据相关的信息记录下来,操作相对简单,应用频率高;而双向指针追踪法仅适用于特定数据库中,基于位向量的存储定位只能记录简单的数据路径,目前还无法得到广泛推广[3]。工作流起源管理系统中多采用标注法,以前是将标注作为元数据进行存储,随着数据环境的日益复杂,逐渐将两者分开存储,以方便后续调用。

1.3 数据起源的存储机制

基于数据起源的数据采集和存储,改变了传统的数据管理模式,使得标注与数据的联系更为紧密。由于标注具有多粒度特性,因此附带起源的数据存储对象并非常规数据,而是包含标注的数据。同时针对用户的数据查询,数据起源系统可以提供数据查询、标注查询,以及数据和标注查询三种方式。根据数据与标注的不同关系,将数据存储分为离散、混合存储两类。离散存储实现了标注与数据物理层面的分离,可以采取逻辑链接的方式将两者结合起来[4]。在数据管理过程中,应该考虑该存储方式是否存在数据修改,以及是否需要更新版本等。混合存储需要构建数据集索引,以特定信息维持标注与数据之间的共同存储。数据起源的引入给数据管理带来了新变化,要求创建、设置与获取标注,也要求寻找全新的数据索引、查询与存储方法。为避免起源信息对数据应用的影响,要求标注、数据之间相对独立,因此采取离散存储方式更为合适。

2 基于数据起源技术开展政府网站信息管理的价值

数据起源技术是在起源追踪、捕获、查询、可视化等技术上发展起来的,解决复杂数据存储问题的全新处理方法。在政府网站信息管理中引入数据起源技术,只需要选择合适的软硬件设备,设计合理的起源数据组织模型,而无需考虑系统的负载和计算能力。这样不仅可以解决政府网站信息分散、基础设施建设重复、系统缺乏互联等问题,也可以有效降低信息管理成本,提升政务信息利用率,最大限度实现电子政务信息共享。

2.1 促进政务信息资源共享

数据起源技术可以模拟数据对象的产生、传播和衍生过程,促进数据的优化与共享。对于政府网站信息的存储管理,首先需要考虑数据的可靠性和可用性。由于电子政务系统不断更新,数据源处于动态变化中,当政府网站的信息发生变化时,数据起源可以描述数据对象的演变过程,并根据起源信息进行数据重构,保障数据传播的顺畅、有序性,也为政府网站信息共享提供了便利。同时数据起源技术实现了异构分布政务信息的高效采集,在对数据来源进行跟踪审计的基础上,为不同政务部门的数据存储提供了公共平台。通过构建基于数据起源的政务信息存储系统,可以实现对分散系统的信息集成,从业务层面实现政务信息整合,促进不同政府网站之间的数据交换共享,消除政务“信息孤岛”。

2.2 降低政府网站资源维护成本

数据起源技术的应用改变了政府网站传统的软硬件设施开发模式,能够实现对政务系统配套软硬件资源的统一分配,避免出现部分伺机服务器超负荷运转而部分服务器利用率低的问题。同时借助数据起源技术,可以对政府网站信息进行追踪、捕获和采集,计算不同信息资源的负载分配情况,迅速定位系统错误部位,分析出现错误的原因,进而帮助系统管理者迅速制定解决方案,极大提升了政务系统的稳定性。此外,数据起源技术对政务系统数据资源的配置和管理,能够保障不同功能模块互不干扰,提高软硬件设施的利用率,降低政府网站各类资源的维护成本。

2.3 提升政府系统运行稳定性

数据起源技术对政府网站信息的追踪采集过程中,在分析数据来源的同时,也可以构建与数据版权相关的派生樹,方便用户根据派生树验证数据对象的版权,分析数据对象的真实性。而数据对象的创建者,也可以借助数据起源技术,通过查找派生树的方式,了解其创建数据的使用情况,实现对数据版权的有效保护,避免出现版权纠纷。同时数据起源与分布式、虚拟化技术的结合,可以实现对异构分布政务信息的追踪、监测,并通过设置访问控制权限的方式,降低政务信息利用中存在的风险。从硬件角度分析,数据起源技术能够迅速定位系统故障,确保系统的高容错性和故障动态迁移性,并且以数据冗余备份的方式,降低发生故障的频率。

3 基于数据起源技术的政府网站信息长期保存管理系统设计

数据起源技术在长期存储系统中,可以形成以事件为中心的起源信息记录方式。因此,可通过分析数据对象的一系列变化,实现对政务信息的动态管理。

3.1 起源管理系统设计原则

在政府网站信息长期存储的整个生命周期中,要综合考虑起源管理的影响因素,笔者认为数据起源管理系统的设计应该遵循以下原则:①以数据保存周期为依据,将数据对象产生作为起始,对其录入系统后整个生命周期的所有变化进行动态管理;②以OAIS(长期保存通用标准)为准则,遵循OAIS了解数据对象长期保存的基本流程,明确定义起源信息的构成,将其作为系统设计的依据;③以事件作为起源信息记录中心,数据对象在存储管理活动中会产生大量事件,可以说起源信息与事件是相伴相生的;④保障适用性和交互性,管理系统设计应该为数据对象管理提供所有可能的功能与流程,明确不同存储系统与不同模块之间的嵌入关系,强化数据对象在不同系统中的交互性,并嵌入OAIS流程实现高效管理。

3.2 面向数据周期的起源事件清单

事件是数据对象一系列变化的驱动力,借助事件不仅可以捕获起源信息,也能够掌握数据的动态变化。随着起源管理活动中事件的增多,通过了解与数据对象相关的事件链,就可以展现长期存储对象的状态变化[5]。因此,对于数据起源管理系统的设计,将起源事件定义为系统可识别的,能够至少影响一个对象的动作,如捕获起源信息、调取文件等。在整个数据生命周期中,OAIS包含摄入、归档、数据处理、业务管理、保存规划以及访问等环节。对于起源事件的判断和甄选,应该以OAIS流程为依据,综合考虑数据对象的产生、发生的变化,以及数据对象的派生产物,进而为数据长期保存提供依据。在政府网站信息产生之初,就存在不可预知的变化因素,包括元数据、信息内容、格式、保存责任人等,即使部分数据本身变化不大,也需要考虑与之相关的数据对象或管理版权的变化,全面了解基于数据周期的详细起源事件。

3.3 嵌入OAIS的起源管理框架

根据基于数据周期的起源事件来看,数据起源管理涉及与OAIS相关的所有功能模块,因此对于政府网站信息的长期保存,应该嵌入OAIS流程中形成完整的起源管理框架,具体如图1所示。

由图1可知,起源信息管理贯穿于OAIS的整个流程中,实现了对不同环节起源事件的动态追踪,也可以根据系统预先设定的起源事件清单,实现对数据对象的动态捕获。然后,将需要长期保存的数据对象,依据相应的起源组织模型转换为规范的归档信息,保障起源信息的真实性、完整性和可用性,并且存储于特定数据库中,由对应的管理模块实现对数据信息的长期保存。对于政府网站信息长期保存的起源管理,需要设置事件配置、事件监控、事件组织等功能模块。其中,事件配置模块主要功能在于定义需捕获数据的类型,实现对事件的合理配置。在起源信息捕获前,由长期保存系统的管理者根据实际需求,结合系统的基本操作按类型归纳需要捕获的起源事件,在对其进行详细描述的基础上,对起源事件清单进行格式转换,最后配置为系统可读的内容。事件监控模块负责对长期保存系统的所有事件进行动态监测,若发现某个起源事件或预定义事件,与清单中其它事件相互匹配时,就需要将完整的事件信息呈递给组织模块。由事件组织模块获取动态信息,并将其添加至起源管理任务列表中,采取异步记录的方式实现对起源信息的合理组织,减少服务器的运行压力[6]。存储模块的功能在于接收并存储经过有序化组织的数据信息,并维护不同数据对象间的联系。

4 基于数据起源的政府网站信息长期保存应解决的关键问题

基于数据起源的政府网站信息长期保存,目的在于实现对数字政务信息的有序化管理和长期访问。其数据起源管理的实现,实质上就是建设一个长效访问机制,通过起源信息捕获、鉴定与整合,保障访问信息与网站原生信息的一致性。在数据起源技术具体应用过程中,需要制定合理的网站信息采集策略,实现对采集的科学编目,并解决数据归档安全问题,真正为政务信息长效利用提供保障。基本策略如图2所示。

4.1 制定网站信息采集策略

面对海量异构的网络资源,要求制定科学合理的网页信息采集策略,这也是实现数据起源管理需要解决的问题。由于目前缺乏专门针对数据长期存储的起源捕获工具,因此在长期保存系统中多依据OAIS流程开发捕获插件或工具包,或者通过编写独立函数模块,用于感知和记录系统内部发生的所有起源事件。也可以采用工作流软件,以转换、制作复本的方式抽取起源,利用系统插件迅速捕获内部起源信息。目前市面上出现了专门的起源元数据抽取软件,如DROID,可以通过动态追踪数据对象,记录与之相关的各类事件,是当前网页数据采集的常用方式。此外,云计算具有并行处理大规模异构数据的优势,适用于分散数据的高速计算,可以分布式计算框架为依托,借助网络爬虫技术筛选网页信息,实现对存储目标的高效、自动采集[7]。

图2 政府网站信息长期保存应解决的关键问题及策略

4.2 网站信息的归类与编目

在采集完成政府网站信息后,需要通过科学分类、编目与鉴定,使大规模数据资源有序化,为后续的长期保存奠定基础。根据政府网站信息的特点,可以从数据的产生、利用和流通三个方面,设计适应起源数据管理的元数据存储方案,选择基于XML的元数据标准,为信息编目提供依据。同时利用贝叶斯分类、云计算等方法,实现对政务信息的科学归类。然后构建政务信息存储的智能鉴定模型,对采集数据进行鉴定,实现系统资源的优化配置[8]。由于政府网站信息存储属于持续、长期的活动,面对不断增加的信息存储量,还需要引入开源计算技术,通过调用Web服务器中的运行程序,完成对网站存储信息的提取、读写和删除等操作,提升用户数据访问的响应速度,实现政府网站信息的高效存取和优化利用。

4.3 网站信息归档的安全防护

由于网页信息的动态性、易变性,这就需要着力解决政务信息归档的安全保护问题。在起源数据管理过程中,可以引入数据保护、数据加密等技术,借助虚拟化技术平台,设置政务信息访问控制或隔离机制,进而保障信息安全。也可以通过设置用户信任等级证书,在获取验证信息的基础上控制访问量,实现对长期保存数据的适当隔离[9]。为避免出现政府网站无法链接、网页数据丢失等问题,可以采用超链接、HTML重写等技术,达到重现归档政务信息的目的。同时为提升政府网站信息的归档价值,数据管理者可以引入信息推送、大数据技术,为用户提供多元化的增值服务,如信息检索、数据挖掘等,体现“以人为本”的服务理念。

5 结语

对政府网站信息的长期保存,需要综合考虑软硬件投入、资源维护、参与主体等因素。数据起源作为描述数据对象演变历程的技术,为解决政务信息存档问题提供了可能。由于起源信息与情境信息存在重叠,加上复杂的网络环境,因此在设计政府网站信息长期保存系统时,应该明确界定起源事件,详细记录起源信息,并制定完善的数据起源管理规划,切实保障存档信息的安全性和真实性。

参考文献:

[ 1 ] 何欢欢.政府网站信息资源保存挑战及对策[J].图书情报工作,2011,55(7):130-133.

[ 2 ] 戴超凡,王涛,张鹏程.数据起源技术发展研究綜述[J].计算机应用研究,2010,27(9):3215-3221.

[ 3 ] 徐扬,王申罡.数据起源研究进展[J].情报理论与实践,2016,39(7):136-140,135.

[ 4 ] 苗丽娟.基于XML的起源计算和起源存储研究[D].南京:南京理工大学,2012.

[ 5 ] 吴振新,李文燕,蒋世银.构建以事件为核心的长期保存系统起源管理框架[J].图书情报工作,2016(6):91-96.

[ 6 ] 吴振新,李文燕.起源技术在长期保存中的应用与研究[J].图书情报工作,2015,59(8):118-125.

[ 7 ] 王萍,黄新平,陈为东,等.政府网站原生数字政务信息云归档模型及策略研究[J].情报理论与实践,2016,39(4):60-65.

[ 8 ] HAN Y. Cloud storage for digital preservation:optimal uses of Amazon S3 and Glacier[J].Library Hi Tech,2015

(2):261-271.

[ 9 ] 颜倩倩,王凤英.云计算平台下的数据起源安全方案[J].山东理工大学学报(自然科学版),2011,25(5):67-70.

黄新平 吉林大学管理学院博士研究生。吉林长春,130022。

(收稿日期:2016-12-06 编校:刘忠斌)