档案数据长期保存模型构建研究

2022-05-30 10:48:04周娟娟李泽锋叶丹云
北京档案 2022年10期

周娟娟 李泽锋 叶丹云

摘要:随着大数据时代的来临,档案数据长期保存问题被提上议事日程。论文以数据视角研究影响档案数据长期保存的关键因素,构建档案数据长期保存模型,以实现结构化数据的长期保存,并结合相应方法和技术,保障数据真实、完整、可用和安全。以文件连续体理论为指导,借鉴文件连续体模型构建思路,从档案數据形成、获取与保存的连续性过程出发,研究档案数据连续性管理,分析文件形成到长期保存运动过程中影响长期保存的因素,最终构建以保障档案数据长期保存为目的的模型。

关键词:档案数据 结构化数据 数据档案化 长期保存

Abstract:Facing the advent of the era of big data, the long-term preservation of archive data has been put on the agenda. This paper studies the influencing factors that affect the long-term preservation of ar? chival data from the perspective of data, construc? tions a long-term preservation model of archival data to achieve long-term preservation of structured data, and combines corresponding methods and technolo? gies to ensure the authenticity, integrity,availability and security of data. Records Continuum as guid? ance, reference to the Records Continuum model construction ideas. From archive data, obtain the con? tinuity process of obtaining and preserving, starting from the continuous process of archive data forma? tion, acquisition and preservation, we will study the continuity management of archive data, analyzes the factors affecting the long- term preservation during the process from document formation to long-term preservation, and finally constructs a model for the purpose of ensuring the long-term preservation of ar? chival data.

Keywords:Archival data; Structured data; Data ar? chiving; Long-term preservation

一、研究背景

我国《“十四五”国家信息化规划》中提到,要提升数据资源开发利用水平与全生命周期管理,应加强信息安全保障,激发数据要素价值,提升数据要素赋能作用。[1]大数据是信息化发展的新阶段,在大数据时代,档案机构要善于获取、分析和运用数据,积极投入国家大数据战略中,加快档案工作的数字化转型。冯惠玲[2]在“第十一届中国电子文件管理论坛”致辞中也强调,当下需要做“追风少年”,积极融入数据管理。在数据环境下,档案数据长期保存问题始终是当下所需长期关注的问题。数据可信是数据长期保存和利用的前提,要达到档案数据长期保存最终目标,必须进行档案数据的可信管理。档案数据“四性”保障问题始终是档案管理工作的根本,大数据时代,虽然档案数据热度上升,但数据的可信问题面临巨大挑战。目前已有不少学者针对档案数据建设展开了有针对性地探讨,但综合来看,结构化数据长期保存问题的研究还处在初期阶段,仍需进一步探究档案数据管理与档案数据长期保存等问题,以降低档案数据保存风险。

二、档案数据长期保存影响因素分析

(一)档案数据形成阶段要素分析

文件连续体理论以管理的视角,关注文件形成、捕获、组织、聚合四个立体维度,第一维度就是以文件的形成为基础,描述文件运动的最小单位——单份文件。一方面,工作人员在开展各项业务管理活动中会产生大量的档案数据;另一方面,由于组织机构内部工作人员、管理者、决策人等与用户之间存在交流、业务来往等活动,在具体的业务环境下各种操作均会留下相应的痕迹与活动轨迹,从而形成一些特定主题的丰富数据。数据形成时,在关系型数据库中存在的结构化数据居多,一般采用规则的二维表结构,二维表之间通过链接相互关联,从而实现数据之间的互联。[3]同时要从源头出发,依据档案数据质量管控要求,把相关的标准规范嵌入数据形成过程,以便形成完备的档案数据来源管控机制。[4]数据形成阶段为生命周期的初始阶段,贯穿整个管理活动的全生命周期,更应该关注保留生成数据的内容、数据属性以及数据之间的逻辑关系等。职能划分明晰,是数据归档整理分类原则之一,直接影响各类型数据的类别划分与保存标准的制定。总之,在业务活动中数据形成者的操作行为、职能划分与保存目标制定等直接关乎数据的形成质量。在数据产生时将原生数据进行适时获取是保障数据质量的关键,因此,笔者将数据形成的业务活动过程进行梳理,主要归纳了较为重要的影响因素,有操作行为、操作动作、业务职能和保存目标等。

(二)档案数据获取阶段要素分析

随着信息化建设的发展,档案形成组织对个人业务规范性和数据质量的关注也显著提高。在数据获取阶段,各个业务系统之间需要制定统一的集成和获取接口,为不同类型数据获取提供一个标准参考依据。一方面,需要考虑数据类型特征,关注数据间的关系描述,将获取文件思路转化为对成组文件的数据及逻辑关系的获取,同時获取归档范围之外的多模态数据,将逻辑关系如数据字典、E-R图和链接指针等作为元数据;另一方面,在获取过程中,元数据是实现真实、完整、可用性的保障,其最终将各类数据逻辑关系获取,形成元数据方案。之后,捕获的数据仍需进一步整理分类,需将数据之间的逻辑关系等描述信息一起封装打包,为日后组织机构的利用提供决策服务。因此,笔者将机构数据获取流程进行梳理,主要归纳了较为重要的影响因素,包括数据内容、属性描述、数据关联和封装信息等。

(三)档案数据保存阶段要素分析

由于档案数据保存工作核心存在“可见级→可读级→可理解级”的转变,档案保存工作的重心也在转变。[5]针对不同数据态业务下产生的数据要采取不同数据语义描述和表达方式,同时制定规则以帮助机器识读与处理,以实现长期可读。各大业务系统产生的数据数量巨大且结构复杂,数据集可能存在冗余、空缺值、分类不合理等问题[6],需对数据做进一步整合、清洗与标准化管理等,避免数据不完整和不真实。另外,数据安全问题不可忽视,需确保数据安全、防篡改和不丢失,保存模式可采用可信数据存储和访问的方式。[7]数据长期保存涉及数据关联管理、规则定义以及关系管理,以保障离散的数据形成连续语义并被人们所理解和使用。[8]总之,数据保存阶段需保存所有相关数据关系、规则或模型等,以备日后用户需要时可提供其存储的数据逻辑关系与规则模型,并能够以电子表格、知识图谱等形式呈现给用户。因此,笔者将数据保存阶段进行梳理分析,主要归纳了较为重要的影响因素,包括保存规划、数据标准、存储环境和安全管控等。

三、档案数据长期保存模型

(一)档案数据长期保存模型构建依据

本文借鉴文件连续体理论和生命周期理论,将档案数据保存与业务活动和业务环境结合,构建一个三维坐标体系来描述从档案数据形成到保存的过程,探索以数据为最小保管单位到存储仓库保管的变化规律。该坐标体系主要包括数据形成轴、数据获取轴和数据保存轴,其中数据保存轴为核心轴,它的变化将带动着其他两个轴的变化,揭示出各维度间的复杂运动。

在档案形成过程中,数据形成者涉及工作人员、部门与组织机构,数据形成维度包含组织机构的形成者发起某行为、操作、职能和目标等要素;数据获取维度则是在业务数据产生时进行实时获取,包含数据内容、属性描述、数据关联和封装包等内容信息;数据保存维度强调实现数据的长期可用,需要考虑数据保存规划、数据标准、存储环境和安全管控等因素。

(二)档案数据长期保存模型构建

综合以上影响因素,笔者在此基础上构建档案数据长期保存模型,如图1所示。

1.数据形成维。数据形成阶段作为全生命周期的初始阶段,与组织机构内所有工作人员涉及的行为、业务活动、职能划分与组织目标等因素相关。

(1)行为。这里的行为指数据形成者所产生的某特征行为。根据组织机构类型和性质的不同,所存在的业务类型性质也就不同。服务类型决定着数据形成者的行为特征,业务范围随着用户需求的改变而改变。[9]

(2)操作。在具体的业务活动中会产生具体操作,形成业务流,数据是此过程中的流动对象。实际业务的操作内容、方式以及数据整理操作等流程信息亦需描述保存,以便日后查证与溯源。[10]

(3)职能。组织内各个部门的职能划分十分重要,职能分工与职能定位可有效提升组织机构工作的办事效率,是开展后续数据整理和归档的重要参考依据。组织机构需明确并记录业务活动过程中的节点、阶段以及构成业务过程的具体事务,并确定每项业务的职能、活动和事物对数据的需求。

(4)目标。组织机构的目标规划是实现数据有效利用的关键,有助于发挥其长期可用性。保障数据真实完整与可用的目标贯穿整个生命周期。组织机构可制定一个由上而下的战略目标,从源头进行质量把控,如制定数据获取方案和获取标准等目标规划。

2.数据获取维。数据获取维不仅需要考虑获取数据本身,还应注重数据与数据之间的逻辑关系及数据内容的语义表达。需将数据属性描述与关联关系等作为元数据一起进行获取,以确保数据的真实完整与可用。

(1)数据内容。业务活动中会产生各类数据,如电子文件便是一种常规的数据,也被称为电子数据或电子档案。同时还存在一种业务活动直接形成的原生数据。业务驱动下各系统产生的大量结构化数据,数据内容可有效地反映业务主题和重要信息,是组织机构界定归档范围的重要依据,而数据内容的准确、完整、可靠是保障数据可信与可用的关键。

(2)属性描述。数据本身具有自身属性值,数据属性描述包括数据内容的语义与数据项描述等。[11]数据描述需要按照主题分类、职能划分等规则进行梳理与分类,还需将数据与数据产生的背景信息进行全部收集。每个离散的数据是不可以揭示其本身含义和存在价值的,数据的价值是大量数据聚集所反映的真实情况。

(3)数据关联。数据描述可帮助揭示数据内容信息,而数据关联可将数据与数据之间的关系形成一种规则或特征字典,可进一步增强数据的可理解性,有助于分析与应用数据。[12]可根据业务主题类型或业务类别特征选取合适的关联规则方式,如利用E-R图、数据流程图、业务流程图和数据字典等方法进行关联,以数据流与业务流来揭示业务主题和数据复杂逻辑关系等。

(4)封装包。在数据库系统中,对元数据的保存具有特殊规定和要求,须具备快速查询、易更新等特点。为了避免离散的数据本身含义和价值特征弱势等问题,需增强数据关联性,有必要将揭示数据的数据信息和描述数据属性和关系的信息一起封装打包,这可有效提高数据的查询率和检索率。

3.数据保存维。数据保存阶段是档案数据管理的最重要环节,数据的真实、完整、可用与安全是此阶段保障的目的。

(1)保存规划。保存规划是对数据在整个生命周期阶段中如何被保存进行的设计,主要包括数据情景分析和规划设计。数据情景分析是结合组织机构和部门间的业务管理活动与业务流操作等具体情景,针对档案数据保存需求和数据保存目标而定;规划设计是指不同生命周期阶段中需执行的基本原则、方法与技术环境等关键问题的设计。

(2)数据标准。数据标准是数据保存的约束性标准体系,需要参考和遵从相关法律法规,如《电子档案管理系统通用功能要求》《中华人民共和国数据安全法》《信息安全技术数据安全能力成熟度模型》等法规标准。同时,要结合档案数据获取、存储等需求制定数据保存协议、元数据标准、规则管理标准和数据质量管理标准等。建立规范的数据应用标准,可以有效地帮助消除数据不一致的问题,这是从根本上解决系统的数据质量问题的关键。

(3)存储环境。储存环境应具有保障数据长期保存与存储的技术基础。如数据库技术、存储加密技术、对象/关系映射技术、真实性与完整性验证技术等,这些技术问题仍需进一步研究。

(4)安全管控。数据安全与数据治理的重要性日益凸显。数据安全需从多方面入手。机构需构建数据安全治理框架,并梳理整体实施运行思路,用实践案例作为实证。安全管控需要综合考虑影响档案数据安全保存和风险管控等因素,如避免重复、空缺值等,以便构建一个稳定安全可信的仓储环境。

四、档案数据长期保存模型实现的关键问题

(一)数据获取前端控制问题

数据生成时的质量控制是保障数据内容真实完整的关键。在初始阶段需介入前端控制思想,重构组织架构、整改管理制度与战略规划等,以提升数据可信度和真实凭证性价值。原始数据在未经过数据清洗的情况下,可能存在缺失、重复、不一致、关联关系不清晰等问题,只有经过数据治理后的数据才能保障质量。数据清洗是实现数据治理的前提,数据清洗可检验出数据重复、不一致等问题,将“脏”数据进行有效清洗。

数据清洗包含原始数据的分析、定义数据清洗规则、搜寻并确定错误、纠正错误与干净数据的回流等过程。如图2所示,为避免出现数据空值、命名规則不同、拼写错误等情况,需按照数据清洗策略与规则进行清洗。常用的数据清洗方法有缺失值的清洗、重复值的清洗和错误值的清洗三种。其中,通过检测窗口内的记录判断其相似度从而确定并处理重复的记录。此外,对于记录不完全的情况则需填充补齐与验证数据,最后生成数据清洗报告并作为记录,以此作为档案数据的可信凭证。

(二)数据关联规则管理问题

由于数据形成环境的变化,越来越多数据驱动的业务系统大量涌现,形成各类以数据尺度形式存在的数据体,它们是业务活动的原始且真实的记录,具备档案属性。数据态下的档案数据需要考虑的是其归档保存方式的选择,对应的保存方法与策略也需做出调整。只保存单纯数据是无法被识读与理解的,数据实体之间的逻辑关系对于数据规则管理十分重要。数据与数据之间可能存在一种或多种关系,需将所有关联关系厘清并一起保存,以帮助用户理解数据。业务系统产生的数据不仅包括原生数据,还包括数据结构和背景信息等帮助理解离散的数据,如数据库中的概念设计、标准数据结构模型、数据字典技术、主外键与视图等。

(三)实现档案数据全程管理问题

长期保存阶段要实现数据的可用与检索,并可在需要时提供真实性证明。全程管理思想是保障数据完整真实的关键,全程管理需要的是使数据形成、获取、保存整个过程处在可控管理范围内。另外,前端控制在优化全程管理功能方面发挥着巨大作用,二者互为依存。如果仅有前端控制,那将会缺少很多必要管控,可能会导致重要数据丢失,在保证业务系统前端控制的同时也需要树立全程控制思想。在不同数据态下的业务系统中,业务流与工作活动等环节之间都需要制定相应制度规范与数据管理标准,以有效指导实际业务操作流程。当具体到每一个部门的每个业务流程,对数据的需求都必须在文件形成之初嵌入,需从源头对数据的质量进行把控,实施全程管理思想。

五、档案数据长期保存策略

(一)制定档案数据保存规划

对组织机构的发展而言,制定合适的战略目标与规划是实现组织发展的关键举措。在保存计划方面,应有计划地开展数据保存工作,并形成工作记录;在工作流方面,需确定数据归档范围与数据价值鉴定等规划。另外,制度是对领导和员工的约束,具有整合规训功能,无论是管理层还是基础层都需要有明确的制度,可以按照数据形成、获取和保存的全过程划分制度。

在业务治理与数据捕获中,需形成统一的规范格式,减少使用中的错误解读。档案数据安全管理制度的规范性、适用性、明确性和有效性是衡量档案数据安全治理能力的重要依据。档案部门需构建系统完备、结构清晰、高效运行的制度体系,制定科学合理、内容完善的档案数据安全管理制度,做好数据的保存和备份工作,规范实施流程。

(二)严格遵从法规标准

法规遵从意识淡薄可能会导致组织机构监管和细化组织管理不到位。这需提高遵守档案数据法律法规意识,提高数据治理能力。为证明其符合相关法律法规和标准实施要求,可参考国标、行标等相关法规。同时,可以结合档案数据获取、存储等需求制定数据保存制度、数据标准与规则管理标准等。在制定数据标准法规方面可参看《数据标准管理做法白皮书》,其中阐明了如何保证内外部使用与交换数据一致性和准确性的规范性约束等内容,帮助制定业务驱动下大量结构化数据获取和管理等标准。

在《企业信用监管档案数据项规范》中,将企业数据项中每一项属性进行描述,从类别、名称、字段名、数据类型、格式及备注等方面进行描述和说明,为企业中不同部门或组织进行信息交换和使用提供依据。在《中华人民共和国档案法》中明确规定“电子档案应当来源可靠、程序规范、要素合规”,结构化数据保存标准的制定同样需遵从各项法规。法规遵从是一个持续渐进的过程,建立一个内生于组织机构、业务流程及业务规则相融的安全治理机制,才能促进数据在“安全”中得以“保存”。

(三)建立数据关联规则

可以利用E-R图、数据字典、数据流图等方法,使用户清晰了解业务驱动下数据与数据之间的联系,清楚各业务的数据流向与每个数据项的意义。在业务工作中要记录数据形成者产生的数据来源,制定相关数据使用方案与使用方法,帮助用户在海量信息中快速查找、关联与使用数据。可以以业务流程图描述系统内各业务关系、作业顺序和管理信息流向,将系统中数据流向关系进行展示,并用少数符号综合地反映出数据在系统中的流动、处理和存储等情况。可构建系统逻辑模型,反映数据来源和处理过程,以保障数据来源可靠与数据来源的唯一性。

不同的系统类型所采取的数据关联规则和语义描述方式各不相同,可根据业务主题类型或业务类别特征选取合适的描述方式和关联规则。如在图形设计类系统中,存储的往往是几何数据或几何模型,只有通过解析几何方程式解释图形原始数据;以业务流程驱动的系统,用流程图进行流程定义,是整合和理解系统数据的关键,用户可以按照各自业务需求定义业务流程图,数据可以按照事先规定好的流程路线开展。还可以加上数据字典来帮助数据管控,以达到监控数据使用的目的,尤其是在数据库系统中使用数据元素定义的集合时,以数据字典来帮助数据管控,可以加強对数据内容与语义的理解。

*本文系国家社科基金重点资助项目“国家大数据战略下档案管理理论与实践创新研究”(项目编号: 18ATQ009)的阶段性成果之一。

注释及参考文献:

[1]中国网信网:十四五国家信息规划[EB/OL].[2022- 08- 04].http://www.cac.gov.cn/2021- 12/27/c_ 1642205314518676.htm?cre=tianyi&mod=wnews&loc= 4&r=24&rfunc=14&tj=cxvertical_wap_wnews&tr= 24&wm=1861%3Fmsg%3D%24citymsg&vt=4&pos=3.

[2]冯惠玲.融入数据管理做电子文件管理追风人[J].北京档案,2020(12):6-7.

[3]高劲松,张强.可移动文物的知识图谱构建及关联数据存储——以湖北省博物馆为例[J].现代情报,2022(4):88-98.

[4]周林兴,林凯.大数据时代档案数据质量控制:现状、机制与优化路径[J].档案与建设,2022(2):4-8.

[5]钱毅.数据态环境中数字档案对象保存问题与策略分析[J].档案学通讯,2019(4):40-47.

[6]蔡莉,梁宇,朱扬勇,等.数据质量的历史沿革和发展趋势[J]计算机科学,2018(4):1-10.

[7]仇蓉蓉,岳文玉.学术信息云存储中的安全需求与保障策略研究[J].情报资料工作,2019(6):38-43.

[8]钱毅.从保护到管护:对象变迁视角下的档案保管思想演变[J].档案学通讯,2022(2):82-88.

[9]刘硕.基于大数据的用户行为规律及业务相关性研究[D].北京:北京邮电大学,2017.

[10]支凤稳,云仲伦,张闪闪.基于区块链的个人科学数据共享模式研究[J].现代情报,2021(12):69-78.

[11]程芳,赵彦庆,李鸿飞,等.基于业务规则的数据质量管理方法研究[J].标准科学,2018 (2):117-120.

[12]赵强.建立外部涉税数据智能化处理工作机制[N].陕西科技报,2018-12-21(7).

作者单位:1.郑州科技学院信息工程学院2.郑州航空工业管理学院信息管理学院