数据集成技术在档案管理系统中的应用研究

2022-11-25 12:01丁海斌赵锦涛
档案管理 2022年6期
关键词:档案管理系统数据集成

丁海斌 赵锦涛

摘  要:随着文件与档案数据与日俱增,档案数据集成已经成为档案信息资源新的增长引擎,并应用到企业、政务机构、医疗行业等多种场景。通过对数据集成原理、技术与方法的总结发现,数据集成的方法与技术在档案管理系统中的应用可以建立起自己的实践属性突出的语义本体体系并产生自己的独特作用。数据集成可应用到档案管理的前端、中端和后端,实现全过程的档案数据集成化管理,并可以使系统呈现出层次性、精细性、规范性、一致性等特征,提高系统的性能并为实现其他应用场景提供前期基础。数据集成与档案管理系统融合拟解决的关键问题主要涉及:技术问题、数据质量问题、数据安全问题等。其中,技术层主要针对不同场景的业务数据处理,解决各业务系统中大量的、多源的、异构的数据融合问题;数据层对多源异构数据进行规范化、一致性构建,保障数据质量;应用层保障数据存储与交换安全,并保证档案数据处理的响应速度与系统友好性使用。

关键词:数据集成;档案数据集成;档案管理系统;语义本体

Abstract: With the increase of documents and archival data, archival data integration has become a new growth engine of archival information resources, and has been applied to enterprises, government agencies, medical industry and other scenarios. By summarizing the principles, techniques and methods of data integration, it is found that the application of the methods and techniques of the data integration in archive management system can establish its own semantic ontology system with outstanding practical attributes and produce its own unique function. Data integration can be applied to the front end, middle end and back end of archival management to realize the whole process of archival data integration, and can show the characteristics of hierarchy, fineness, standardization and consistency of the system, improve the performance of the system and provide a preliminary foundation for other application scenarios. The key problems to be solved by the integration of the data integration and the archival management system mainly involve: technical problems, data quality problems, data security problems, etc. Among them, the technical layer is mainly aimed at the large number of business data processing of different scenarios, and the multi-source, heterogeneous data fusion. The data layer builds the multi-source heterogeneous data in a standardized and consistent manner to ensure the data quality. The application layer guarantees the security of data storage and exchange, and ensures the response speed of archival data processing and the friendly use of the system.

Keywords:  Data integration; Archival data integration; Records management system; Semantic ontology

檔案数据是社会和经济发展的基础性战略资源,档案数据集成也是档案信息化建设中的一个重要环节。档案数据从静态数据到动态信息流和智能化开发利用,其影响力和潜力是巨大的。档案数据集成问题成为当前解决大规模电子文件归档和驱动实现数字化、数据化档案管理单轨制的重要手段。随着“云物移智区”等新信息技术与应用的迅速发展,档案管理已经过渡到数据化阶段,各种格式的档案数据已经成为档案信息传递和保存的基本形式。数据集成的发展从结构集成、语法集成和系统集成向语义集成发展,档案数据集成的方法与技术已经涉及各个行业,并成为档案数据深度利用与开发的重要前提。

尽管数据集成技术已经应用在档案管理系统的众多场景中,但研究者对其认识还很不充分,尤其是在档案管理系统中的应用还有较大的研究与实践发展空间。因此,本文从档案管理系统建设的视角出发,梳理数据集成的方法与技术,探究档案管理全过程中数据集成与系统融合存在的关键问题,从而为档案管理系统集成工作提供较全面较系统的理论参考。

1 数据集成研究现状

1.1 数据集成概念。信息资源建设存在阶段性和分布性的特点,造成“信息孤岛”的存在,影响数据的整体性与一致性,从而导致数据的协同性和利用率降低,影响数据作用的发挥,由此,数据集成的研究受到广泛重视。

图1 数据集成过程

数据集成是对数据源进行融合,把不同来源、格式、特点、性质的数据在逻辑上或物理上有机地集中,通过集成将自治异构数据源结合起来,为用户提供统一的集成数据视图,揭示数据之间的联系,挖掘其潜在价值,从而为用户提供集中管理与全面数据共享的条件。

1.2 数据集成的方法与技术

1.2.1 数据集成的方法

1.2.1.1 基于元数据方法。元数据是关于数据的数据,是描述本体的内容、结构、背景及其整个管理过程的数据。基于元数据方法的数据集成,是运用元数据对数据资源进行描述,完成多个异构数据源之间的信息交换、集成、同步等操作,实现异构数据资源整合利用。元数据方法通过编写受控词表,确定元数据语义描述标准,设置元数据语义化映射模式,对不同系统的数据进行集成。[1]然后按照一定的映射规则将自己的元数据记录转换成中心元数据存储在数据库中。

元数据方法能够很好地体现档案数据元素之间的语义关系,按照元数据组织信息资源的功能分为:知识描述元数据、结构元数据、访问控制元数据和评估元数据。根据不同的功能需求建立相应的词表对特定领域的档案数据共享具有参考价值和指导意义。但是也存在一些局限性:元数据所提供的数据描述信息不够完备,数据处理过程、数据使用说明、数据来源及引用信息等需要借助完整的数据文档提供。为了涵盖尽可能多的知识,元数据的条目越来越多,而且不同行业领域的元数据标准各异,导致数据源之间的互访困难。不同格式类型和专业领域的档案数据采用不同的元数据标准,由于缺乏跨领域共享概念模型的支持,元数据方法无法实现不同领域之间异构档案数据的语义集成。

1.2.1.2 基于语义本体的方法。在信息科学领域,本体是对某一领域中的概念及其之间关系,运用机器可读的语义表达方式进行显性描述,通过构建领域本体建立各数据源之间的映射关系网络。基于语义本体的数据集成系统,用户能够通过对本体描述有效访问多个数据源中的数据。目前基于本体技术的数据集成的方式主要分为:单本体、多本体、混合本体方法三种模式。值得注意的是,档案语义本体具有显著的实践性和客观性,能够建立实践属性突出的语义本体体系。

1.2.1.3 基于关联数据方法。关联数据对代表同一过程来自不同局部节点的数据进行关联,它采用RDF数据模型,使用统一资源标识符(URI)命名数据对象,描述数据对象及其关联关系和语境信息,通过HTTP协议发布和共享数据、知识,构成人和机器都能够获取的数据关联网络。[2]

关联数据集的构建是一个繁杂、系统工程,将多源异构的数据通过关联数据的方式对数据和知识进行再组织,使之形成关联化、结构化、有序化语义信息,运用字典或语义库的属性列(“属性列是以关系数据库中的特征/列为单位进行数据存储,将具有相同特征值的实体存储在一起,而某一实体中的不同属性值则存储于不同的存储单元中。”[3])语义匹配、利用屬性列内容相似性判断和使用朴素贝叶斯学习算法计算属性列相似概率等方法发现实体之间的关联。[4]

1.2.2 数据集成的技术

1.2.2.1 开放网格服务架构下的数据访问与集成技术。OGSA-DAI是一种广泛使用在网格中集成数据资源的中间件。其中网格是集成基础设施,能够在动态、分布式虚拟组织中共享和协同各种数据资源,数据网格作为一种数据处理架构,实现了网格环境中的数据访问、交换和共享。其通过将关系数据库、XML数据库以及文件系统等不同数据源中的异构科学数据封装为网格服务并构建数据网格。分布式数据资源的格式、模式、质量、访问机制、功能是多种多样的,通过数据网格能够在数据受控和安全的前提下,实现大量异构数据集的协调与共享。[5]

OGSA-DAI技术可以在尊重本地策略的情况下跨特定域使用计算资源,通过备份数据的方法提高可靠性、可用性。其次,提供了一站式访问异构数据资源的方式,提高数据集成工作的效率。同时,允许数据提供者保留对原始数据的控制,保证了数据的安全性。

1.2.2.2 人工智能技术。人工智能是计算机系统正确地解译外部数据,从这些数据中进行学习,并通过灵活运用所学知识实现特定目标或完成特定任务的能力。涉及的技术较多,如利用机器学习、数据挖掘、知识图谱等呈现数据资源的全景视图。利用统一的资源描述框架描述多模态的数据资源,然后利用基于知识库与本体库的双向嵌入式学习、迁移学习方法挖掘和抽取数据资源中的知识,将多源异构数据和知识从概念层和实例层进行对齐,融合到一个全局视图的全景化知识图谱中。[6,7]

人工智能技术具备高维非结构化数据分析处理能力,基于人工智能技术的科学数据集成方法具有高效构建科学数据关系网络和挖掘科学数据关联资源的优势,可以实现大规模多源异构科学数据的融合管理。人工智能虽然在技术成熟度和应用生态方面存在不足,但随着技术的发展和应用的深入,人工智能将成为今后数据集成的主流技术。

1.2.2.3 开源软件技术。开源软件是允许用户根据开源许可证及其协议要求,自由使用、修改和分发软件的源代码。开源软件为数据集成提供了低成本、高效率的技术工具,但是很多开源软件没有可视化操作界面,而且需要二次开发适用的插件,技术要求和开发成本较高,并且经过二次开发的开源软件其通用性和重用性较差。

1.3 档案管理系统数据集成。档案管理系统数据集成研究存在两种研究视角。其一是将数据集成视为一种档案数据的管理方式,重点研究运用数据集成方式设计出档案数据集成方案。该类研究强调在管理方面突破档案常规管理模式,用集成管理的方式提高档案管理效率[8];其次,重视在单轨制管理模式下,从业务流程和归档流程等过程入手,运用集成的方式提出具体的实施策略[9];同时,运用数据集成方式实现档案数据的共享利用,通过对数字化档案数据的管理推动相关工作的全面发展[10]。整体而言,该类研究提出的档案管理系统集成的方案与措施,难以有效地指导一般档案管理系统集成实践的开展。

其二是将数据集成技术融入档案管理系统的构建中,着重分析档案管理系统集成的实现方案。现有的研究主要是面向前端业务系统的集成研究,面向的是OA系统、ERP系统、网上行政审批平台等;其次,重点运用集成技术构建档案管理一体化平台设计方案,面对的主体是:高校平台[11]、医疗平台[12]、企业平台[13]、政务平台[14]。整体而言,该类研究能够对于档案数据集成平台构建提供较为可行的理论指导。

综上所述,当前数据集成技术在档案管理和档案管理系统研究中已经取得一定的成果,一方面能够为档案数据集成管理和共享利用提供宏观的管理性指导方案。另一方面,对于在实践中具体构建集成化档案管理系统提供可行性方案。但是,相关研究在全过程、多方位的档案管理系统数据集成中存在不足,缺少系统的、全面的对数据集成在档案管理系统应用中的理论指导。

2 数据集成技术在档案管理系统中应用的特点与必要性

2.1 数据集成技术在档案管理系统中应用的特点。数据集成技术应用到档案管理系统中,涉及档案从采集到归档利用的全部流程,涉及人员组织集成、业务集成、数据集成、制度集成、安全集成等多维度内容。整个系统从宏观到微观层面来看,具有系统结构层次性、管理方式精细性、数据结构规范性和元数据一致性四个特征。

2.1.1 系统结构与集成过程层次性。数据集成在档案管理系统中应用的目的,在于为各种目标的集成提供标准规则和实践指导,其应用必须同时满足电子文件归档的基本要求和信息系统集成的必要条件。

为了达到电子文件归档的基本要求,档案管理系统以实践本体论、系统工程理论和全程管理理论为指导。首先,要以档案实践本体论和档案工作根本原则(保持与人类实践活动的一致性)[15]为指导,保持与对应的业务活动的一致性;其次,系统工程理论和全程管理理论对档案数据集成过程提出了系统化、整体化、全程化的要求,涉及档案数据从低层次向高层次流转的全过程,包括数据的采集、整理、归档、利用全过程,必须保证电子文件在不同系统内管理与保存的内在协同性。最后,全程管理要求数据集成在档案管理系统中,既要考虑框架构建思路、要素内容和设计理念彼此之间的协调一致,又要体现出系统的事前规划、事中管控、事后监督的管理能力。

针对信息系统集成的必要条件,档案管理系统设计需参照信息系统集成理论,运用层次划分技术对框架涉及的必备要素进行科学的划分。信息系统集成理论能够为不同的信息系统间的集成提供方法论指导,涉及集成原则、集成技术、集成方法与集成框架等内容。档案数据集成过程是涉及众多要素的系统性工作,档案数据体量大并且具有多源异构的特征,但是它们各要素之间具有一定的关联属性。因此,档案管理系统的建设要对涉及的各主体、各要素进行科学的划分,在信息系统集成理论的基础上构建结构完整、层次分明、体系完备的集成框架。

2.1.2 系统要求与管理方式精细性。数据集成在档案管理系统中应用,需要保障系统在信息传输、交换、存储和处理过程中保持电子档案数据的完整性、可靠性以及机密性,可实现电子档案单轨制管理、智能化开发、大范围共享等档案信息化发展的需要。其次,系统处理的对象,不仅有数据,还有知识;系统能够对用户使用情况进行自动跟踪,实现使用过程自动留痕。并且对收集的档案文件进行自主识别、自动分类归档,实现档案智能化整理。

数据管理与集成是全流程的活动,数据集成是全流程管理的关键因素。它研究的重点包括数据采集、异构数据整合、数据共享、数据标准的一致性等内容。其中,数据采集和数据标准一致性是数据集成的主要推动因素。从单纯的多种类型数据集成到档案数据管理全过程的集成,涉及和考虑的内容增加,对档案数据的管理也从事中管理扩展到前端控制和后端控制。因此,它对于系统要求和管理方式要更加精细化,并且要有一定的扩展性和适应性。

2.1.3 数据结构与存储方式规范性。档案管理系统建设要符合国家、行业标准规定的多种门类、多种格式的电子档案:支持对多个全宗、多个档案门类的集成管理;并且对各个全宗及每个全宗内不同门类档案实施不同的分类方案;同时要求在多个档案分类方案间建立映射或关联关系,保障对所有类型电子档案的集成管理以及对不规范的电子档案进行自动的过滤、提醒和处理。

数据集成的应用要求档案数据的归档和元数据的标准要具有一致性和标准性,首先需详细了解档案数据的特性,提出具有针对性的数据结构的描述方式、元数据的内容、XML(可扩展标记语言)的表述方式等,确定元数据中必要或可选的元数据信息,最终确定元数据项目的数据类型。在此基础上构建的数据结构,不仅可以对档案数据的本体进行描述与定义,也能够体现复杂数据之间的层次性,使其形成的数据、结构呈现连续性和完整性,从而保障存储方式的规范性。档案数据具有数据量大、多源异构的特征,用户对于操作处理速度、数据安全也有较高的要求。因此,数据集成技术应用能够提升数据处理效率,其关键性因素需要保障数据的存储效率和数据一致性。

2.1.4 元数据标准与数据交换一致性。数据集成技术要求档案管理系统结构具备开放性,可实现与其他系统的功能集成、数据交换与共享。第一,提供开放的应用接口功能,支持与电子档案检测工具、电子档案格式转换工具、报表生成工具、工作流程定义工具、數据备份与恢复工具等第三方工具的功能集成;第二,提供开放的数据接口功能,支持与其他电子文件管理系统、办公自动化系统等系统的数据集成;第三,支持与异构系统进行规范格式的电子档案信息交换,保障其他档案管理系统或电子文件管理系统实现业务过程的衔接和数据的交互;第四,尤其是对新技术、新平台的应用兼容和数据迁移,保证系统功能后续的修改和升级。

元数据标准的构建是元数据一致性的保障,一致性要求宏观上要与国家标准、行业标准保持一致,微观上保持数据结构、描述方式、构建方式一致,为档案数据存储、共享与交换、利用提供便利。数据集成技术与功能协同需要元数据标准与数据交换一致性,模块化、专业化、一体化的元数据建设是数据集成的基础工作。

2.2 数据集成技术应用的必要性

2.2.1 技术层面。首先,数据集成技术更加完善,通过集成能够提供更有价值的数据。从数据集成到集成式的档案管理系统,不仅能够使最终的数据更加准确,而且能够提高数据的质量。其次,能够改善人员、系统、数据的协作与统一,提升了响应速度。数据集成能够通过网络直接访问数据库中数据,实现数据共享,数据集成的协作与统一,改善组织结构协作问题与效率问题。档案数据体量大,有效数据集成能够促进数据的智能化分析,统一的存储环境能够实现数据的同时访问,运用人工智能技术实现数据间逻辑的关联。

2.2.2 经济层面。首先,数据集成能够缩短数据准备和数据分析时间,统一视图的自动化流程破除用户手动收集资料方式。传统的数据存储在不同的位置和过程中,数据集成的应用使其统一存储在数据库中,能够保障数据完整性、及时性和准确性,数据的实时更新与实时收集、集成能够保障数据集成质量、数据的新鲜度,减少因为数据集成质量较低而增加的经济成本。其次,通过AI,数据集成能够实现即时的正反馈循环,通过数据集成整合生成的数据集支持决策的完善。传统档案管理系统需要安装在中心大型服务器上,初期的建设成本和维护成本较高,但是通过数据集成把其存储和运行都放置在云环境中,可以根据数据存储量的大小按需支付费用,相比于传统的系统运作的方式更加的经济实惠,能有效地降低维护成本和运营时间。

2.2.3 社会层面。“档案是社会运行与治理的重要经验基础。人类的任何一种实践活动,都以人类思维作为出发点,都要从思维到行动,而人类思维需要相应的经验基础。档案在人类实践活动中具有特别重要的经验基础作用。”[16]档案数据量在不断地增加,用户更迫切地需要应用技术手段去解决繁杂无序的数据,数据集成技术应用也必不可少。信息化时代,用户主体办公主要通过在线完成,不同应用生成的数据量在不断地增加,降低服务器运行的效率。通过运用数据集成技术把数据存储、数据交换、数据运算处理在云端进行,能够解决用户数据管理和利用的难点。对各主体的业务流程和管理过程存在信息不对称、视觉盲点等问题,通过对数据的全过程进行集成,系统能够及时地发现问题并提醒,数据集成能够改善人主观能动性所关注不到的内容。把数据、信息、流程集成起来,通过计算机的处理逻辑能够使管理过程更加高效,特别是为智能化开发提供必要的数据完整性条件。

3 数据集成应用档案管理系统拟解决的关键问题

3.1 档案收集与技术协同。大数据时代,档案管理数字化转型以及档案数据处理技术不断应用推广,使各主体形成的档案数据体量巨大。由于档案数据政策法规制度缺失和档案数据结构复杂,可能导致档案数据恶意篡改;数据资源难以整合利用,形成“数据孤岛”、冗余数据的存储消耗大量存储资源等。这些问题均对档案管理系统中档案收集节点提出了更高的技术要求。

档案收集工作涉及归档部门发布归档通知、业务部门整理各自需归档的材料、移交/接入归档部门、归档部门验收并保存入库。它的归档流程涉及人员和部门较多,由于档案收集工作较琐碎,势必会造成部分档案的错漏,影响档案数据整体价值的发挥。同时,由于使用业务系统的多样性,造成不同系统之间的数据种类、格式、结构各异。还有,目前许多业务系统不具备归档功能,导致电子文件无法通过系统自动归档和系统协同。因此,数据集成技术应用需要保障档案管理系统的开放性与协同性,保障对档案收集中各流程的节点合理集成的基础上,也要考虑不同系统之间的数据接入的一致性。

3.2 档案管理与数据安全。档案管理已经进入信息化管理与智能化管理阶段,大数据技术在档案采集、检验、存储等各个方面被广泛应用,档案管理融合了互联网、物联网、智联网,并向智能化管理方向发展。尽管,数据集成的方式能够使大数据在云计算平台上进行处理和查询、云计算可以按需付费提供各种弹性和可扩展的IT服务,但也带来了隐私和安全问题。档案数据集成能够打破数据孤岛、实现数据资源共享,但是集成化数据资源暴露在网络环境中,信息窃取者利用先验知识背景和海量数据的相关性来窃取敏感信息。另外,不同系统的数据源分布在不同的设备和存储系统中,依靠网络进行数据的传输,这对于数据的安全性保障提出了更高的要求。

3.3 档案利用与数据质量。构建智能化、便捷化的档案信息化管理系统的目的是保证档案的存在形式、存在方式、管理模式、运行模式实现数据化、集合化、单轨化、实时化。[17]保障档案智能化利用的前提是拥有高质量的集成化档案数据。档案数据的集成化、完整度、一致度越高,智能化利用和开发的效果就会越好。尽管数据集成技术能够对多源异构数据进行整合,但是由于被集成的数据源来自不同的渠道,其数据模型呈现异构性,主要体现在语法异构、数据语义异构、数据源使用的环境异构等。由于不同数据源的实体关系建模时采用不同的命名规则、不同颗粒度划分,造成数据源间的语义异构。复杂的关系模型也是数据集成的重、难点。另外,不同系统中的数据源具有较强的自治性,统一数据集成会改变数据自身结构,造成数据失真,影响数据质量和数据集成效率与真实性。因此,数据集成在档案管理系统中,提高数据质量、保障档案智能化利用方面是需要重点關注。

4 解决方案

随着大数据技术的迅猛发展,各行业愈发重视档案数据潜在的巨大价值,把人工智能技术应用到多维度、多源异构的数据挖掘中。档案管理系统在数据集成的基础上形成的数据是有序化、结构化、体系化的数据,能够实现数据的深度分析和挖掘,保证数据的多维度高效检索,为用户提供数据分析依据。

4.1 智能化归档保障技术协同。传统电子档案收集出现的问题包括:重要数据缺失、数据异常、数据不一致、数据重复或者错误。因此,在智能化归档中应用数据集成技术,能够提高归档效率。档案数据集成包括多方面集成,不仅涉及人员组织集成、制度集成、基础数据集成,而且包括安全集成、业务过程集成等内容。

在人员组织集成和业务过程集成中,要更加重视档案人员素质的培养,制定合适的数据质量管理角色,划分单独的组织架构,在业务过程中落实追责制度,保障数据在采集和形成中提高数据质量,保障从数据形成的源头提高档案数据质量。

在制度集成和基础数据集成过程中,严格制定数据质量的规范,提升数据一致性,依据已有的国家或者行业数据标准、监管要求、行业规范等内容,以及现阶段影响数据质量的因素,结合业务集成过程中档案本体提出标准的元数据项,元数据项之间的继承、联动等关联关系,形成标准电子档案元数据和目录数据池。尤其要注意的是档案语义本体体系的构建,从档案本体的概念、概念关系、属性、属性关系、层次结构等多个方面的内容进行解析,各元数据的分类体系的定义需与机构预先明确的电子档案的密级、保管期限、分类规则和其他特殊要求等进行关联,以便实现电子档案的自动、批量的捕获与接收,集成数据系统中构建的分类体系按照层级进行组织。

在基础数据集成中,整合数据资源,支持接入多个来源、不同结构的数据,统一数据口径。解决基础数据在整合过程中不同数据源的划分标准和元数据不一致问题,保障基础数据集成后数据集的质量。

4.2 一体化管理保障数据安全。数据集成在档案管理系统中应用,能够更好地实现档案管理人员、档案系统、业务流程三者之间的协同。但是在档案数据集成过程中仍然存在影响档案数据安全的因素:原始数据被恶意篡改的問题、数据存储中被盗取和丢失的问题等。因此,在档案管理的一体化过程中更加注重保障数据安全。

档案管理系统在人员组织集成中会对不同的相关人员进行分级、分层地设置相应的操作权限,能够防止非授权访问,保存电子档案管理关键业务过程记录,保障电子档案安全:第一,支持系统管理员、网络管理员、安全管理员、档案馆(室)档案管理员、归档单位档案员、档案利用者、档案馆(室)领导、各归档单位领导等多种用户角色的定义;第二,支持分级授权、一人多岗、一岗多人、易岗易权的管理要求;第三,记录电子档案管理的关键业务过程信息,形成完备的系统运行日志,并且在安全集成中记录每份数据的操作痕迹,加入二维码技术,通过扫描即可显示按照时间顺序生成的操作记录。

此外,在安全系统设计中集成了“可信访问认证+生物识别(指纹或人脸等)”技术和水印技术。可信访问认证技术是安全可信的档案管理系统建设的技术基础和重要保障,通过密码技术、区块链技术等对系统访问人员进行限制认证,在一定程度上保证访问人员身份的安全合法。生物识别技术包括人脸识别和指纹识别、乃至视网膜扫描与肢体动作识别认证技术,主要基于生物体特征,对实体身份进行验证。目前,这两项技术已经在考勤、门禁、刑侦等多个行业场景中使用,能够保证档案管理系统登录的可信认证。在人员集成中对于每个工作人员以及用户均设置“用户名”的水印技术,具有强制性,每份脱离档案数据库的文件都会生成专门的文件水印,从而可以进行文件追踪溯源,减少档案数据被盗取和丢失的情况以及可以实现较精准的问责。

4.3 精细化管理保障数据质量。档案管理系统要求档案数据有较高程度的颗粒度精细性、数据关联精准性以及数据结构标准化,这对档案数据质量提出更高的要求。因此,从数据集成的四个层次来对数据进行分类,抽取、转换、加载,从而形成标准化、精细化的数据集,在集成的过程中严格遵从档案语义本体的特殊属性。

数据集成可分为基本数据集成、多级视图集成、模式集成、多粒度数据集成。基本数据集成中最重要的是URI(通用资源标识符)问题,对于不同系统源中的描述存在一定的差异;多级视图集成按照低层次向高层次的方式对数据源之间的关系进行集成,其中不同层次间的格式不同,底层数据表示方法为局部模型格式、中间数据表示方法为公共模块格式、高级数据表示方法为综合模型格式;模式集成是按照设计好的数据库进行数据的集成;多粒度数据集成作为异构数据集成中的难点问题,可分为数据综合和数据细化两个方面:数据综合即实体特征提取和归并的过程,将高精度数据经过抽象转化为低精度数据。数据细化则是获取更高精度的数据。

档案数据集成的数据一般源自多个系统和数据库,形成的数据格式和元数据存在不一致情况,档案数据具有多源异构的特征。在基础数据集成中,根据行业法规涉及通用标识符,通过形成的元数据库对数据进行描述,形成实体与数据之间的映射关系,通过数据关联构建数据间的网络体系,使之形成关联化、结构化、有序化语义本体信息,为集成档案数据集的智能化开发提供数据基础。还有,在基础数据集成的过程中会形成不同类型的数据库,各数据库之间会有层级之分,把低层次的局部视图,运用视图集成的方式与高层次视图有机地融合起来,综合成一个系统的总视图。在视图集成中,对不规范的电子档案进行自动的过滤、提醒和处理,生成初步E-R图(“实体—联系图,Entity Relationship Diagram,提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型” [18]),然后进行修改和重构,消除不必要的冗余数据,最终生成基本E-R图。

档案数据质量的提高除了基础数据的集成外,对于档案归档的前端和后端也提出相应的要求。因此,在档案管理过程中人员组织集成、制度集成、业务过程集成需要相互协同,将其落实在常态化管理过程中,充分发挥档案数据价值。同时,协调系统内部各要素的相互作用,实现档案数据的全过程管理,从而保障在档案管理系统中实现档案数据的智能化利用水平。

5 总结

数据集成技术与理论在档案管理系统中应用,能够为业务系统集成和档案数据管理全过程集成提供理论与技术支持,明确档案管理系统应用数据集成技术应该要解决的数据质量、数据安全、异构数据集成等关键问题。在对应的解决方案中使人员组织集成、制度集成、业务过程集成、基础数据集成、安全集成等全过程融入系统管理集成中,从技术层、数据层、应用层共同构建规范化、一致性、全过程的集成式档案管理系统。但是,由于不同业务系统的应用场景中,具有特征鲜明的数据结构,并且档案与档案管理的实践性、复杂性决定了要具体问题具体分析。未来研究与实践工作要以数据集成方法与技术为指导,以档案工作实践为导向,不断完善集成化档案管理系统的内容,使之更具友好性、集约性和全面性。

*国家档案局科技课题“面向全程溯源的公路建设项目档案数据集成技术及其应用研究”(2021-X-04)阶段性成果。

参考文献:

[1]Guerrero J I,García A,Personal E,et al.Heterogeneous data source integration for smart grid ecosystems based on metadata mining[J].Expert Systems with Applications,2017,79:254-268.

[2]马费成,赵红斌,万燕玲,杨东晨,赖洁.基于关联数据的网络信息资源集成[J].情报杂志,2011,30(02):167-170+175.

[3]Mountantonakis M,Tzitzikas Y.Large-scale semantic integration of linked data:A survey[J].ACM Computing Surveys(CSUR),2019,52(05):1-40.

[4]陶冶,郭帥童,丁香乾,侯瑞春,初佃辉.基于动态探针的企业数据空间实体关联构建方法[J/OL].计算机集成制造系统:1-13[2022-09-13].

[5]Muppavarapu V,Chung S M.Semantic-Based Access Control for Data Resources in Open Grid Services Architecture-Data Access and Integration(OGSA-DAI)[M]//Information Retrieval and Management:Concepts,Methodologies,Tools,and Applications.IGI Global,2018:1701-1725.

[6]Ma Z,Kim S,Martínez-Gómez P,et al.IEEE Access Special Section Editorial:AI-Driven Big Data Processing:Theory,Methodology,and Applications[J].IEEE Access,2020,8:199882-199898.

[7]Carlos R C,Kahn C E,Halabi S.Data science:big data,machine learning,and artificial intelligence[J].Journal of the American College of Radiology,2018,15(03):497-498.

[8]高玲俐.OA背景下高校档案集成管理研究[J].档案与建设,2020(11):65-66.

[9]王强,吴志杰.业务系统与档案管理系统归档集成框架:构建与内涵解析[J].中国档案,2021(03):77.

[10]王宇蓉.试论以档案管理为核心的数字化医院构建[J].档案管理,2018(04):88-89.

[11]林慕婵,梁鸣.“互联网+”环境下高校数字档案资源共享平台建设——以华南农业大学为例[J].中国档案,2020(02):60-63.

[12]杨淑红,杨春茂.医院档案管理信息系统集成研究[J].电子技术与软件工程,2021(19):178-179.

[13]王强,吴志杰.业务系统与档案管理系统归档集成框架:构建与内涵解析[J].档案学通讯,2020(06):45-53.

[14]王佑祥.政府电子文件单轨制管理模式研究[D].吉林大学,2021:1.

[15]丁海斌.档案学本体论——兼谈档案学的根本原则[J].档案学通讯,2015(06):14-19.

[16]丁海斌.关于档案工作与社会治理的三个问题[J].档案学通讯,2022(04):102-104.

[17]丁海斌.谈档案信息化革命质变的原因与内涵[J].档案管理,2022(03):5-13.

[18]萨师煊,王珊编著.数据库系统概论[M].北京:高等教育出版社,1983:19.

(作者单位:丁海斌,广西民族大学管理学院、广西数字档案管理研究所;赵锦涛,广西民族大学管理学院 来稿日期:2022-08-20)

猜你喜欢
档案管理系统数据集成
试析档案管理系统的需求与功能开发利用
成本与制造数据集成分析
智慧档案管理系统的层次与功能设计分析
基于Biztalk的异构医疗信息系统数据集成研究
信息系统集成与数据集成策略研究
电子档案管理系统解决方案及其关键技术实现
高校档案的数字化及其利用服务
XML数据交换技术在中医智能化诊断数据集成中的应用
高校一表通系统建设探究
基于数据集成的水上项目国家队数据库网络管理平台的设计与开发