丁海斌 赵锦涛/广西民族大学管理学院、广西数字档案管理研究所
随着社会信息化的深入发展,各主体单位越来越普遍地使用网络系统处理公文和各种业务文件。各单位业务活动具有多元性,它们需要制作和运行多种业务系统来开展各种业务活动,由此增量电子文件不断产生与积累。在这种情况下,电子文件的形成具有零散性、多源性、异构性等特征,类型也是多元的。因此,数据集成就成为解决多源形成的复杂电子文档管理问题的重要手段和方式。
数据集成的主要目标是集成多种信息源数据,其具体做法主要是按照逻辑和物理规范进行多源数据集成,形成一个包含不同特征数据集的新的更高层次的数据集。而形成电子档案新数据集的目的既在于实行电子档案整体化集中管理,更在于实现集成化的档案数据的智能化应用。因此,在电子档案数据集成应用不断发展的背景下,对档案数据集成应用场景的研究变得越来越重要、越来越急迫。
档案数据集成应用场景研究是以档案管理系统为基础,以用户需求作为导向,结合大数据分析、可视化、区块链数据关联等数据技术与集成化档案数据集,探究集成化档案数据能够实现的新功能与新用途。档案数据集成背景下的各种应用场景的开发、创新与推广,可以提高档案的智能化管理,深化数据共享,形成多元化的共享利用模式,推动电子档案数据的智能化价值挖掘。
基于社会需要和现有研究之不足,本文在档案数据集成背景下以公路建设项目档案管理系统为例,较全面地探究各种档案数据集成的应用场景,推动电子档案数据集成系统智能化应用水平的提升和相关理论研究的深化。
目前,对于档案集成数据应用场景的相关研究,主要表现在数据集成技术实现的文章中。数据集成技术与电子档案管理联系日益密切,但电子档案数据集成尚未形成统一的概念。因此,本文从数据集成角度结合电子文档的特征,以多元异构数据源和先进技术为基础,从档案形成所涉及的业务流程和主体为出发点,将电子档案数据集成定义为:按照电子档案集中管理模式,对档案管理所涉及的内容、环节、业务按照其流程进行有机的融合和优化,把来源于不同业务系统的不同格式、内容、特点与性质的档案数据在逻辑上或物理上进行有机地集中,形成新的集成化的档案数据集,从而为集成化的电子档案管理与应用提供基础。
图1:公路档案数据集成框架
研究发现,到目前为止档案数据集成情景下的应用场景主要在医疗服务和企业活动中体现得较多。目前,数据集成技术已经比较成熟,在大型工程项目、医疗行业、金融企业等均有应用。其应用场景主要包括集成数据的共享与利用、可视化档案展示与统计分析、档案数据多维溯源以及专业档案知识库建设等。但是,在理论方面,数据集成视角下应用场景的系统化探索与分析的文章还很缺乏,因此限制了档案数据集成基础上的应用场景的不断开发与拓展。
从医疗产业方面来看,档案数据集成的应用场景主要在实现医疗数据的可视化展示以及数据之间的关联性统计分析。在《面向精准医疗服务的患者档案数据采集与分析》[1]一文中,档案集成化的数据主要应用在患者档案数据的可视化呈现、分析以及患者档案画像评估。把档案数据集成转换为可靠的医学知识体系,指导精准医疗开展的全过程,从而实现精准预防、精准医药、精准治疗。在《区域健康医疗数据集成模式研究与实现》[2]一文中,通过构建数据集成的系统整合数据后,应用主要在医疗数据分析与结果可视化,运用统计分析和关联规则分析探究数据之间的关联性。
从企业的应用场景来看,集成化数据的应用场景主要体现在数据的高效检索、查询与利用以及为提高其科研水平等方面。2019年11月,首钢集团有限公司矿业公司(以下简称“首钢矿业公”司)基于档案数据集成的档案管理系统投入使用,它的主要应用场景是实现单点登录、数据直达,确保公司内部档案信息资源共享。档案管理人员在进行报表管理时,可以直接调取前期数据继承使用,提高公司数据的使用效率[3]。2021年,中国石油华北油田公司档案中心公布其建设“互联网+油气采掘”新业态,构建了以华北油田地质数据资源池为核心的地质档案大数据综合集成开发利用体系,集成化数据的应用在地质资料信息数据远程智能检索与查询以及在科研部门提供信息智能个性化推送服务。档案数据集成不仅提高了其档案数据的管理水平,也为科研生产提供专业的服务。
在数据集成情境下,档案数据集成应用场景的特点呈现多样性、专业性以及个性化等。以用户需求为目标驱动的应用场景结合现代技术能够推动实现知识型、专业型信息服务,满足用户多样化和个性化信息需求,提高档案数据集成服务的深度和质量。
2.1.1 应用场景的多样性
档案数据集成应用场景以海量性、异构性、多样性集成化数据为基础。首先,档案数据应用场景所涉及的业务流程和主体是多元的,其应用通过全局模式对档案管理所涉及的内容、环节、业务按照其流程进行有机的融合和优化形成多样化的信息资源体系。由于它涉及的环节、流程众多,以及日常工作中产生结构化和半结构化的数据形式,整个过程是动态变化的,因此档案数据集成应用场景的实现是复杂多样的。同时,档案数据集成应用场景实现属于资源密集型工作,要求以实用为导向,并且坚持全面覆盖的原则。如,公路项目(见图1)中产生的档案包括传统的纸质档案、图表、图片等内容,也有电子记录方式产生的视频录像、仿真模型等,形成的数据量大且其呈现出多源异构的特点。其次,数据集成不仅体现在数据方面,而且在数据管理过程中,还延伸到人员、管理制度、业务过程、平台与技术、安全集成等诸多方面。在此基础上,结合新型现代技术能够实现多种应用场景。
2.1.2 应用场景的专业性
一般来说,应用场景的实现会指向某一个具体的业务或专业。运用若干个有序的集成化数据,结合分析策略能够形成专业化的知识服务。现在常用的技术工具有人工智能技术和开源软件等,运用机器学习,提高处理高维非结构化数据的能力,把多种关系数据库、XML数据库、文件系统等不同的数据源的数据构建数据网络,实现大规模多源异构数据的融合管理。通过数据集成形成的数据集会严格按照明确、统一的规定进行有序的存储。不仅有效解决数据之间复杂的依赖关系,而且方便数据的清洗、转换、抽取、融合等,以及支持多维联机分析处理和数据挖掘[4]。
2.1.3 应用场景的个性化
数据集成形成有序的档案信息资源池,它能够以利用者的需求为目标驱动,筛选和组织利用者所需数据进行展示。信息化社会中数据规模持续膨胀,通过数据集成技术工具,能够有效缓解数据无序的状态。首先,档案数据集成应用场景会涉及元数据方法、本体方法、关联数据方法以及数据模型方法等多种关联和分析形式。其核心是把数据按照统一的标准进行转化,通过两两之间不同的关联进行映射,建立异构数据与数据模型之间的映射关系,通过可视化技术挖掘与利用者需求相关的潜在信息价值。其次,档案数据集成应用场景是动态变化,基础数据源是不断增加,每个不同的阶段会产生多种多样的数据。因此,在具体的应用中,要求信息技术能够克服基础数据源不断增加和动态变化的特征,从中抽取出利用者所需的信息数据,实现“按需”分析。
2.2.1 有利于与新技术结合
先进的技术为平台的建设提供保障,档案数据集成注重应用需求和能力相结合,避免技术水平与实际应用脱节,保障档案数据集成管理的持续性和稳定性。集成化档案数据集作为基础数据在应用场景中发挥作用,通过实际应用分析对档案数据集成进行评估和改进。云计算、大数据、物联网等先进的技术能够便利地和集成化数据相结合,有利于形成大规模且有序的决策分析系统,探索更加灵活、高效的技术模型与分析框架,为构建可视化、规模化、精准化的信息服体系提供数据支撑,有利于满足现代化、信息化建设的需要。
2.2.2 支持多类型终端应用
集成化数据有利于推动档案数据集成行业分析、应用范式形成,具有潜在价值和推广价值。集成化数据能更好地兼容不同设备、不同操作系统、不同数据库以及开发工具的应用,具有更加强大的数据兼容和数据转换能力,为多种类型终端的应用提供便利条件。档案数据集成的过程能够更深入了解集成化数据的内容,更加全面把握档案数据形成的规律。在此基础上,把数据科学、信息系统、情报学等技术与方法以及各个行业的需求进行结合,梳理其在行业内的动态关系与内在机理,有利于构建某行业典型的档案数据集成的应用范式。
2.2.3 构建一体化数据中心
数据中心职能是存储和处理数据,档案数据集成在数据中心的运转下进行集成和服务。数据集成的研究已经从注重准确率向提高算法效率和处理复杂数据的类型转变[5]。大数据时代带来的主要问题之一是数据质量问题,低质量的数据影响算法的准确性和决策精准性。因此,档案数据集成是在不断优化集成模式上,通过多次数据清洗,形成的高质量的集成化数据。其次,在集成的过程中有统一的元数据建设标准、电子资源建设标准以及严格的档案数据评估流程。档案数据集成能够解决数据资源之间无序、分散、异构的矛盾,建立有效档案数据集成策略,形成的数据是多维度、相互关联的有机整体。
档案数据集成扩展了数字档案的应用场景。面向多元、差异化的应用场景,档案数据集成可针对任何业务的特定需求灵活配置集成的数据资源,从而满足不同行业、业务场景对数据集差异化的需求,这极大地拓展了档案数据的应用范围和场景。
3.1.1 场景一:高效社会治理
高效社会治理需要处理庞大的数据量,档案数据集成将形态各异的档案转化为可以量化的数据,通过明确规定、统一保存形成的数据。依据单套制标准,建设形成的档案数据库是多元化、多主体、多维度的结构型数据库,为社会治理创造有利条件。云计算强大的数据处理中心与集成化数据结合,能够实现内部信息之间交流与共享,有效实现各种数据资源间的整合,按照需求分配资源。
场景描述:社会治理过程中会出现各部门之间的信息孤岛、信息真空、信息滞后现象,需要及时的信息共享与反馈,针对社会危害事件处理不及时、反应不迅速等场景出现。运用档案数据集成方式打破条块化、碎片化的管理模式,通过跨部门、跨层级、跨领域等多跨协同机制,重塑社会管理内部运行机制、制度链接机制、多元社会主体的沟通机制,逐步解决当前社会中存在的系统性、结构性问题。
特性与竞争力:运用云计算技术对社会治理中庞大的数据进行处理、传输,搭建虚拟化存储利用平台,使系统具有完备的数据计算能力、数据存储能力、数据传输能力、数据安全能力和应用扩展能力。通过给数据赋能,化解在社会公共管理过程中重难点问题,使多部门协同合作实现动态化、细分化、精准化管理。把零散、多元、异构的档案数据,利用大数据技术按照“统一平台、存量共享、逻辑集中”的原则,弥合数据缝隙形成数据云、数据集等存储在数据库中,缓解各主体面临的数据膨胀的压力,扩展了其保存的数据种类和数据量,提升了档案管理部门的管理能力和服务能力[6]。
3.1.2 场景二:档案知识库建设
档案知识数据库以数字化档案数据为基础,面向用户提供的知识服务主要是档案知识检索和个性化定制的参考咨询服务。能够实现对数据分析、控制信息而更好的感知知识。集成化的档案数据资源完整地记录了电子档案形成到归档保存以及利用的整个流程,形成的电子档案数据库是档案知识库的基础数据源。
场景描述:把可视化档案技术应用到档案知识数据库的构建中,不仅能够实现数据的语义检索,也可以向用户提供细粒度、结构化的检索服务。此外,基于数据集成构建的数据库有利于实现档案数据间的知识聚合与语义组织,构建基于数据关联的知识图谱,实现相关数据间的相互联结,进行档案数据集成的深度开发与挖掘,最终构建一个集成化数据的档案知识网络。
特性与竞争力:档案数据集成情境下形成的集成化数据集具有高质量、多样化、有序化特点,与建设档案知识库的基础数据源要求基本一致。借助5G、大数据技术、物联网等现代技术,实现资源整合和知识组织,能够有效辅助专家决策对信息资源需求[7]。
3.1.3 场景三:数字档案信任体系构建
档案信息化建设过程中,数字档案已经成为重要的载体。防止数据被非法访问、恶意篡改等已经成为重要的问题。在集成化数据中引入区块链技术,保证数据的真实性不受篡改,去中心化的分布式系统可以避免数据丢失。
场景描述:区块链技术支持分布式存储。在集成化数据集中将形成的数据分布到多个网络节点,每个节点之间通过加密协议进行传输和通讯,在数据集成的基础上,各个节点不受地域和空间限制,在逻辑上又能够重新构成一个整体,相互验证与备份,能够保障数据的存储安全[8]。
特性与竞争力:在集成化数据集中引入区块链技术进行分布式存储,形成一个分布式、虚拟化、分散性的网络,使数字档案存储更加安全可靠。同时区块链技术为数字档案构建安全信任体系提供技术支撑,使整个数字档案在其生命周期内可被追溯,充分保障数据的保管与存储。
3.2.1 场景一:可视化档案展示
可视化档案展示是基于物联网技术的档案感知方式。具体而言,在集成化数据的基础上,把档案数据资源、档案用户、档案管理者等连接起来,实现一个全面的物联网,使各个数据能够被及时地感知,并对其进行关联处理。
场景描述:利用可视化技术,实现集成化数据的可视化展示。集成化数据能够从多视角对信息进行增强,也可以对相似性信息进行补充,从而形成完整的数据集[9]。依据档案集成化数据的资源特征,结合档案主题、档案人员主体、档案资源类型、档案形成时间、档案类型等属性,构建两个不同属性之间的关联关系,把几何数据和非几何数据的各类信息进行补充和完善,从而为实现个性化信息服务奠定基础。
特性与竞争力:在档案领域利用可视化模型,构建面向复杂多样的档案数据资源的知识组织,提供集成化数据的规范化表示,实现错综复杂的数据关联,满足用户档案数据资源的可视化展示[10]。
3.2.2 场景二:数据的交互式分析
档案数据集成形成大量集成化档案数据集,运用大数据技术,对形成的数据集进行统计数据分析和数据挖掘,发现其中的隐性知识和重要价值,通过对数据的分析和了解,预判用户的需求特征。
场景描述:集成化的数据具有复杂性、完整性以及多源异构的特点,包含非几何数据和几何属性的信息内容。集成化的数据包含的内容较多,可以运用语义分析、聚类分析、知识图谱、人工智能等对海量的数字档案资源进行筛选,通过描述性分析、推断性分析、相关性分析对其进行挖掘,发掘隐性知识和潜在价值。通过总体数据的发展趋势去预测和判断相关事件未来的发展动向,同时也可以研究变量间的相关关系和相关性。
特性与竞争力:大数据技术在处理体量大、类型多的数据中,具有实时性、交互性等特征。通过给数据赋能,从微观层面为数据分析提供技术支持,促使研究从共性和个性深入挖掘和分析成为可能。不仅可以提高知识服务水平和数据信息的质量,而且能够对资源进行深度挖掘,辅助决策的制定。
3.2.3 场景三:多维档案溯源应用
档案是人们在各种社会活动中直接形成的具有保存价值的原始信息,其本质属性是原始记录性。在数据涉及机密时,需要对档案数据保密。为应对数据泄密、追溯源头需要引入相应的技术规范与标准。
场景描述:集成化档案数据是在采集档案数据以及档案数据形成的业务流程中把其转换成为可供操作的结构化数据语言。数据溯源依据是“数据在整个生命周期内的演变信息和演变处理内容的记录”。在集成化数据中引入非对称加密、数字摘要、数字签名来保障集成化数据的溯源,从而达到对集成化数据的演变历史和操作历史进行过多级可信的溯源目的[11]。
特性与竞争力:对集成化数据集的演变过程进行追踪,能够保障数据溯源信息存储的稳定性与安全性。尤其是在应对重大突发事件中,利用区块链技术、人工智能、大数据技术等,能够及时找到数据源头进行管控处理[12]。
3.2.4 场景四:数据智能化推送
海量的数据与用户期望个性化服务之间的矛盾日益突出,在数据集成情境下形成的数据集提供了丰富的档案数据资源,但是由于用户知识背景不同,出现数字档案利用水平较低等情况。通过大数据构建用户画像,能够精准识别用户的需求,为解决利用率低问题提供有效解决方案。
场景描述:通过大数据和人工智能技术,利用集成化数据集,对海量的有序化数据打造全生命周期以及全维度用户画像。把用户情景画像融入检索过程中,把数据集的信息与用户画像进行数据关联分析,洞察用户的潜在需求,驱动服务型档案管理模式。
特性与竞争力:利用用户检索和查阅等数据进行用户情景画像构建,根据不同的用户需求,结合集成化数据建立智能化、个性化的在线预测和推送服务。基于用户需求的精准识别和推送,从而达到提高数字档案利用的效果。主动化、精准化、个性化的档案数据推动服务,为档案信息化建设和服务型档案管理系统助力。
档案数据集成管理是信息时代对档案管理提出的新要求,它真正实现了信息、技术和人的集合与统一。档案数据集成在公路项目管理系统中应用涉及数据的关联、数据可视化、数据溯源、数据共享等多个方面的内容。档案数据集成技术的应用为实现这些场景奠定坚实的基础,为“数字化、智能化交通”的发展提供可行性方案。
档案数据集成要以各个部分的元数据建设为基础。GIS技术和BIM模型为项目设计、施工方案、施工质量监督和进度控制提供极大的便利条件。在项目竣工前,GIS和BIM模型对已经形成的海量的文档电子文件与声像电子文件集成,则可推出一个全新的可视化集成系统,为公路营运提供充足的项目建设信息。实现档案数据信息的可视化应用场景主要体现在业务系统应用层和监管展示层。
4.1.1 业务系统信息可视化应用
通过图2能够清楚看到,该项目档案主要涉及施工单位、监理单位、业主单位以及系统管理员四个主体的档案的采集、整理以及利用等,每一个主体单位按照各自不同的流程把需要归档的资料进行填报、审核、盖章、上传,通过特定的元数据整理和分类、集成形成结构化数据库。在数据库中能够明确看到每个过程中的责任人以及相关文件的详细内容。将可视化模型引入到档案数据信息检索,把文书档案、图形、声像数据等档案数据关联到三维的可视化空间中显示出来,并向用户提供信息检索查阅的过程。通过此种方式不仅可以解决档案可视化收集、业务可视化管理、内容可视化组织、知识可视化挖掘和信息可视化利用的问题,同时为档案维度溯源项目建设,奠定坚实基础。
4.1.2 管理与监测信息可视化应用
基于BIM+3DGIS技术,通过对基础地理信息集成构建沿线基础地理信息三维空间场景。再根据地理信息数据集成模型,仿真出设计模型、施工模型、进度模型、成本模型、制造模型、操作模型等。应用勘察设计阶段建立BIM模型、集成项目施工阶段的管理信息、工程档案信息、视频信息,实现公路空间基础地理信息、质量安全监控数据、项目管理信息等数据的整合、交换和共享。同时,BIM与GIS技术结合,通过对模型的构建也能够实现项目的场地分析、相关数据分析,评估并且形成可行性报告,做出最优的规划以供参考。
图2:公路项目业务流程图
在档案数据集成理论的指导下,BIM技术为项目资料的归档和利用提供了一个流程化、标准化的全过程生命周期管理方式,从公路的建设到养护均可以实现可视化。BIM信息集成平台,会收集现场相关工作人员上传的各种资料,通过自定义的流程,及时预测项目建设所遇到的问题,也能够自动生成报表和相关记录的资料,并在后台进行保存,每次的建设进度、维护都会形成记录进度表,使项目的管理和追溯实现可视化管理。
档案数据集成方式能够明确记录该数据在生命周期内的数据的工作流程,同时通过科学规范的元数据,档案管理系统能够更加清晰地映射各个主体以及要素之间的关系,使归档材料的形成过程可复制、可再现、可验证[13]。多维度档案数据集成和溯源的关键点在基础层的数据信息,包含文书档案、图表、图形、声像数据等传统档案数据和GIS地理空间信息、构件形状尺寸等空间地理信息。
由于项目资料所涉及的内容众多且主体多元,因此在档案数据采集、存储和集成的过程中,会采用数据溯源安全模型,通过对文档、声像数据等添加一些无法修改的参数,例如时间戳、加密密钥、校验等来限制操作权限,保护溯源链的安全,实现档案数据的可信性和不可抵赖性。通过标注法和反向查询法,实现多维度档案数据的全程溯源。
在公路建设项目的档案数据集成中,经常会涉及多源异构时空数据的集成和协同问题[14]。由于公路项目档案类型多样化,不仅有传统的纸质档案也有新型的电子档案、实时监测生成的信息。其形成的模型是以三维空间为主,数据来源复杂且规范性较差、存储的结构性差异较大。同时,各层级信息之间存在信息孤岛等问题,难以实现快速的共享与集成的应用。数据的有效共享依赖于数据高效的集成。该系统通过对于元数据的控制和统一的标准能够使用户检索更加便利;也使档案数据管理员更加条理化,增加了数据的辨识度;同时,管理系统对于数据的识别与储存更加快捷。
在公路建设项目档案的数据集成中,重点把BIM模型和工程项目管理过程中形成的结构化和非结构化数据进行集成和管理,打造一体化、智慧化的大型数据库。建立全线BIM模型,对其进行深度开发实现碰撞检查、工程量计算等应用场景;其次将BIM模型集成的数据上传至项目管理平台实现项目质量、安全、进度、投资等可视化追溯与控制;最后结合GIS技术实现IOT数据与BIM的关联,建设一体化智能管理平台。
电子档案数据集成越来越成为一种电子档案管理的发展趋势,档案数据集成具有多样性、动态性和有序性等特征,在与新技术的结合、多类型终端兼容等方面有显著优势。档案数据集成把各相关业务系统进行集成化管理,打破了系统间的藩篱,将档案基础数据、管理人员、管理过程与制度、管理技术与平台、元数据与安全信息等进行全方位的集成化管理,实现多元数据的一体化管理,实现数据信息的全方位共享和多维度溯源。档案数据集成使得档案数据可以实现档案知识库建设、可视化档案展示、数据交互分析、多维溯源以及智能化推送等应用场景。而且,在先进信息技术推动下,档案数据集成应用的场景和范围会不断地构建和延展,创造出新的信息组织形式、传播模式和应用方式。以公路建设项目数据集成应用为例,依赖数据集成平台,可以有效地打破各业务系统之间的信息壁垒,可以实现档案数据的高度集成,可实现多源时空数据的共享利用,可以集成有广阔应用市场的可视化档案,可为档案数据的多维溯源奠定坚实基础,并可以在将来实现更多方面的电子档案数据赋能。