电子文件智能归档系统设计实现的演进逻辑与优化策略

2024-08-17 00:00:00胡文学丁海斌赵婧尧罗夏钻颜晗
档案管理 2024年3期

摘 要:伴随档案信息化进程的发展,电子文件智能归档问题的研究逐渐成为我国档案学者们近年来关注的焦点之一。智能归档不仅需要明确归档范围作为制度保障,还需要文本、图像等相似度算法比对原理和机器学习算法等人工智能技术的支持。本文中所介绍的系统通过对拟归档文件进行智慧排查,经过系统内置清单、系统比对、四性检测合格后智能形成元数据,最终向档案管理部门办理移交。智能归档与一般电子文件归档方式相比,具有智能化、自动化、一体化、网络化等特点。

关键词:电子文件;归档;智能归档;文本相似度算法;人工智能;机器学习;四性检测;元数据

我们所说的智能归档是指将人工智能技术运用到文件归档的过程中去,赋予业务系统智能化的归档功能。目前主要表现为对电子文件进行自动的动态智能排查、分类、比对、整理排序、形成元数据并归档,整个归档工作全部在线智能化完成,并通过机器学习技术逐步提升智能化水平。

档案管理智能化是当前档案管理数字化转型的重要内涵。档案智能化管理包括归档、验收、整理、日常管理、利用与开发等各个方面的智能化。其中,归档智能化是起点和重要组成部分。对此,笔者采用“研用”结合,以广西高速公路建设项目电子文件归档作为实践对象,探讨公路建设项目电子文件智能归档的理论与实践课题。

1 研究现状

近些年来,随着人工智能、大数据、机器学习、数字孪生等新一代信息技术的发展和应用,推动了“智能+”的升级优化,成了各行业发展的主流。智能技术应用于档案管理不仅是信息时代档案管理的内在需要,更是信息社会发展的必然要求,数智化已经成了档案管理的重要趋势。AI人工智能技术与档案管理深度融合,档案行业积极探索应用AI智能技术,提高电子档案管理的质效。人工智能已经进入到场景应用阶段,深入落地到各行各业以解决不同场景的问题,也给档案工作带来新的发展机遇。[1]顺应时代发展,档案部门积极利用人工智能技术推进电子档案归档模式的改革,档案管理实践中涌现出诸多应用人工智能技术升级优化档案管理系统的案例。“多智能体”系统具有自主性、分布性、协调性,以及很强的自组织能力。在开展异构对接时,可以使前端“零”改造,实现自主组件,实现归档、管理、移交阶段四性检测工作,实施电子文档一体化流程智能管理。[2]KingCloud智能对象归档系统,基于访问行为的语义采集方法,采用灰盒探测(Probe)的方式收集数据访问热度、数据布局等方面的信息,并预测归档系统的访问行为,通过文档分类技术实现了文本文件的分类,利用图像识别、视频关键帧提取等技术实现图片和视频文件的内容元数据获取。[3]柯尼卡美能达OPS综合提案服务,利用OCR光学字符识别技术解决方案,将扫描图像的文字或符号提取分层加以识别,实现物流单据的智能归档。[4]档案学者们对政务信息、企事业档案的电子档案归档模式进行了全方面的研究。这些研究包括智能归档架构和系统[5,6]、数据归档优化策略[7-9]、智能归档融入公共协同系统[10]等。

综上所述,大多数学者立足行业内部需求的微观视角,构建电子文件智能归档系统,鲜有学者从宏观视角优化电子文件智能归档流程及系统。本文立足当前新一代信息技术发展的现状,以微观和宏观相结合的研究视角,基于高速公路建设项目档案管理系统,提出普适性的、可落地操作的电子文件智能归档系统设计实现的优化策略。

2 电子文件智能归档系统设计实现的演进逻辑

2.1 归档策略:由物理归档向在线逻辑归档转变

总体而言,传统文件归档是一种以纸质文件为对象的物理归档,智能归档则是以电子文件为对象的在线逻辑归档。

在《电子文件归档与管理规范》中对电子文件的归档是这样解释的:“电子文件的归档,按照鉴定标示进行。电子文件的归档可分两步进行,对实时进行的归档先做逻辑归档,然后定期完成物理归档。”[11]对于电子文件的归档,主要是档案管理系统通过计算机网络工具与业务系统实现一体化,电子文件的归档一般分为逻辑归档和物理归档两种形式。其中逻辑归档是指:“将电子文件的管理权从网络上转移至档案部门,在归档工作中,存储格式和位置暂时保持不变。”[12]物理归档是将电子文件卸载到脱机保存的载体上,向档案部门移交的过程。

在当前的网络环境中,通过磁盘阵列来保存电子文件是有效的方法之一,但电子文件载体稳定性较差,容易受到破坏,所以归档方式选择是关键。实践的检验证明,采用磁盘等脱机采集数据的介质移交的物理归档方式易导致资料丢失。相比较而言,智能归档采用单一逻辑归档方式,是电子文件归档新模式,智能归档采用了智能化管理信息系统,整个归档过程全部在线完成,实现了单点登录、数据直达,整个过程不需要人工干预,是真正实现了“智能化”的归档方式。电子文件,以方便利用为目标,采用不同的逻辑组卷方式,同时研究建设项目拟归档文件的归档格式和元数据管理,确保了公司内档案信息的资源共享。在线逻辑归档这种归档方式提高了归档数据的可访问性、可用性和可管理性。通过在线逻辑归档,可以更加便捷地管理和利用大量的电子数据,提高数据的使用价值。同时,这种方式也能够降低物理存储空间的需求,减少数据存储的成本。

2.2 归档主体:由人工向人工智能转变

《电子文件归档与管理规范》(DA/T 25)中规定,机关、团体、企业事业单位和其他组织的电子文件,由各该组织的业务主管部门或其所属单位负责归档,这是国家规定的电子文件归档主体。

一般电子文件的文件归属明晰,其形成于办公系统或办公网站,按照一般电子文件的归档原则:谁形成,谁归档,文件的所有者就是文件的形成者,文件形成者应该负责归档这些文件,是归档主体。

智能归档的主体是人工与人工智能结合,包括以下几种形式:利用人工智能技术,识别归档主体身份,将电子文件识别为可归档的电子文件,并对其进行智能归类、存储、归档;根据已有的电子文件数据,自动生成具有一定价值的档案数据;对非结构化的电子文件进行分类、分析和挖掘,发现档案管理中的问题和规律,自动形成档案管理建议,为档案部门提供决策参考;在接收到归档主体提交的归档申请后,自动完成归档,并将电子文件纳入档案系统统一管理。

在传统档案归档模式下,一系列归档工作是由人工进行的,工作效率低且易出错,不能满足数字化档案馆(室)对自动化管理的需求。智能归档系统通过对纸质文件、电子文件和声像文件进行智能识别和自动整理,并对不同格式的文件进行自动转换,使纸质文件和声像文件达到自动化管理,从而实现将传统档案管理模式向信息化档案管理模式转变。

2.3 技术运用:由传统技术向人工智能技术转变

一般电子文件归档与智能归档在技术运用方面,实现了由传统技术利用到自动化的转变。智能归档和一般电子归档的主要区别在于,智能归档利用人工智能和自然语言处理技术对文件进行自动分类和标记,从而实现更快速、更精准的归档和检索。

一般电子文件归档主要是对电子文件的元数据进行管理,建立元数据标准体系,对电子文件的各个环节进行准确记录和描述,为电子文件归档工作提供数据支持;记录和描述电子文件的生成、传输、存储等各个步骤,以便更好地理解和利用它们,同时保证这些信息能够安全有效地传递和共享;对电子文件的存储方式进行记录和描述,同时保证存储环境安全可靠。电子文件归档过程中涉及文件格式、压缩算法、编码等技术,需要对元数据进行管理。

智能归档则是通过对电子文件生命周期各环节的标准化管理,实现对其全面收集、有效管理、动态维护、安全存储;系统会根据用户设置的标准,对所收集到的电子文件进行智能化的组织、管理,并在归档时,智能判断当前所收集到的电子文件是否符合标准;系统会自动进行档案分类,并根据档案分类标准自动判断当前收集到的电子文件是否符合标准,并在相应的规则下进行归档。智能归档系统会根据所收集到的电子文件形成时间和类型进行智能判断;如果符合归档条件,将会对该电子文件进行智能化组织、管理;如果不符合归档条件,将不会进行归档。智能归档在技术运用方面以管理原理为基础真正实现了自动化,基于文本、图像相似度算法比对原理,对归档范围进行机器比对、机器学习,对建设项目电子文件进行序列比较,找出序列的相似性,判别序列的差异性,从而智慧排查归档文件的真实性、准确性。

相比之下,一般电子归档主要依靠人工进行分类和标记,需要人工投入大量时间和精力,难以做到快速、准确归档和检索。智能归档技术在效率和准确性上都具有很大优势。

3 智能归档系统设计实现的优化策略

档案信息化、智能化管理需要以软硬件系统作为落地的工具。本部分以广西高速公路建设项目档案管理系统为例,主要介绍了智能归档系统的设计与实现。

3.1 智能归档系统总体框架概述

3.1.1 总体流程

电子文件智能归档和通过机器学习智能扩充归档范围的总体流程可以用框图说明(如图1所示)。

电子文件智能归档系统主要是通过对拟归档文件进行智能排查(包括四性检测、系统内置清单、比对系统),根据标准筛选出需要归档的文件进行逻辑归档,并将归档后的文件移交到应用系统或集成平台。归档模块按归档范围,建立电子档案验收的详细文件目录标准要求,在进行电子文件整理归集时,关联相关对应目录。辅助系统建立分析规则,案卷管理组卷前,自动分析出电子档案文件缺漏项,给出分析报告。

3.1.2 主要功能

智能归档的主要功能是基于BLAST和文本相似度算法智能比对、排查拟归档文件。

(1)基本要求。《中华人民共和国档案法》已明确提出“电子档案与传统载体档案具有同等效力,可以以电子形式作为凭证使用”。[13]即电子档案具有与传统档案同等效力,同样可以作为使用凭证。同时要求“电子档案应当来源可靠、程序规范、要素合规”。这些要求可以理解为电子文件档案的真实性、可靠性、完整性及可用性(以下简称四性)的保障。关于电子档案的归档时间,不同的单位有不同的要求。“电子文件形成或办理部门应定期将已收集、积累并经过整理的电子文件及其元数据向档案部门提交归档,归档时间最迟不能超过电子文件形成后的第2年6月。”[14]对于项目文件归档进行智能排查需要考虑到对建设项目电子文件进行序列比较,找出序列的相似性,判别序列的差异性,从而确保智能排查归档文件分类排列的科学性和文件本身的真实性、准确性。根据文本、图像相似度算法,系统

(2)制定智能排查的规则。系统内置清单。以项目建设期各种业务系统的集成平台为基础,将项目建设期的项目文件收集范围细化到具体文件清单,内置于系统。同时,系统内置各类比对条件。系统对拟归档的电子文件实行自动排查,判断建设期内收集、归档的电子文件的完整性、真实性、准确性和系统性。自动判断文件签署真实性,自动识别影像文件真伪性。制定项目档案完整性的相关标准,这些标准主要包括对前期管理文件的完整性、设计文件的完整性、施工技术文件的完整性、监理文件的完整性、设备文件的完整性、声像文件的完整性、竣工验收文件的完整性进行评价。

建立与项目档案准确性有关的标准。这些标准主要包括对归档文件材料内容的准确性、竣工图编制质量是否符合要求、声像文件质量是否符合要求进行评价。比对文件归档规范,鉴定文件的准确性。系统内置公路建设项目归档范围和文件材料归档办法、实施细则,电子文件准确性的判断条件,分别比对收集的文件内容是否符合标准规范、与客观事实是否相符,包括文件的内容信赖度、责任者、规范性题名、密级、保管期限、行业标准等。

制定项目档案系统性的相关标准。这些标准主要包括:能不能体现工程特征与实况;组卷标准及合理性,能否达到国家或行业标准的要求,能否按照文件材料的形成规律、成套性要求进行组卷,卷内文件排列是否有序、科学;档案目录能否达到要求;案卷题名简洁明了,准确无误;案卷封面、卷内文件目录和备考表以及案卷目录的填写是否详细属实,标准是否翔实、规范。

比对文件特征元素,著录和管理元数据。系统内置建设项目电子文件归档范围及类型族谱、保管期限、密级、元数据项目及要求等标准值,分别比对系统原生文本型、其他业务系统导入型、单个文件录入系统型、文本数字化型、声像型等不同类别文件的元素,人工辅助下系统自动完成电子文件元数据著录和管理。

(3)系统内置清单。课题以公路建设期各种业务系统的集成平台为基础,将公路建设期项目文件收集范围细化到具体文件清单,内置系统。同时,系统内置各类比对条件。系统对拟归档的电子文件实行自动排查,判断建设期电子收集、归档文件的完整性、真实性、准确性和系统性。自动判断文件签署真实性,自动识别影像文件真伪性。根据单位的实际情况以“以我为主”的档案思想编制三合一制度表,明确档案分类方案、归档范围、保管期限等。制定公路建设项目档案分类方案、公路建设项目文件材料归档规范和公路建设项目档案保管期限表三合一制度,实现系统在归档环节的三合一智能归档,在一体化系统建设过程中嵌入三合一制度,使系统能够自动查找并识别文件归档范围、档案门类及保管期限,实现智慧归档。

(4)基于机器学习的归档范围外的增量电子文件智能归档。并不是所有归档文件都是预定的,会出现一些增量电子文件。对于这些增量电子文件,我们一方面根据增量电子文件的具体情况,继续完善三合一表;另一方面基于机器学习等技术进行归档范围外的增量电子文件智能归档。

基于机器学习算法、图片EXIF信息盲取技术,对新增的电子文件进行智能判断,充实和扩充电子文件归档边界。根据数据库累增的增量数据,不断修正项目文件收集、归档方法与范围,提升归档智能水平。对超越系统内置范围的电子文件,系统从首个开始,到逐渐新增的、重复的或类似的电子文件进行“学习”,实现智能判断,逐渐扩大归档范围,实现电子文件“应收尽收”智能归档。系统借助实现“互联网+”电子档案,实现项目电子档案异地、远程监管,改变传统纸质档案采用专家验收的繁琐性和人为的差异性,为项目建设提供真实、完整和系统的档案保驾护航。

3.2 智能归档系统所使用的主要技术方法

从技术角度来说,为确保归档文件的真实性、准确性、完整性和系统性,利用智慧排查比对拟归档文件进行四性检测、自动归档,需要BLAST和文本相似度算法相关技术来为实现电子文件智能归档提供保障;对于智能归档辅助系统的实现,需要基于机器学习算法对归档范围外的增量电子文件进行归档,完成辅助软件系统的建设后,就可以实现识别、分类整理、入库和归档的全自动化操作。应用到的具体技术主要包括:

3.2.1 基于BLAST和文本相似度算法

BLAST全称BasicLocal Alignment Search Tool,即基于局部序列比对算法的搜索工具。原是由美国国家生物技术信息中心(NationalCenter for Biotechnology Information,NCBI)开发和管理的一套生物大分子一级结构序列比对程序。该系统可将输入的核酸碱基或蛋白质氨基酸序列与数据库中已知的来源序列进行比对,输出序列之间的同源性信息,从而辅助判断输入的序列来源或与已知序列的进化关系。该系统的功能可以扩展到其他信息管理领域,网络版可将输入序列与庞大的已知来源序列信息库进行比对,用来确定未知序列的来源,以及寻找不同物种中的同源基因;智能归档系统主要是本地版的BLAST系统,它是将输入序列与本地自行构建的序列信息库进行比对,比对的针对性更强,用于在未发表基因组数据库中寻找同源基因信息,不依赖于网络,安全性和可靠性更高。

相似度算法就是使用计算机系统比较对象间的相似度,常见的相似度计算应用包括数据分析中的相关分析、数据挖掘中的分类聚类算法、机器翻译、文档检测、搜索引擎的对象推荐等,是信息检索、数据挖掘等的一个基础性计算方法。现有的相似度计算方法多数是基于向量的,即计算两个向量之间的距离,距离越近越相似。包括欧氏距离、余弦相似度、编辑距离、杰卡德相似度等算法。用于档案数据保真的哈希值算法就是相似度算法的一种。相似度算法应用于归档主要是文本内容相似度计算。但文本不仅仅是文字,除文字的匹配外,还可以是图片、音频等。

3.2.2 基于机器学习算法

“机器学习”在1959年由IBM公司的计算机科学专家亚瑟·塞缪尔(Arthur Samuel)提出,赋予它的定义为:“可以提供计算机能力而无需显示编程的研究领域”[15]。学习是系统所做的适应性变化,使得系统在下一次完成同样或类似的任务时更为有效。

当有了上述智能比对功能后,我们需要通过机器学习来不断改善该功能,即是通过经验自动改进与提升计算机算法的能力。在智能归档工作中引入机器学习工具,可以充分利用机器学习的优势,根据不断积累的信息和陆续归档机器记忆,系统对有查考利用价值的文件进行反复判定归档、监督学习,精准利用。从复杂、多维的数据中掌握拟归档文件的内在本质特征,构建归档模型,提升对原有范围内电子文件智能归档的准确率,并实现对增量电子文件归档的自动识别能力。

完成归档工作后,后续相同的归档工作,经过机器学习的自我完善和改进后,会更便捷、更完整、更高效地完成。

通过机器学习算法,我们还可以智能化地丰富增量电子文件的范围,打破文件归档边界,精准档案利用。基于机器学习算法原理,系统应用机器学习算法语言,从不断累积的数据库中智能丰富归档有查考利用价值的电子文件,提供精准的档案利用。

机器学习是人工智能的核心,是使计算机具有智能的根本途径。机器学习专门研究如何让计算机具有类人化的学习行为,希望机器能够自我获取新的知识或技能,自我重新组织、完善已有的知识结构,不断提升自身的性能。它的应用已遍及人工智能的各个分支,如专家系统、自然语言理解模式、自动推理、识别计算机视觉等领域,其中以专家系统最为典型。

机器学习算法分为两大类:监督式学习(supervisedLearning)和非监督式学习(unsupervised Learning)。智能归档系统首先使用的是监督式学习,即通过嵌入三合一表等已知答案,让计算机反向找出解题的逻辑。非监督式学习则是智能归档系统进化到较高级阶段的机器学习形式。即:机器在没有类别信息的情况下,通过对归档过程中大量的增量文件样本的数据分析,实现对增量文件样本进行自动分类的一种数据处理方法。

3 . 2 . 3 数据交换技术

试验、计量、O A ( O f f i c eAutomation,即自动化办公系统)、征地拆迁等各类业务系统集成平台,建立数据交换平台。建立电子文件信息数据库和业务系统数据交换平台中心,研究在线 “随办随归档”“谁办谁归档”和“归档—验收”一体化。随着不断丰富的海量数据信息,利用机器学习算法,系统智能修正和打破电子文件的归档边界,精准利用档案。

3.2.4 应用防篡改技术

系统内置不同类型电子文件真实性判断条件、管理制度,分别比对各类电子文件是否来源可靠,鉴定文件内容在传输、存储、迁移过程中是否发生未经授权未的篡改、利用和隐藏,保证其原始性,判断其真实性,包括系统原生文本型电子文件记录的各类数据信息、常用业务系统导入系统的信息、PDF或OFD电子文件信息、声像文件信息和电子签章的安全、可靠性。其中,利用电子签章技术,通过身份认证实施有效的固化措施,有效防止电子档案被篡改或被保留,从而确保其真实性、完整性。

3 . 2 . 5 计算机视觉判断声像文件技术

计算机视觉(computer vision)的主要任务是利用相机或电脑获取图片,采用对图片进行处理和解析数字图像的方法,从现实世界中提取高维数据,这是将图片转化为数据的过程。对于归档范围外的增量电子文件的智能归档,就是基于图片EXIF信息的盲取技术,系统根据图像辨识物体、场景和活动的真实性和隐含的信息,自动著录部分元数据和人工校验、补充元数据,对电子文件进行智能分类。

3.2.6 语音识别指令判断技术

语音识别技术的运用,可以提升整个系统的智能化水平。运用于智能归档的语音识别系统应包含几个主要操作:用户注册、文件检测和拟归档文件在线排查。

通过反复发出语音指令后,系统会根据语音指令,对电子文件进行判断和智能排查,再一次的排查和判断对归档范围的扩大提供了可能性。通过建设语音指令系统,提升人机互动质量,提升在线排查检测拟归档文件的内容质量,扩大了归档范围,降低了人工排查的成本。

语音识别系统需要注意的是对间接语音的理解问题,如果说话者说的内容过于口语化,就会出现语音识别系统无法识别的情况。针对这个问题,在技术方面要不断优化语言库系统,减少信息来源的差异,可以使用方言档案数据库和多语种语音库对语音识别模型进行训练,进一步提升模型的识别能力,而对于说话者来说,需要尽量简洁地使用专业关键词将想要表达的内容说出来。目前语音识别技术对于录音录像档案查全率、查准率的提升作用还不够显著,语音识别技术的相关研究更应注重编目和著录环节。

4 结论

在归档环节中,智能归档所采用的智能化管理以计算机操作的形式,提高了文件归档效率并节省了大量时间成本,还能最大程度确保档案信息安全。对于归档范围外的增量电子文件,根据数据库累增数据存量,不断修正项目文件收集、归档方法与范围,提升归档智能水平。本文运用人工智能技术阐述了智能归档系统总体框架以及基于机器学习算法、设置内置清单、采取数据交换技术的系统设计亮点。电子文件智能归档的研究实现了项目档案异地、远程监管,改变了传统纸质档案的烦琐性和人为的差异性,为项目建设提供真实、完整和系统的档案基础。电子文件智能归档基于本系统可实现电子文件与电子档案同步管理,与一般电子文件归档相比具有更高的效率,作为一种较高级的逻辑归档形式,其方便快捷的操作方式,是传统纸质档案管理向数字时代转变的重要体现。

总体上看,现有标准已经能够有效支撑电子文件归档智能化的实践推进,为各实践主体的进一步探索提供了基础条件。同时,电子文档管理的智能化探索,也有利于现有标准的优化。

本文系2021年度国家档案局科技项目“公路建设项目电子文件智慧归档研究”(项目编号:2021-X-04)阶段性成果。

参考文献:

[1]周枫,吕东伟.基于“智能+”档案管理初探[J].北京档案,2019(09):39-41.

[2]康勇,袁敬.“多智能体”技术在政务服务“一网通办”电子文件归档管理中的应用[J].中国档案,2023(04):64.

[3]缪嘉嘉,付印金,毛捍东.KingCloud:智能对象归档系统[J].计算机科学,2016(S2):575-577+596.

[4]“把脉”物流巨头,柯尼卡美能达OPS综合提案服务显效无线传真智能归档[J].办公自动化,2013(09):35-36.

[5]王烁,穆佳桐,于鲲.基于人工智能技术的智能归档与管理模型系统平台构建研究[J].兰台世界,2022(08):55-58.

[6]李芳,范海斌.煤炭企业大数据智能归档利用体系建设实践[J].浙江档案,2022(07):59-62.

[7]薛四新,黄丽华,杨来青等.大数据环境下政务信息资源归档研究的框架体系[J].档案学研究,2018(04):92-96.

[8]朱令俊.数据驱动下档案知识发现的路径研究[J].档案与建设,2020(02):30-34+13.

[9]施千里,王睿.核电行业电子文件合规性管理体系构建研究[J].山西档案,2023(03):156-162.

[10]罗兰.电网企业文档一体化管理优化策略探究[J].兰台内外,2024(01):40-42.

[11]国家档案局.电子文件归档与电子档案管理规范:GB/T18894-2016[S].北京:中国标准出版社,2016.

[12]国家档案局.电子文件归档与电子档案管理规范:GB/T18894-2016[S].北京:中国标准出版社,2016.

[13]全国人大常委会.中华人民共和国档案法[S].北京:中国法治出版社,2020.

[14]国家档案局.电子文件归档与电子档案管理规范:GB/T18894-2016[S].北京:中国标准出版社,2016.

[15]Samuel·A,”Some Studies in Machine Learning Using the Game of Checkers”,IBM Journal Of Research And Development,3(03):,1959,pp.210-229.

(作者单位:广西新祥高速公路有限公司 胡文学,董事长,教授级高级工程师;广西民族大学管理学院 丁海斌,博士,教授,博士生导师;齐鲁理工学院 赵婧尧;广西民族大学科技史与科技文化研究院 罗夏钻,博士研究生;武汉大学信息管理学院,颜晗,博士研究生来稿日期:2024-02-20)