贠疆鹏 加小双,2 王 妍
(1.中国人民大学信息资源管理学院,北京,100872;2.中国人民大学档案事业发展研究中心,北京,100872)
2017年,国务院印发《新一代人工智能发展规划》,提出要紧紧抓住发展人工智能的伟大历史机遇,引领发展人工智能的新潮流,提升国家竞争力。2021年,《“十四五”全国档案事业发展规划》明确指出要应用人工智能助力档案管理工作转型升级,并与数字档案馆(室)建设相结合。2022年,国家档案局在科技项目立项工作中也表明要开展人工智能技术应用于档案管理的研究。[1]那么人工智能技术在我国档案管理中的应用现状如何?现阶段存在哪些问题?以这些问题为导向,本文通过系统性的文献研究和实践案例分析,对现状和问题进行了阐述,并提出了具体的对策建议,以期为档案领域更广泛和深入应用人工智能技术提供参考。
就档案载体形式而言,目前人工智能技术主要应用于声像档案管理。例如,讯飞智元信息科技有限公司利用语音识别和人脸识别技术提取音视频档案信息和生成字幕,实现了辅助著录和内容检索。[2]
就档案信息内容而言,目前人工智能技术较多应用于历史档案、文书档案、病历档案、会计档案的管理活动中。如在历史档案管理上,中央档案馆通过人工智能相关算法建成档案目录数据库,提升了档案的查全率和查准率[3];在文书档案管理上,云南税务部门应用AI技术实现了5大类687个事项2086种文书档案的电子化归档管理[4];在病历档案管理上,广州市妇女儿童医疗中心挖掘病例档案数据集训练人工智能,实现了儿科疾病的智能化诊断[5];在会计档案管理上,广州供电局会计档案电子化试点项目利用人工智能实现了档案的自动整理和元数据的自动生成。[6]
在档案收集上,人工智能技术能够辅助档案数据的采集。一方面,通过捕获元数据,收集所需的档案信息,如百度使用智能Agent从网页爬取信息,分析并形成结构化数据[7];另一方面,利用人工智能技术对口述史料进行征集和采集,如科大讯飞股份有限公司应用语音识别、转写等技术,不断形成新的档案成果。[8]
在档案管理上,人工智能一般应用于档案整理、档案价值鉴定、档案修复保护与安全管理三方面。档案整理方面,山东省威海市环翠区档案馆采用智能采集系统,解放了基层档案工作者的劳动力。[9]档案鉴定方面,北京市市场监督管理局基于相关人工智能模型算法实现了自动鉴定。[10]档案修复保护与安全管理方面,AI技术助力修复了百年前北京影像[11];江苏省太仓市智慧档案馆将人工智能技术嵌入门禁系统、识别和定位跟踪系统及防火墙中,提高了馆藏档案的安全性。[12]
在档案保存上,人工智能融入电子文件管理系统,实现了自动化归档保存。如,2020年中国石油数字档案管理系统利用AI及其他新兴技术,集成财务管理、电子公文等多个系统,实现了电子化的公文、合同、会计票据等自动归档保存。[13]
在档案利用上,体现在档案检索和档案服务方面。一方面,通过人工智能提升档案查全率和查准率,如,江苏省太仓市智慧档案馆利用智能Agent技术实现全文检索[14];北京市市场监督管理局利用图像识别和信息抽取技术,使部分类型档案智能精确检索率超过90%。[15]另一方面,通过人工智能技术助力档案服务和展览,如天津市红桥区采用“人工智能+数字档案”的新方式,将主题宣传视频集中推送至新媒体平台上。[16]
根据2020年《国家新一代人工智能标准体系建设指南》的相关描述,人工智能技术有通用技术和关键领域技术之分,其中通用技术有机器学习、知识图谱、模式识别等,而关键领域技术则包括自然语言处理、智能语音、计算机视觉、生物特征识别等。[17]以此分类为认知基础,目前我国档案管理对于人工智能技术的应用主要集中在知识图谱、模式识别、自然语言处理和生物特征识别四个方面,并且实际应用中这些技术往往融合使用。
在使用知识图谱技术时,侧重于对关联数据的应用。[18]如,河南省数字档案馆基于馆藏资源建成智能检索系统,挖掘大量结构化和非结构化数据,实现信息、数据的关联,进而形成知识图谱和档案知识库,提高了档案管理的效率和质量。[19]
在使用模式识别[20]和自然语言处理技术时,侧重于实现档案的数字化和数据化。如,云南税务部门采用自然语言处理技术识别档案中的文字,采用模式识别技术抽取音像内容,从而实现税务执法音像档案的数字化和数据化。[21]
在使用生物特征识别技术时,主要是将人脸识别技术应用于档案利用服务中。[22]如,江苏省昆山市档案馆与市公安局合作开发“网上查档大厅”系统,利用人脸识别实现身份验证,确保线上查档流程安全合规。[23]
从总体应用规律上看,人工智能技术应用与资源自身的结构化程度、安全保存状况和社会利用需求程度密切相关。一般来说,档案部门倾向于将人工智能技术应用于一些特定类型的档案,即信息开放程度、结构化程度、信息利用需求较高,或实体安全隐患较突出的档案。然而,相较于复杂且多样的档案类型而言,已有实践案例依然显得较为单一,有待进一步拓展和丰富。
就档案载体形式而言,人工智能应用拓展空间较大。现阶段,我国人工智能应用集中于声像档案,对于文本档案则应用较少。这与人工智能技术自身的发展密切相关。现阶段,人工智能识别图像的能力在不断提升,对图像特征的抓取能力甚至已经超越人类,但是在文字处理方面,对于语义、场景和关系的理解则不尽如人意,相关技术还需不断探索。
就档案信息内容而言,人工智能应用拓展空间也比较大。我国人工智能较多应用于历史档案、文书档案、病历档案和会计档案等。相比之下,国外应用人工智能的档案类型更加丰富,一些专门档案或者特殊类型电子档案管理中都可见人工智能技术的应用。如,法律科技公司Everlaw基于AI技术,实现对海量诉讼档案的查询,律师们可以在短时间内检索包括音视频、电子邮件、图片在内的上百万份文件,节约时间成本。[24]又如,斯坦福大学通过人工智能技术实现多种方式的邮件内容检索,将应用扩展至电子邮件管理。[25]
一方面,应用业务环节有待深化。目前,档案部门倾向于将人工智能技术应用于劳动重复性较高、自动化程度较高、档案信息和数据量较大、对电子档案四性保障要求较高的环节,但在档案分类中却鲜见人工智能技术的有效应用。但国外已经有成功应用案例,如澳大利亚新南威尔士州档案馆利用人工智能技术,将大量非结构化的政务数据进行分类。[26]此外,国外还将AI技术应用于自动化记录保存、自动索引、元数据分类、筛选涉密或涉及隐私信息等多个环节。[27]
另一方面,集成性综合应用较为缺乏。现阶段,人工智能技术在我国档案管理“收管存用”各个环节中的应用往往是零散的,缺少集成性的整体方案。例如,内蒙古自治区档案馆仅将人工智能技术应用于提升查档效率和精度[28],福建省档案馆仅应用人工智能技术助力开放审核工作。[29]实际上,非集成性应用人工智能技术极易导致档案数据在业务运行过程中出现数字连续性断裂,进而带来数据安全风险或管理成本的增加。
知识图谱、模式识别、自然语言处理、生物特征识别等各种技术在我国档案领域已经得到较为普遍的应用,但是从整体上来看,往往更加偏重于工具性的应用,而非真正实现档案管理原则与人工智能技术的深入结合。这也是目前的最大制约因素。
档案管理实际上是一项十分讲究方法和原则的业务活动,如何将档案管理的理论和方法与人工智能技术的应用进行有效地融合,仍需深入探索。例如,现有应用人工智能的档案鉴定方法往往是基于算法和内容,包括识别重复内容或出现频次等,虽有一定成效,但是如何将档案鉴定的核心理论(如职能鉴定)有效结合到人工智能技术中,依然是值得探索的重大议题。对此,国外已经开展了许多前沿性探索,比如澳大利亚维多利亚州公共档案馆正尝试在电子邮件管理项目的鉴定环节中采用职能鉴定。[30]而我国现阶段应用人工智能技术鉴定往往是基于内容,如北京市市场监督管理局基于内容划控鉴定来开放档案。[31]
自2016年年底起,我国每年年底召开的全国档案局长馆长会议屡次提出要“探索人工智能等新技术在档案管理中的应用”。其中,2020年全国档案局长馆长会议上,国家档案局局长陆国强提出,要探索将大数据、区块链、人工智能等新一代信息技术应用于档案管理中,推动数字档案馆(室)建设向更具智慧化方向发展。[32]2021年发布的《“十四五”全国档案事业发展规划》也强调将大数据、人工智能等新兴信息技术融入数字档案馆(室)建设,推动数字档案馆(室)建设优化升级。虽然这些政策及要求一定程度上推动了人工智能技术在档案管理中的应用,但更偏向宏观层面的路径指引,在具体实施时则需要以更为具体和更具操作性的规范作为指引。对此,建议档案主管部门联合相关研究机构,制定更具针对性的应用指南,为档案管理实践提供指导。同时,还可以适当开展人工智能技术的应用试点,以便及时总结先进经验并在全国加以推广。
在数字档案馆乃至智慧档案馆的建设背景下,需要不断融入人工智能技术,以追求更加智能化的档案管理与服务。在此过程中,必须高度重视数字连续性的问题,不断推进人工智能技术的集成化应用。一方面,推进人工智能技术与其他先进技术的集成应用。人工智能技术自身并不构成档案自动化管理的全部技术内容,往往需要配合其他技术的应用,包括云计算、区块链、物联网、大数据等。在各种技术的衔接过程中,必须确保技术的集成,这样才能保证档案数据的连续性流转,进而保障其可跟踪、可溯源、可关联和可控制的能力。另一方面,推进人工智能技术集成至档案信息化的整体基础架构中。人工智能技术只有深度集成至数字档案馆或智慧档案馆建设的基础架构中,才能真正融入覆盖数字文件全生命周期、数字信息全流程和数字资源全要素的档案数据资源管理与服务中,并发挥其独特的优势与价值。
文件档案管理是一项专门的业务实践活动,蕴含着多种专业性的管理理论、原则和方法,包括来源原则、全宗原则、文件生命周期理论和管理原则中的职能分类、职能鉴定、开放鉴定,以及电子文件的前端控制、全程管理、四性保障、元数据管理等。应用人工智能技术管理文件档案,必须在明确应用场景的基础上,进一步体现档案管理基本原则和方法的有效融入,否则会导致各种管理风险问题。对此,必须理性看待人工智能等先进技术在档案管理中的有效应用,不能“为了技术而技术”,深陷“唯技术论”,也不能因为“害怕风险”,就选择“故步自封”。立足档案管理自身特点以及档案管理过程中存在的实际难题,积极探索档案管理原则、方法与人工智能技术的有效融合,才是上上之策。