AI 在档案鉴定中的应用研究与启示
——以英国国家档案馆AI for selection 项目为例

2024-06-10 13:51葛泽钰上海大学文化遗产与信息管理学院
浙江档案 2024年3期
关键词:人工智能智能

葛泽钰/上海大学文化遗产与信息管理学院

随着Al技术迎来新一轮发展热潮,AI赋能各行各业被提升到新的战略高度,档案领域不可避免地卷入其中。目前,AI技术在我国档案工作中的应用尚处于尝试和探索阶段,主要用于取代部分程序化、机械化、模式化的档案业务[1],避开了开放性、解释性和自主化的任务,例如人工智能在档案鉴定中的应用实践仍然较为缺乏。档案鉴定是档案管理的核心环节,是对归档文件去粗取精,优先保管具有保存价值的文件并使其发挥更大作用,以满足社会需要的过程[2]。数字环境下,传统的人工鉴定模式难以应对海量结构化与非结构化的数字信息鉴定,与Al技术融合发展成为档案鉴定的应然选择。目前感知智能技术应用正向认知智能技术应用演进,在认知智能层面,机器具备理解、解释、推理及规划等能力[3],为档案价值鉴定这一更深层次的业务场景落地提供了技术支持。通过认知智能技术赋能档案鉴定,能够为既繁琐又困难重重的档案鉴定工作提供有效解决方案,有力推动智能化、智慧化档案管理实践取得实质性进展。

英国国家档案馆主导的AI for selection项目(以下简称AI项目)通过研究和测试证明AI可以用于电子文件鉴定工作,并探究了AI如何支持和优化电子文件拣选过程[4]。本文以英国国家档案馆该项目为例,描绘人工智能技术在档案归档鉴定中的应用图景,总结其经验,审视其中存在的风险,以期为我国档案领域更广泛和深入应用人工智能技术提供理论参考。

1 AI for selection项目档案智能鉴定的应用图景

早在2018年,英国政府数字化转型导致电子文件的数量和种类急剧增加,海量电子文件的鉴定和保存工作几乎不可能完全依靠人工手段。于是,英国国家档案馆数字保存部门成立研究小组,探究应用人工智能工具进行电子文件鉴定的过程,其主导了 AI for selection项目,该项目的主要内容包括:一是掌握利用AI技术进行电子文件鉴定的技术原理,熟悉AI技术应用于电子文件鉴定的操作流程;二是研究和测试不同供应商的AI工具,评估AI如何支持和优化电子文件鉴定工作;三是设计选择AI工具供应商的评估指标,为对接外包市场提供参考等。

AI for selection项目通过探究一系列机器学习方法,自主研发了AI技术应用的基准工具,并最终形成了一份面向各文件管理部门的指导手册《在政府中使用AI进行电子文件鉴定》[5],为人工智能技术在电子文件鉴定中的应用提供了一个可行方案。英国国家档案馆的有益探索为我国依托人工智能技术实现档案智能鉴定提供了借鉴和参考,下面以AI for selection项目为例从决策依据、功能实现及效能呈现方面描绘人工智能应用于档案鉴定的图景。

1.1 决策依据:人类经验和AI技术相结合

英国国家档案馆使用来自其文件管理系统的“代表性数据”,包括110882个文件与12462个文件夹,在研究和测试AI工具的过程中,使用80%经过标记的训练数据来训练模型,由机器对训练数据集中“选中的”文件的特征与“未选中的”文件的非特征进行识别和学习,之后使用剩余20%数据进行测试,通过不断完善模型以优化鉴定的准确度。

AI for selection项目发现档案工作者拥有的关于档案价值判定的主观经验和知识对于AI工具的有效运作至关重要。此外,数字档案自身特性所引发的鉴定问题有必要交由数字技术本身来处理,这既是一种技术逻辑,即尊重机器的运行方式,也是一种技术思维,即将现实问题放置在其产生的源环境中去理解。因此,人工智能技术赋能的内在本质是通过将人类经验与AI技术结合实现档案鉴定。在收集、分析和推理大量数据的基础上,人工智能可以挖掘隐藏在档案数据中的潜在规律,客观现实状况及不同现象之间的关联得以充分反映。

1.2 功能实现:档案鉴定指标与数据的比对

AI for selection项目智能鉴定功能的实现是通过将档案鉴定指标与档案数据挖掘结果进行比对,判定文件的价值类型。首先,上传电子文件,将档案鉴定方法、原则、标准、影响因素等转化为算法表达,借助自然语言处理、数据挖掘等技术促进对文件内容特征、元数据特征的理解与提取。其次,使用算法依据鉴定规则和流程判定文件是否需要归档,并做出文件保管期限的判定,识别出需要永久保存的电子文件。第三,在机器完成鉴定后由人工进行结果审查,反馈情况以调整或重新设计流程。

AI for selection项目基于文件元数据和文件内容分别开发了两种鉴定模型,其中基于文件元数据的鉴定模型主要是根据文件的元数据特征判别是否需要归档及其保管期限;基于文件内容的鉴定模型主要是根据文件的内容特征判断文件的价值,将具有相同特征的文件聚类到一起,做出文件保管期限的判定。经测试,英国国家档案馆指出电子文件智能鉴定的实现应当既考虑文件的元数据特征,还应根据文件的具体内容来决定[6],以得到较为良好的鉴定结果。

1.3 效能呈现:自动化智能化助力质效提升

目前档案鉴定工作繁琐且困难重重,存在鉴定标准缺乏且难以把握、专业鉴定人员不足等问题。自动化、智能化的鉴定在结果呈现上以高效、简洁为特征,AI凭借其自身优势成为档案鉴定工作高质量高效率发展的助推器。AI for selection项目基于文件元数据和文件内容两种模型最终研发了两类拣选器,即朴素贝叶斯分类器和逻辑回归分类器,为电子文件鉴定提供了AI工具。通过智能化的产品辅助人工管理,极大地提高了档案鉴定工作质效,为档案鉴定工作从“纯人工模式”转变为“半自动模式”提供了可行方案。

2 AI for selection项目档案智能鉴定的风险审视

随着数字转型深入推进,英国国家档案馆AI for selection项目将人工智能技术应用于电子文件鉴定能够解决当前鉴定工作所面临的部分难题,为我国档案领域与人工智能深入融合提供了参考。但由于档案鉴定工作本身具有很强的严谨性,我国档案领域在借鉴AI for selection项目经验的同时应当理性审视其中存在的诸多风险:一是鉴定主体权责亟需明确;二是人类认知偏差导致人工智能偏见;三是鉴定模型建构中存在“质”与“量”的鸿沟等。

2.1 鉴定主体权责亟需明确

人工智能应用于档案归档鉴定,意味着在档案机构和档案管理人员之外,机器也作为档案管理主体参与其中。目前AI for selection项目通过人工智能实现辅助人工鉴定,而随着人工智能由感知智能技术应用转向认知智能技术应用,其自主学习能力正不断增强,自主意识也在不断形成,这样的事实是我们无法回避的。人工智能形态的不断变革,当前关于人工智能体的属性和地位该如何明确存在很大争论[7],未来,人工智能是人还是机器的争论也许还将持续很久。倘若今后档案鉴定工作逐步实现“智能化模式”,当利用算法判定文件是否需要归档,是否让它留存下去成为档案时,对于机器提供的结果是否可以完全信任难以下定论,归责问题需要明确,这需要依托档案学者们的共同努力以及相应的法律法规提供支持。

2.2 人类认知偏差导致人工智能偏见

人工智能本身并不具备鉴定经验,其鉴定经验是由人类所赋予它的,AI for selection项目将保存着复杂类经验的档案转化为算法表达,也可以穷尽的规则实现档案鉴定。人脑不可否认地存在认知偏差,而一旦人类给予AI的鉴定经验本身存在偏差,这种偏差会持续重复下去,最终将导致AI在实际上的偏见[8]。档案价值鉴定理论从“年龄鉴定论”“行政官员决定论”“职能鉴定论”等发展到目前被广泛接受和认可的“宏观鉴定论”,宏观鉴定论的实质是片面的“实体价值论”,即其认为档案价值是独立于主体之外而存在的,它随档案的产生而产生,不论人们利用与否都是客观存在的,显然存在着重大的理论缺陷[9]。基于存在偏见的人工智能对档案进行鉴定,其结果会对历史的真实和完整造成严重伤害。

2.3 鉴定模型建构存在“质”“量”鸿沟

对于人工智能而言,算法、算力、数据是其核心三要素,其中最基础最核心的是数据。任何算法都需经过大量数据的洗礼,数据的质量、精确度、完善度等直接决定了AI在实际应用中的表现[10]。以英国国家档案馆开发的基于文件元数据和文件内容的两种模型来看,档案智能鉴定需要数据与知识双核驱动,其能否得以实现的前提是拥有足够量的档案数据及庞大的鉴定知识为基础开展机器学习的应用,研究人员需要准备大量训练数据集对系统进行训练。数据规模越大,学习效果更佳,准备机器学习的大规模数据和知识需要耗费大量资源对其进行预处理。然而,现阶段我国档案数据化程度较低,来源复杂、内容广泛、标准不一,尤其元数据稀缺,无法提供足够优质的数据作为智能鉴定的训练数据集,将影响机器学习应用的效果。

3 AI for selection项目对我国档案智能鉴定的启示

通过上述分析可知,人工智能应用于档案鉴定工作存在着一些风险,为此,我国档案界应当理性看待并采取手段防范AI技术可能带来的隐患,可以在借鉴参考AI for selection项目做法的基础之上,从制度、意识、资源和业务等层面进行风险防范,以保持我国档案工作良性运行,维持档案业务与技术之间平衡协调发展。

3.1 制度层面:制定规范标准,明确主体权责

为加快推动我国档案领域深入应用人工智能技术,防范人工智能应用于档案鉴定带来的风险,还需以法律和行业标准来引导和规范人工智能技术在档案领域的应用行为。首先,制定档案智能鉴定系统开发和应用的规范标准。英国国家档案馆在研究和探索人工智能支持和优化档案鉴定的过程中,形成了一份面向各文件管理部门的指导手册《在政府中使用AI进行电子文件鉴定》,为希望在电子文件鉴定工作中应用人工智能的政府部门提供技术、市场、管理等方面的建议。当前,我国档案智能鉴定系统的建立过程中许多量化指标还难以确定,可以参考该项目的经验,对电子文件鉴定应用的AI技术、评估指标设计等方面加以明确,为档案智能鉴定的落地提供指导。其次,界定档案管理主体权责。建立法律法规是以普遍存在的社会事实为约束对象,对潜在风险尚无力防范[11]。然而一旦机器鉴定结果有误,又会因法律法规的不完善导致档案机构和人员承受巨大损失,法律法规应起作用和实起作用之间的差距使得档案领域深入应用AI技术存在犹豫和迟疑。为此,需要明确档案主管部门领导、机器学习模型设计者、档案工作者等主体的责任划分,从而在法律保障层面推动人工智能在档案鉴定工作中的深化应用。

3.2 意识层面:回归价值理性,重构鉴定理论

“智慧”的根源在于人,而非智能技术。在意识层面,我国档案界应回归价值理性,重构和完善档案鉴定理论体系,让档案鉴定理论与技术深度融合,以纾解偏差偏见风险。首先,秉持价值理性。档案鉴定不应完全由人工智能的技术理性所牵制[12],AI for selection项目也指出档案工作者所具备的关于档案鉴定的知识对于有效运作AI工具至关重要。在探索档案鉴定智能化过程中,如何实现档案工作价值理性地发挥是不可规避的问题。为此,需要在智能鉴定工作中考量情感需求、聚焦人文关怀,将真实、客观、公平、向善等原则嵌入鉴定标准中。从整体层面思考档案鉴定与文化、记忆之间的关系,档案鉴定需具备更多的包容性,以呈现丰富多样和与社会真相对称的立体结构[13]。其次,重构档案鉴定理论体系。一是要充分吸收既有经典理论的有益成分。宏观鉴定法虽获得较为广泛的认可,但因其中的职能分析模块难于把握,在应用当中仍然面临一些困难。数字环境下,将抽象的宏观鉴定论细化为具体指南不可避免。二是基于档案属性、内容与来源背景、价值实现方式鉴定[14],构建与完善档案鉴定理论体系。通过将更为完备的档案鉴定理论与Al技术深度融合,以减少AI技术造成的偏差、偏见。

3.3 资源层面:夯实数据基础,优化鉴定模型

《在政府中使用AI进行电子文件鉴定》中提出不同的文件类型如文本、媒体和图像等可能需要不同的模型。在资源层面,需要依托足够的档案数据及专家知识,通过大量训练数据集检验和优化鉴定模型及规则,以获得更为准确的鉴定结果。首先,夯实数据基础,为人工智能深度分析提供支撑。AI for selection项目建议在选择训练数据时档案工作者需要重点考虑数据的质量和数量。一是需要打好档案数据资源基础,档案工作者应意识到重复文件的普遍性,确保训练数据的多样性,准备初始数据以及设定用于价值判定的关键词、密级判定的敏感词等。二是需要大规模的训练数据集对机器进行训练,随着训练集数量越大,学习结果的准确率将越高。其次,优化鉴定指标、模型和规则。一是基于档案鉴定理论,以及档案的真实、完整、可靠等属性,构建档案鉴定理论框架模型,设定鉴定标准、指标、原则等,并将其转化为算法表达。可以对接ISO 15489档案管理标准,设定多维度多变量的衡量标准[15],以此搭建档案鉴定理论框架。二是在遵循既定规则的基础上,充分利用人工智能技术从训练和测试中归纳总结电子文件共性,并以此来反哺既定规则,通过不断完善和发展档案鉴定规则以更准确高效地完成档案鉴定。

3.4 业务层面:人机协同共生,吸纳公众参与

AI for selection项目指出AI无法取代档案工作者的专长,档案工作未来在很长一段时间将会是人机共存、人机互补的模式。为此,从业务层面看,可以通过积极探索人机协同共生,以及广泛吸纳社会公众参与两条路径有效防范运用AI技术进行档案归档鉴定的风险。首先,档案工作者应树立人机共存的思维,积极探索与人工智能协同共生。一是积极应对人工智能时代带来的挑战,不断提高自身创新能力,发展与人工智能技术融合能力。二是由于目前认知智能的发展仍不够成熟完备,档案人员应避免过于依赖技术,将档案价值判定工作脱离人类经验和认知而完全交由机器,应当探索人机互补的模式以提升档案鉴定质效。其次,吸纳社会公众参与档案鉴定。2020年修订的《中华人民共和国档案法》中指出“国家鼓励社会力量参与和支持档案事业的发展”,为社会公众参与档案鉴定提供了法律依据。在以往的档案鉴定模式中,不论是由立档单位鉴定、档案工作者鉴定,还是由学科专家、政治家等合作鉴定,决定权始终把握在少部分人手中。显然,同任何决策过程一样,试图将所有社会相关群体纳入决策圈并不现实。但在网络空间中,随着人工智能技术的发展,档案价值鉴定可以吸纳公众参与其中,社会公众的智慧与力量将逐渐得以凸显。

猜你喜欢
人工智能智能
我校新增“人工智能”本科专业
智能制造 反思与期望
2019:人工智能
智能前沿
智能前沿
智能前沿
智能前沿
人工智能与就业
智能制造·AI未来
数读人工智能