档案鉴定与人工智能:将来,如何以及是谁在言说历史

2021-08-11 17:53洪佳惠
档案管理 2021年4期
关键词:黑盒子专家系统机器学习

洪佳惠

摘 要:将人工智能应用于档案鉴定就是要构建一个具备机器学习能力的档案鉴定专家系统,但该人工智能系统与人脑的差异、“黑盒子”及不确定性令人们暂时无法放心地将档案鉴定工作交给它。由是,改变档案鉴定的理念或许是一条可行的进路,即依靠人工智能实现的鉴定不再掌握档案的生杀大权,只令其在系统中进行虚拟的价值鉴定,而不在物理意义上进行销毁鉴定。对于档案鉴定专家系统所依赖的全局数据库应尽数保留,对鉴定无用的档案也应一并存入全局数据库进行保存。对于档案中保存的史实,一时代有一时代之观点,一时代的人工智能亦有一时代之“偏见”,只要尽可能多的全局数据被保存,人类的视域也就被最大程度地保留了下来,这可能是目前人的历史不被机器言说所取代的唯一途径。

关键词:档案宏观鉴定;专家系统;机器学习;黑盒子;单向度的人

在国内,2019 年召开的中国档案学会档案学基础理论学术委员会学术年会暨第一届档案创新论坛上,一款档案专业“黑科技”——讯飞档案机在会场中应用,该智能产品为口述历史档案的整理、重大活动的全面记录归档提供了解决方案;在国外,梵蒂冈机密档案馆使用人工智能技术对馆藏的35000卷使用古拉丁文书写的档案进行处理和解密,韩国的翻译机构使用人工智能技术对本国古代文献进行翻译……人工智能不断变革着现代档案工作的信息保管和处理方式,使得档案中蕴藏的巨大信息能量得以被进一步发现和挖掘。

然而,档案工作者显然不只是想利用人工智能技术来获取更多信息,而更想利用这项新科技从繁重的日常工作中解脫出来,并解决工作中的难点,档案鉴定即是这当中一项既繁琐又困难重重的工作,亟待人工智能提供解决方案。

1 综述

1.1 内涵。国际档案理事会1984年出版的《档案术语词典》中对档案鉴定是如此定义的:“根据文件的档案价值来决定如何对其进行最后处理的档案工作基本职能,也称为评价、审查、选择或选留。”[1]这个判断句对“文件的档案价值”的表述不甚清晰,或许正因为此,各国对此都作了细化的描述。

在我国,《中国大百科全书》(档案学分册)中,鉴定工作被描述为“甄别档案文件的现实价值和历史价值,进行存毁处置的一项档案业务工作”。[2]而高等学校档案专业通行教材《档案管理学》[3]中则对档案鉴定作了更为细致的描述,且对档案鉴定和档案价值鉴定作了区分:“档案鉴定一般是指区别于判定档案真伪和档案价值的鉴定,……。简单地说,就是判定档案价值、决定档案存毁(生存死亡)的工作。”

从以上三个定义来看,鉴定工作掌握着档案的“生杀大权”,且穿插于整个档案管理工作中,而并非通常所理解的仅仅是在销毁环节发生作用。“文件连续体框架下的每一次档案‘挑选活动似乎都可以被归入档案鉴定范畴。”[4]从文档一体的角度来看,档案收集人员甫一接触文件,鉴定工作就开始了,因为尽管“文档一体”,但并非所有的“文”都能成为“档”,就目前而言,能成为“档”的“文”仅是非常有限的一部分。由是,在整个档案管理工作中,依据一定的原则、标准和方法来决定档案的存毁,这就是人工智能应用于档案鉴定所指向的工作内涵。

1.2 外延。档案鉴定的定义明确显示,这项工作需要“依据一定的原则、标准和方法”,这个“原则、标准和方法”在我国一般被简化为诸如《机关文件材料归档范围和文书档案保管期限规定》之类的行政文件。无可否认,这确实为档案鉴定的实际工作提供了切实的依据,但由于人类经验的多样性,以及档案价值在未来的不确定性,这样的依据略有“一刀切”之嫌。

在国际上,经历了“年龄鉴定论”“行政官员决定论”“职能鉴定论”“利用决定论”等阶段后,目前获得较为广泛接受度和认可度的档案鉴定理论是上世纪80年代末,由加拿大著名档案学者特里·库克提出的宏观鉴定法(宏观鉴定战略),[5]这种方法要求档案工作者对整个社会的形成背景、运行方式和各类文件的形成过程有所了解,以宏观和综合的知识背景及内心法则来作为档案鉴定的依据,以期能相对准确地在档案中反映出社会发展的面貌与趋势。

相较于以行政法规作为依据,“宏观鉴定法”最大程度地含纳了之前几个阶段对档案鉴定提出的准则;同时,也对档案工作者在综合素质上提出了几近严苛的要求,毕竟“任何人终其一生的努力,也难以获得与档案内容和性质相对应的所有知识”。[6]这项要求在目前这样一个多元化的大数据时代中显得尤难企及,“电子文件惊人的产生速度,使其数量再次成为档案鉴定的一道难题,因为即使是专业的档案工作者也很难承担数量如此巨大的文件鉴定工作”。[7]

即便是在一个相对较小的收集范围内亦是如此,如在重大活动具体实施过程中,可能实时就有大量的文件和信息产生。档案收集人员既无法判定这大量的文件和信息中哪些是重要的,哪些是不重要的,又承担不了海量信息的“一股脑”照单全收,仍旧只能“给多少收多少”“有多少存多少”。

而在海量数据处理方面,人工智能却是“行家”。在智能硬件的支撑下,使用特定的人工智能应用,对于海量数据的处理甚至可称得上轻而易举。人类无法承担的大量的信息处理工作正是人工智能的“用武之地”。由是,宏观鉴定法所指向的广阔社会背景和即时产生的海量数据,就成为人工智能应用于档案鉴定所要面对的外延。

2 构想

2.1 狭义的广义人工智能。人工智能作为一种尚在发展中的技术,至今无法给出确切的、相对稳定的定义。在最宽泛的程度上,人工智能是“对数据或其环境做出反映的技术”,[8]但这种描述中包括了“智能系统”和目前所称的“人工智能”两个方面。智能系统是“依据确定性的算法所实现的系统”,[9]而人工智能则是“一种可随机应变的技术”,[10]前者的处理结果是确定性的,而后者则依靠逻辑推理或模仿人脑处理问题的过程,其结果并非事先可知。所以从严格意义上来说,文首所提到的人工智能在档案管理中的应用案例都只能算作是智能系统的应用,还未踏入“人工智能”之门。

这种程度的人工智能在档案鉴定中显然是无法充分发挥作用的。将“依据确定性的算法所实现的系统”应用在档案鉴定中,只是依据一定的规则(如归档范围和期限等),使用计算机来实现档案鉴定。这无非就是一种将计算机作为一种工具来进行的档案鉴定,也许可以在一定程度上缓解人工鉴定的工作强度,但仍旧无法实现一种综合了社会背景、职能分工等各种要素的、对现实有着更准确反映的“宏观鉴定”。

这也就是说,本节所要构想的,是一种可以替代人脑因信息处理能力不足够而导致无法实现“宏观鉴定”的人工智能。但这种人工智能又还未具备强人工智能(或称人共同用智能AGI的能力),毕竟“没有人确切知道制造 AGI的方法,专家们在这个问题上也存在分歧”。[11]所以本文所称的人工智能介于更广义意义的人工智能(即包含智能系统)和狭义人工智能(即AGI)之间,是一种“狭义的广义人工智能”。

2.2 专家系统。基于知识库的专家系统是在人工智能领域较早取得实际效果的计算机程序系统。专家系统内含有大量某个领域专家水平的知识和经验,并利用专家的知识和解决问题的方法来处理该领域的问题。在档案鉴定这里,专家系统须具备人类档案专家的鉴定知识、工作经验,并结合整个社会的总体经验,对档案进行鉴定。一般而言,专家系统由知识库、全局数据库、推理机、知识获取、解释器和人机接口等部分组成,[12]根据档案鉴定工作的具体情况,其结构构想如下图所示:

荷兰在19世纪与20世纪之交实施的PIVOT项目中的“三方咨询”即可被看做是一个较为完备的知识库,即“相关政府机構的专家,相关机构的文件实践管理者,国家档案专家”[13]所具备的档案鉴定知识,这是人工智能应用于档案鉴定的内涵部分。

全局数据库在一般的专家系统中主要用于存放有关问题求解的假设、初始数据、目标、求解状态、中间结果以及最终结果;而在档案鉴定的专家系统中,则是至关重要的、关于背景的一切数据,这是档案宏观鉴定理念的核心之所在,也是人工智能应用于档案鉴定的外延之所指。

推理机由一组计算机程序组成,主要模拟进行档案鉴定的思维过程,可被看作是整个专家系统的大脑和中枢,控制、协调整个鉴定过程的展开,推理机根据档案数据库中的初始数据和鉴定要求,运用知识库中的规则来进行档案鉴定。知识获取是专家系统的一个子系统,是建造和维护知识库及全局数据库的接口,这个子系统应是开放的,可即时接收鉴定结果、对鉴定结果的反馈及其他实时产生的信息,并在推理机的作用下将信息分类置入知识库和全局数据库中。

解释器是专家系统的另一个子系统,以全局数据库为解释背景,负责对鉴定结果进行回应,这是档案鉴定专家系统最“像人”的部分,但由于全局数据库的复杂性,同时也是最难控制的部分。人机接口是人们获取鉴定结果并反馈信息的通道,通过人机接口,专家系统、人类专家、档案利用者可进行沟通,鉴定结果和反馈信息同样通过其传回知识获取子系统中,成为进行档案鉴定的背景数据。

2.3 机器学习。专家系统对知识获取的开放性及知识库和全局数据库对新增信息的接收和处理,已涉及人工智能的另一个重要学科——机器学习。机器学习是在专家系统的基础上,令系统“更智能”的一种方式。“机器学习实现的是让计算机透过大量的数据或以往的经验来学习,不断优化计算机程序的性能,实现分类或预测等功能。”[14]将这种方式应用于档案鉴定,即是令计算机通过大量的数据(即全局数据库)及既有的经验(即知识库)来学习,自动优化专家系统的性能,实行更为准确的档案鉴定,甚至综合整个社会文化背景因素,来预测将来档案鉴定的价值走向。

与人工鉴定相似,机器学习应用于档案鉴定实质上也是在纷繁复杂的档案数据中寻找共性,再应用于档案多样性鉴定的过程。在专家系统中,人类先提供一部分既有规则(知识库),这种规则是以程序的形式被计算机系统所接收的,在此基础上,令计算机系统深入全局数据库,在复杂多样的全局数据库中归纳出共性,再返回知识库进行修整,以经过不断修整的规则(知识库)来进行档案鉴定。在此,知识库和全局数据库并非给定不变,而会随着机器学习的不断深入进行调整。

但机器学习应用于档案鉴定的目标不止于此,除了对人类给予的知识库和全局数据库进行归纳,机器学习还需令专家系统真正具备一种“专家直觉”,即“可以看出眼前或未来的情况和过往发生情况的某些相似(特征)点”[15]的能力,对于人类专家来说,这是建立在更多的经验和专业知识的基础上,而对于专家系统来说,则建立在更丰富的数据和更强的推理归纳功能的基础上。如此,具备机器学习能力的档案鉴定专家系统在面对复杂大量的档案数据时,才能有效节省尝试和摸索的时间,真正地成为一种“人工智能”。

3 疑虑

3.1 偏差和偏见。至此,具备机器学习能力的专家系统似乎为人工智能应用于档案鉴定提供了一种有效的解决方案,庞大的全局数据库似乎也实现了宏观鉴定的目标,但就如此轻易地将档案鉴定工作交予人工智能却又令人不那么放心,基于经验的人类智能和基于推理的人工智能之间毕竟存在着巨大的差异。

这个差异首先表现为人脑的丰富性和人工智能的规则性。人脑对于问题的思考和处理与人工智能是完全不同的,植根于人类经验的大脑有着极为活跃和丰富的思维能力,而以推理为基础的人工智能则试图将丰富的经验以数条规则概括,人工智能的杰出人物之一马文·明斯基这样描述人工智能:“牛顿发现了三个简单的定律,几乎解释了我们所看到的所有机械现象。一两个世纪后,麦克斯韦对电能也做了同样的事情……许多心理学家试图模仿物理学家,把这些(关于大脑如何工作的理论)简化为几个简单的定律,但并没有奏效。”[16]这在档案鉴定这里,可能也遇到了同样的问题,应用人工智能就是将保存着复杂的类经验的档案规整化,以可以穷尽的规则来处理可能无法穷尽的人类经验,即便可以应用语义分析技术来对档案鉴定规则进行扩充,对其进行解释,但这个扩充和解释也仅仅是在规则上下进行容错,与“无法穷尽”根本无涉。在这个意义上,将人工智能应用于档案鉴定存在着走上了与宏观鉴定背道而驰之路的隐忧。

人脑和人工智能的这个差异直接导致了“偏差”和“偏见”的差异。人脑不可否认地存在认知偏差,即人们在知觉自身、他人或外部环境时,常因自身或情境的原因使得知觉结果会出现失真的现象,这是人类知觉具有选择性的特征所致,也是大脑可能得出错误答案的原因。不过人类具备反思能力,在档案鉴定工作中,人们可能不断认识到自身存在的认识偏差并温和地修正它。但人工智能却不具备这种能力,人工智能本身不具备鉴定经验,它的鉴定经验是人类给予的,人工智能历史上最为著名的软件——伊莉莎(Eliza)的创造者、经历过二战的犹太人学者魏泽堡在《计算机能力和人类推理》一书中指出:“计算机程序员在某种程度上是一种造物主,他需要为自己所缔造出的程序世界担负起应有的责任……这种程序往往有着不可估量的复杂程度 ……”[17]一旦人类给予的鉴定经验本身存在偏差,这种偏差就会无休止地重复下去,人类的认知偏差最终会导致人工智能在实际上的偏见。事实上,不存在偏差的人类经验不仅有着“不可估量的复杂程度”,甚至可以说是不存在的。依靠一种存在着重复偏见的人工智能来进行档案鉴定,其结果对历史真实性的伤害毋庸赘言。

3.2 黑盒子。由于人工智能对数据具备强大的处理能力,偏见被重复推理,其影响也将持续发酵,人们甚至最终无法理解这种偏见产生的原因,这被称为“黑盒子”,是人工智能的一项特质。而人工智能的另一项特质则是不确定性,即人工智能的推论及其推论行为是不确定的。库克曾说:“档案工作者在鉴定的时候,就是在决定未来的人们能知道过去的哪些内容,谁的声音会被保留下去,而谁又得保持沉默。”[18]将档案鉴定工作交由一种人类既无法理解其推理过程,又无法掌控其推理行为的人工智能来进行,就是让机器来决定未来的人们都知道过去的哪些内容,最终可能导致计算机对人类历史的塑形,而人类则丧失了对自身历史的自主认知权力,只能在依靠人工智能留存下来的档案范围内来看待自身的历史,这意味着,到了“2062年,人类的声音将很难在计算机如山如海的杂音中被听到”。[19]人类或继发达工业社会之后,进一步丧失其多样性,成为更加单薄的“单向度的人”。[20]

如果说人工智能对人类历史的言说是可靠的話,那尚可另当别论,但“我们所知道的比我们所能言说的更多”,[21]马萨诸塞理工学院的经济学家大卫·奥特(David Autor)提出的“波兰尼悖论(Polanyi' s paradox)”如是说,其终极观点就是,能被明确编码的决策系统本质上就决定了其功能必然是有限制的。在档案鉴定这里,人工智能作为一种“能被编码的系统”本身就是有限的,以有限的人工智能来决定记载着无限人类经验的档案的存毁,这无异于“削足适履”。

网络上曾经流传着关于未来考古学家的一个段子:“考古学家初步判断微博是古人用来装饭的器皿,因为史书记载古人吃完饭后都要刷微博。”大多数人可能只会一笑置之,但如果轻易将档案鉴定交由人工智能,这或许真的不只是一个段子,而是将来的人们所认为的历史真相。

4 结语

人脑和人工智能的差异、黑盒子及不确定性的存在,使得本文辛苦构建的专家系统似乎失去了存在价值,对档案鉴定来说,人工智能似乎也成了镜花水月,这当然不是事实,上一节只是想说明人工智能应用于档案鉴定并没有想象中这么容易和乐观而已。在著名人工智能科学家托比·沃尔什教授的调查中,“对于计算机像人类那样完成工作的概率为 90%的日期,专家们预测的中位数为 2112年,而非专家的预测仅为 2060年”,[22]人工智能的彻底实现已经势不可挡,尽管专家们没有普通民众那么乐观,毕竟也没有否认这个到来的日期。裹挟于时代洪流中的档案工作当然无法例外,人工智能应用于档案鉴定是时代的必然。如果说人工智能的种种局限,令人们暂时无法放心地将档案鉴定工作交予其的话,改变档案鉴定的理念或许是一条可行的进路,即依靠人工智能实现的鉴定不再掌握档案的生杀大权,只令其在系统中进行虚拟的价值鉴定,而不在物理意义上进行销毁鉴定。事实上,档案销毁问题历来就有争论,我国现代著名历史学家顾颉刚就对此颇有微词,[23]“他们看盘庚以来二百余年卜用的甲骨,正如我们看一大堆废纸似的”。提到著名的书厄“八千麻袋事件”“明朝刑部老档烧毁事件”“蒙藏院档案贩卖事件”更是痛心疾首:“谁想过了三千年,这种废纸竟沾了人们的历史观念的光,忽然发生了用处,害得许多考古家和古董商费了全副的精力去搜求,腾起很高的行市!又谁想现在人们的历史观念,只会应用于数千年前的档案,甲骨。而不会应用于数百年中的档案!”在顾先生扼腕的年代,档案的保存尚有存储空间和成本之忧,但时至今日,电子文件的普及使用,档案早已具备了以数字,甚至数据的形式被保存的条件,这也令得存储的成本大大降低。如此看来,对于档案鉴定专家系统所依赖的全局数据库应尽数保留,对鉴定无用的档案也应一并存入全局数据库进行保存。对于档案中保存的史实,一时代有一时代之观点,一时代的人工智能亦有一时代之“偏见”,但无论何种人工智能对历史进行何种削减,只要尽可能多的全局数据被保存,人类的视域也就被最大程度地保留了下来,这可能是目前人的历史不被机器言说所取代的唯一途径。

猜你喜欢
黑盒子专家系统机器学习
数控机床液压系统故障诊断专家系统的研究
基于网络搜索数据的平遥旅游客流量预测分析
FCCU精馏塔故障诊断专家系统的研究与开发
前缀字母为特征在维吾尔语文本情感分类中的研究
基于LabVIEW和Access的陀螺仪组故障诊断专家系统
基于支持向量机的金融数据分析研究
火电机组汽轮机故障诊断方法总结研究