人工智能在专题档案收集工作中的应用

2024-10-17 00:00:00鲍玲莉
档案天地 2024年10期

人类正在步入人工智能时代,这是继互联网、移动互联网之后又一次大的技术变革。人工智能的发展对社会生活方方面面产生了深刻影响。在多学科交叉发展的环境下,档案事业同样需要人工智能技术的参与,专题档案的收集工作尤其需要人工智能技术的协助。

一、专题档案收集工作的特点

专题档案分两大类,一类是以某一主题(事件)为归档对象的专题,与该主题有关的文书、图片、实物等,譬如重大科研、乡村振兴等;另一类是以名人为归档对象,包含名人在其公务活动、社会活动和个人活动中形成的具有保存价值的文件材料。专题档案是以专题为核心的“专题全宗”,包含了与专题有关的所有有价值的材料,有纸质、声像、实物等多种形态。专题档案在收集工作中呈现出以下特点。

(一)归档时间的不固定性

不同于其他门类档案有固定的归档时间,专题档案的归档时间是不固定的,主要根据选题的确定而决定,在时间上有前有后。

有些专题具有“前瞻性”,在事件发生之前就确定了选题,可以提前介入收集工作,通过“向前看”提升归档文件的质量。譬如建党周年庆,从建党周年庆准备阶段就可以收集专题档案材料,伴随着建党周年庆各项活动的开展,不停地收集,最终形成建党周年庆专题。

有些专题具有“滞后性”,是在事件发生之后确定选题,事后收集,而这种“滞后”专题的档案收集工作通常会比较困难,需要“回过头”去查找与专题有关的文件资料等。譬如,高校根据名人专题档案制度和校内教职员工的科研成果、感人事迹等,确定建立某名人专题档案,这类专题档案需要从档案保管部门存量档案中收集与之有关的文书、照片等,对存量档案的整理质量提出了较高要求。而对非存量档案的社会信息资源等,则需要名人主动提供有关信息。

还有些专题兼具“滞后性”与“前瞻性”于一体,即确定选题时,事件已经发生,但还会继续发生。该类专题档案的收集既要“回过头”,也要“向前看”。譬如脱贫攻坚专题,早在2005年,国家就制定了“全面建设小康社会、消除贫困”的目标,实施了一系列脱贫计划和政策,但直到2020年国家档案局提出了要规范建设脱贫攻坚专题档案数据库,很多档案部门才开始重视脱贫攻坚专题,“回过头”去搜集相关材料、建立专题。2021年,我国脱贫攻坚战取得全面胜利,为了进一步巩固拓展脱贫攻坚成果,接续推动脱贫地区发展和乡村全面振兴,中共中央、国务院发布《关于实现巩固拓展脱贫攻坚成果同乡村振兴有效衔接的意见》,于是在脱贫攻坚专题的基础上,发展乡村振兴专题,用“向前看”的方式,继续不断丰富专题内容。

(二)来源多样

不同于其他门类档案有固定的档案生成部门,财会档案由财务部门生成,文书档案由发文部门生成,专题档案是根据选题,将与之有关的各种材料归集到一起,其来源是多种多样的,档案保管部门、业务部门、社会团体、个人等等都有可能是档案的来源。

譬如名人专题档案。一是制作单位,收集其参加各项业务工作和社会活动的档案。二是通过名人本人及其家人,收集其日常生活中的档案。三是通过其所在单位的档案保管部门,检索馆藏,归类与之有关的档案。四是其他单位、团体中与之有关的档案材料。

(三)形式丰富

专题档案形式多样,内容丰富,只要是与专题有关,各种类型、载体、形式的材料都可以收集。

譬如高校校庆专题,既包含有关校庆议程文件、政府部门的贺信、校友捐赠公示等纸质档案,又有记录校庆宣传、校庆活动中形成的录像或照片档案,还有校庆文化衫、锦旗和各种纪念品等实物档案。

二、人工智能技术的应用

人工智能是指计算机像人一样拥有智力能力,是一个融合计算机科学、统计学、脑神经学和社会科学的前沿综合学科,可以代替人类实现识别、认知、分析和决策等多种功能。当代的人工智能的主流方法是机器学习(Machine Learning),即通过学习的方法来获得判断和预测的能力,从已知的数据中去学习数据背后所蕴含的规则或者规律,然后根据学习到的规则或者规律对新的输入进行判断或者预测。人工智能最核心的能力,是根据给定的输入作出判断和预测[1]。这样的人工智能技术可以有效地服务于专题档案的收集。

首先,档案工作人员让人工智能学习具体某个专题的内涵和外延,使人工智能获得分辨专题不同于其他信息的能力,然后让人工智能投入到收集工作,从浩瀚的信息中筛选出可以归入此专题的信息。

因此,将人工智能技术应用到收集工作中来,将大大提高工作效率。成熟的人工智能可以作出判断,确定哪些材料属于这个专题,也可以预测未来的某些材料是否可以归结到该专题中来。

(一)图像识别

图像识别是指通过计算机算法将图像中的内容进行分析、识别和理解,从而实现对图像的自动处理和分析,是目前人工智能领域最为社会大众所了解的一项技术。不论是进出固定场所的人脸识别,抑或某些购物软件的人脸支付,还是当遇到不认识的花草树木拍照后的“看图识物”,都是图像识别技术的应用。图像识别通常使用深度学习等机器学习技术,以提取图像的特征,并通过训练分类器等方法实现识别。专题档案来源丰富、类型多样,在档案数据库或选择某些网络信息资源库中置入图像识别技术,根据具体专题的要求,人工智能可以协助判定某些材料是否属于该专题以及图片所展示的各种信息。

譬如名人专题中数量最庞大的照片档案,可以先让机器学习该名人的人脸信息,提取名人的人脸特征,然后分析数据库中图片人脸、环境、文字等信息,抓取与名人特征一致的有用信息,判定该照片是否属于该专题。成熟的图像识别技术甚至可以根据照片中场景、光线等信息,判定照片拍摄的时间、事件等。中国人民大学牛力教授团队在建立吴宝康专题档案过程中,对大量照片档案图像进行识别 [2]。该团队还完成了对照片中吴宝康及其合影人物的识别,对其中的重要人物进行再标注等,有效地丰富了吴宝康专题档案的内容。

(二)语音识别

语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本或者命令的技术。专题档案中比较常见的声像档案可以使用语音识别技术对语音信息进行文本输出。利用深度学习语音识别技术对文本化的信息进行上下文理解和语义分析,然后自动化著录音频的主题、概念、事件、观点等,自动生成内容摘要,聚合音频数据,构建知识图谱,形成知识体系,为音频档案内容挖掘和知识化加工创造条件[3]。

譬如大型会议专题,一般会产生大量的录音录像材料,档案管理人员需要花费大量的时间去观看并记录内容,从而筛选出会议的重要内容并对声像档案的内容做相应的标记。借助语音识别技术,可以在相对较短时间内对全部声像内容做出文本输出,以供档案管理人员了解并掌握声像档案的具体内容,确定是属于哪个名人、参加什么活动、发表了什么观点等,从而更好、更便捷地对声像档案进行分割、收集。语音识别的文本结果,还可以通过接下来要介绍的自然语言处理完成分类,进一步提高专题档案收集的效率。

(三)自然语言处理

自然语言处理是人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论,主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。实现人机间自然语言通信就是要求计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图和思想等。自然语言处理的目标与意义,是能够通过设计出对应的算法与规则,来达到让计算机能够理解自然语言的目的。

在专题档案收集工作中,自然语言处理通过信息提取、文本感情分析、自然语言生成,能迅速判断处理对象是否全部、部分属于该专题。信息提取可以分析文件的关键词,并理解该文件所讲述的内容进而确认是否属于该主题;文本情感分析是在文件信息提取的基础上进一步分析文件内容的具体指向是褒义的还是贬义的;自然语言生成可以通过分析文件资料进而生成自然语言,譬如重要会议专题的文件资料,通过自然语言生成的分析,可以分辨出会议前的准备、会议过程中、会议结束后等不同时期的文件资料,从而为会议专题的整理打好基础。

三、使用人工智能的基础

人工智能是为人服务的智能,但它在档案工作中的应用比想象中的要复杂。人工智能的主流方法是机器学习,不论是监督学习、无监督学习还是半监督学习,机器学习的前提是有学习的对象——数据集。半监督学习介于监督学习和无监督学习之间,是目前较为流行的机器学习方式,它是对小部分带标记数据(训练集)学习,找到数据背后的规则、规律(测试集),进而去分析剩余部分未标记的数据的结果[1]。由此可见,建立数据集并找到数据的规则、规律非常重要。

(一)建立数据集

人工智能能否应用在专题档案收集工作中,首先在于档案是否建立了数据集(即档案信息资源数据库)。在档案领域,档案的数字化成果和电子文件等都可以作为数据集,所以要想使用人工智能为档案工作服务,前提是加快档案的数字化和电子文件的确权,这也是当前档案工作开展的重要方向。

(二)半监督学习

在专题档案收集工作开展前,需要将已完成的某几个专题档案的数字化成果作为训练集和测试集,以半监督学习的方式通过训练和测试,不断优化人工智能对于专题的规则或者规律的理解,进而去学习新的专题,分析新的数据集并作出判断和预测。成熟的人工智能可以在海量的数据集中,根据现有的规则或者规律,迅速分析出数据的结果,进而判定数据是否属于某个专题的档案。

四、结语

专题档案归档时间不固定、来源分散、形式多样,仅靠档案人员去一一收集和甄别,需要耗费大量的时间和精力,成熟的人工智能可以极大地提高工作效率和准确性,同时海量的机器学习也可以提高人工智能的性能,更好地为档案事业提供有效服务。

参考文献:

[1] 杨清平. 人工智能 [M]. 北京:北京航空航天大学出版社, 2022:1.

[2] 牛力,高晨翔,张宇锋,等.发现、重构与故事化:数字人文视角下档案研究的路径与方法[J].中国图书馆学报,2021 (1):88-107.

[3] 杨巍,王茂焕. 基于深度学习的语音识别技术在音频档案数据化中的应用 [J]. 浙江档案, 2024 (2): 52-54+60.

作者单位:安徽大学档案馆