人工智能在档案资源开发利用中的应用分析*

2021-08-04 02:41李欢施瑞婷张洁

山西档案 2021年2期

李欢施瑞婷张洁

（1.上海大学图书情报档案系上海 200444；2.澳门城市大学人文社会科学学院澳门 999078；3.南京大学计算机科学与技术系南京 210000）

人工智能简称AI，是本世纪三大尖端技术之一。其提出者麦卡锡认为它是“研制智能机器的一门科学与技术”。具体而言，人工智能是研究、开发用于模拟和扩展人的智能的理论、方法、技术和应用系统的一门技术科学。[1]目前，人工智能是驱动科技革命和产业变革的重要力量。2017年我国将人工智能上升为国家战略，2018年中国档案学会年会关于人工智能的大会主旨发言引发档案学界广泛关注。因此，如何推动新形势下档案资源的开发利用值得思考。

1 国内外研究现状

现阶段国内关于档案与人工智能的文献研究主要发表于2018--2020年。截止到2020年10月31日，在中国知网（CNKI)中限定“档案及博物馆”学科进行“人工智能”AND“档案”主题检索，共得到文献170篇，其中仅2019年就达到67篇，表明档案学界对人工智能的关注。（详见图1）。

图1 上述主题检索文献年度发文量

既有文献的研究内容主要集中在人工智能在档案管理中的实践分析及理论总结、人工智能对档案职业的影响分析、人工智能在档案界应用前景的分析这三个方面。而国外的相关研究则更加注重人工智能应用于档案管理的实践研究。

1.1 国内研究现状

关于人工智能在档案管理中的实践分析，陈会明介绍了北京市市场监督管理局的档案智能化应用状况。[2]杨靖在实践基础上分析了人工智能对智慧档案馆的驱动作用，分析其在个性化服务系统建设、保障档案存储安全等方面的作用。[3]杨建梁则探讨了档案管理的复杂性等现实因素将是机器学习的挑战。[4]因此，对档案管理而言，人工智能技术是机遇也是挑战。

关于人工智能对档案职业的影响分析，张会超提到人工智能未来将促进档案人员的分化和分流；[5]冯永光指出人工智能能够促进档案工作者转变思维，变成档案整合者、共享者、安全守护者；[6]而曹航认为在技术环境下，档案工作者的工作方式将转变为人机协同模式。[7]由此可见，随着科技的演进，档案工作者的思维方式和所扮演的角色一直在发生转变。

关于人工智能在档案界应用前景的分析，林凯提到人工智能在档案工作中的应用不能只是噱头，如何实现人工智能与档案服务的融合，提高档案信息服务公众的质量和水平是需要思考的。[8]此外，《国务院关于印发新一代人工智能发展规划的通知》强调开展跨学科研究的重要性，这意味着数字环境下，档案工作未来的发展势必要向其他学科借鉴。

1.2 国外研究现状

国外的相关研究尤其注重人工智能应用于档案管理的实践，包括档案文本智能识别、档案鉴定、档案服务等。2018年，一个名为In Codice Ratio的项目将人工智能与光学字符识别软件进行组合，成功转录了梵蒂冈秘密馆中的文本，实现复杂古籍的电子化；[9]2019年，为了提升音视频检索的便利性，Markus Mühling等人利用人工智能技术设计了自动视频分析检索系统；同年，Gregory Rolan介绍了澳大利亚档案馆及政府机构开展的人工智能技术在文本记录保存中的应用这一项目的最新进展。[10]而美国也用人工智能对唐纳德·特朗普（Donald Trump）的部分发言进行了实时转录，得到了能够更加方便、快捷被利用的档案文本。日本设立了“重启记忆”黑白照片彩色化项目，科研团队采用人工智能照片着色软件，将部分战争黑白照片档案彩色化，[11]实现照片档案唤醒主体战争记忆的价值。此外，国外的相关研究还提出了技术应用的风险问题，2020年英国信息与文件管理协会以理性的态度从正反两个角度分析了人工智能的影响。[12]

总之，“档案管理与技术世界不是平行的两个系统，相反，技术世界与档案管理一直如影随形。”[13]人工智能的应用促进技术的换代革新，“数字时代档案开发将从表征转向深度复杂计算，档案利用从单一转向高阶多维价值发现，关键技术将从分布离散应用转向融合协同创新。”[14]但技术变革存在风险，如何使人工智能更好地融入档案发展，从而更好地管理档案、保障其实体信息安全以及充分开发利用档案资源也尤为重要。这也是本文将要探讨的内容。

2 人工智能在档案资源开发利用中的应用现状

据相关统计报告显示:2018年末，我国各级各类档案馆共4210个，而已开放档案有14016万卷（件），仍有海量档案资源未开发利用。人工智能时代的智能语音技术、光学字符识别技术、人脸识别技术等能够多方助力档案资源的开发与利用。

2.1 智能语音技术助力档案资源文本化

档案资源类型多样，既包括纸质档案、电子档案等静态档案，也包括动态的音视频档案。目前，全国馆藏的音视频档案有近47万GB，相比文本档案，音视频档案的利用受到诸多限制，其中就包括对于播放条件与设备的要求以及不同语种间的沟通障碍。而智能语音识别技术的应用能帮助解决音视频档案利用中的困境，实现档案使用的便捷化。

智能语音是实现人与机器以语言为纽带的交流，相关研发工作起步较早，1980年就已出现两项非常重要的技术：隐马尔科夫模型（HMM）与N-gram语言模型，而当前深度神经网络（DNN）的应用更强化了语音识别的准确性。其识别准确率于2016年首次超过人类水平，进入可应用阶段。[15]智能语音识别系统的运行包含五个流程：语音信号的采样模块、前期处理模块、特征参数提取模块、识别核心模块和识别后期处理模块。[16]通过上述运行过程能为音视频档案自动翻译匹配字幕或实现文本转录。目前科大讯飞公司研发的档案机采用语音识别技术实现音视频档案自动转换及文本生成，10分钟完成1小时录音的转换。当前许多口述档案资源的收集、整理与利用也因语音识别技术的发展而实现了即刻文本转化。

2.2 光学字符识别技术助力档案资源数字化

光学字符识别（Optical Character Recognition）简称OCR，其原理是通过计算机实现文字的扫描识别与数字化形式转录。该系统的运行主要为六大流程：影像采集、影像前处理、文字特征提取、比对辨别、人工校正、结果输出。[17]目前，OCR技术对书写规范、图像清晰的文本容易实现高准确率转录，而档案古籍文献常包含的复杂古旧文字等通常影响转录准确度。

In Codice Ratio项目通过人工智能与OCR的结合较精准转录梵蒂冈秘密馆中部分古籍文本。项目最初采用的OCR因古籍手稿的复杂而出现单词划分与匹配错误，形成“塞尔悖论”。此后，项目结合人工智能技术，设计了一个基于卷积神经网络和统计语言模型的原则性解决方案，即改用拼图分割法。首先通过视觉模式匹配训练OCR系统进行字母识别，然后研究者训练系统辨认常见字母组合，最终系统便成为能独立阅读部分文本的专家，实现了96%的准确率转录。[18]在国内，安徽省档案馆也和科大讯飞开展档案古籍识别合作。目前简体手写和民国繁体文书识别率分别达到90%和85%，达到可用水平。[19]总之人工智能与OCR结合可以强化系统智能化识别能力，从而实现档案资源的高准确率数字化转录，促使库房中沉睡的档案资源，尤其是档案古籍更好得到开发利用。

2.3 人脸识别技术助力档案识别高效化

人脸识别技术是通过摄像设备将所识别的面部文件转为面部编码，与数据库中的编码进行比对，以达到面部辨认目的。目前该项技术的识别准确度高达99.5%，已然接近100%。[20]

虽然人脸识别凭借高精度、高效便捷性等特征应用广泛，但在档案资源开发利用领域的实践案例较少。国泰君安企业曾成功将人脸识别技术应用于公司内部和客户留存的共20T声像档案中，经过视频预处理、建立人脸数据库、视频检索的流程实现人脸识别技术的应用，[21]达到识别检索的高效化和精准化。通过人脸识别技术，不仅弥补了因缺少文字语言描述无法检索公司内部人员信息的短板，而且也实现了客户身份的快速识别与核实，降低业务风险。此案例将人脸识别技术与档案的结合发挥良好示范作用，我国有海量的声像档案资源，若能有效运用人脸识别技术对此进行处理，将进一步提高声像档案的利用率。

2.4 综合技术助力档案检索智能化

检索是档案资源实现高效便捷利用的必要手段，因而一直是档案工作研究的重要对象。目前，数字化档案信息检索主要依靠以案卷为单位著录形成的索引，一般检索流程如图2所示：

图2 档案检索流程简图

上述传统检索系统存在不足，不仅固定且更新慢的著录规则限制了精准检索，且无法实现跨平台、跨系统、跨类型的检索。而档案智能检索是通过实施语义理解、逻辑推理与学习、数据挖掘、知识发现等环节，对档案资源进行智能存储、提取和分析等，实现系统模拟人的智能水平，弥补传统检索不足。[22]

当前对档案智能检索的研究尚处于探索阶段，较有代表性的是吕元智、于力春等学者关于语义检索的探讨。于力春指出，通过文本自动提取、基于概念关系的自动文本分词技术、构建基于本体的档案信息模型、语义标注与语义查询等技术能够构建出档案检索系统。[23]面向用户的语义检索可增强检索内容的主体相关性，提高检全率和检准率，因而在多媒体档案查询中有其应用价值。2017年，Markus Mühling等人致力于研究为视频自动分配语义标签实现精准检索。该系统采用视觉概念分类、相似搜索、人物识别和视频OCR算法等技术，对视频内容添加语义标签。[24]但由于技术的复杂性，语义检索系统尚未进入大规模应用阶段，Markus Mühling等研发的系统也仅在德国广播档案馆进行了实践操作，但为今后智能检索系统研发提供思路。

3 人工智能在档案资源开发利用中的困境

目前，人工智能处在不断发展完善的过程中，并未达到强人工智能阶段，且在档案领域中的应用才刚起步，因而在档案资源开发利用中存在问题。

3.1 资源层面：档案资源类型复杂

前文已述及，智能语音技术、光学字符识别技术分别通过识别音频与文本实现相应转录。而实现上述目标的前提是算法对海量档案数据的学习，从而使机器拥有庞大的语音和文字语料库，最终才能实现档案的准确识别。但是档案资源数量庞大且类型多样，算法学习未必能覆盖全部相关资源类型及内容。一方面，部分复杂的档案资料，如方言记载的档案或以少数民族语言文字记载的文献等，都给机器学习和人工智能识别造成阻碍；另一方面，同一份档案内若包含文字、图片、表格图形等多种类型的复杂信息，进行人工智能处理时也会遇到难题。目前人工智能还处于弱人工智能阶段，不具备独立解决问题的能力，一旦遇上机器无法识别的口音和文字类型，将出现识别错误。即使识别成功，也属于机器识别，与人工识别仍有差距，因而在处理复杂问题时容易出现偏差，识别准确率并非100%，在转录时也可能会影响到档案资料的真实可靠性。

3.2 理念层面：档案理念指导脱节

人工智能应用的目的是促进档案资源的开发利用，而技术实践与理念指导的脱节也是制约技术应用的重要因素。一方面，有研究指出，当前我国档案馆、室仍以行政导向为档案资源开发的重要驱动力，该开发导向甚至是个别地区的唯一动力。[25]这种服务理念可能会使技术应用更注重政务档案资源的开发利用，而忽略社会大众对于其他类型档案信息的利用需求。另一方面，我国档案信息资源开发理念是以粗放投入和忽视效益为主,且开发对象以单一结构和浅层检索为主。[26]这种开发理念和开发对象可能会使得技术、资金等资源重复或过量投入、追求一时成果而忽略长期效益。也可能会导致未考虑馆藏档案资源的特点而盲目进行数字化转录，未把握用户需求而使相应检索系统的设计不具有实用性和针对性，造成系统利用率低等问题的出现。此类实践既损耗了机器，又未真正实现档案服务，应当尽可能地避免。档案资源开发利用的相关理念需进行调整，以发挥指引作用，使人工智能技术的应用具有问题导向性，在达到节约资源的同时，能够最优化地满足大众的档案利用需求。

3.3 技术层面：隐私存在泄露风险

大数据时代，人工智能可以通过多元数据分析用户浏览行为，形成推测性信息实现个性化服务，但技术带来便利的同时也导致用户信息被泄露。如：2018年爆出超过1.2亿脸书用户信息数据泄露丑闻。同年，美国运动品牌Under Armour的某APP1.5亿用户的名称、邮箱、和密码等数据泄露事件发生。[27]目前档案信息资源服务平台的构建一般都是外包，即利用者进入网站形成的个人信息，如用户名称、联系电话、IP地址、身份证号等会被外包公司收集，因而关系到公众隐私保密问题。据相关调查显示：截止到2019年10月14日，我国31个省级行政区（不含港澳台）及其省会城市共58个档案馆网站中只有4个档案网站设有隐私政策。[28]同时既有研究也分析了人脸识别技术应用于个人电子档案管理中存在的主体信息泄露法律风险。[29]这些都暴露出当前我国档案数字化服务平台对用户隐私保护意识和保护行动的欠缺。因而人工智能技术在档案资源管理方面的大规模应用尚需相关技术的加持，以保护用户隐私安全，实现档案服务的优质化。

3.4 伦理层面：人工智能伦理困境

人工智能的核心是算法，而人们也越发依赖算法形成的人工智能系统进行决策。但由于算法和系统必须依赖相关主体嵌入相应程序，甚至通过训练神经网络完成，因此相关主体的价值取向影响着人工智能系统的公正性与客观性。[30]当研发人员将其主观的偏见、好恶、歧视等思想带入人工智能系统，便可能产生伦理问题。如微软开发的聊天机器人Tay因吸收了种族主义歧视等有违伦理道德的信息，对社会产生了不良影响，使其上线24小时后便被终止。[31]而在档案资源开发过程中，同样存在潜在的伦理问题。利用人工智能对档案图像进行识别以及对视频档案资源进行标签化处理时，研究人员通过算法将黑人错误标记为黑猩猩或猿猴等案例都违背了伦理道德观。因此，算法引发的种族和性别歧视、社会公平正义等问题都是需要直面的伦理困境，这将是人工智能造福人类的重要阻碍。

4 人工智能在档案资源开发利用中的优化策略

由于人工智能在档案领域的应用面临着上述现实困境，因而可从技术、理念、信息素养和法律救济等方面入手，尽可能地避免社会问题、解决上述困境，并且从有助于档案资源开发利用的角度提出人工智能的优化策略。

4.1 关键技术聚焦

针对档案资源的复杂性和多样化，在开发应用于档案领域的智能语音以及OCR、人脸识别等技术时，应根据档案类型进行相应技术的聚焦。如：识别语言、文字的算法并非是通用的，而是根据不同档案内容进行相应大量算法学习使系统形成专门海量数据库，进而将语言或文字进行智能识别转化，达到档案利用便捷目的。2018年，国家档案局档案科学技术研究所与科大讯飞双方达成合作共识，聚焦人工智能在识别民国繁体文书类档案的应用中取得进展。[32]另外国外也有学者提出建立“全球语言档案馆”的设想，逐步开展利用人工智能聚焦不同种类语言的归档工作。目前虽然人工智能为档案工作带来机遇，但技术应用并非是任意选择的，因此面对档案资源类型多样的现实特征，人工智能需要相应的技术聚焦进行对应资源开发。

4.2 档案理念调整

关于档案理念的调整，首先，档案部门应树立以人为本、开放合作的理念。一方面档案工作者需改变以行政为导向的开发理念，应坚持技术是为大多数人服务的思想，理解技术应用的最终目的是发掘有研究价值的档案资源，传达档案中的精神内涵，尽可能满足不同群体的文化需求，而不是在行政单一导向基础上形成以技术为主导的盲目的档案实践研究；另一方面档案部门应开放包容，积极与相关技术部门合作，促进人工智能对档案资源的深入开发及对用户现实及潜在需求的挖掘，实现档案资源的人性化、个性化服务。其次，档案部门在注重社会效益的同时也应注重经济效益。目前我国档案资源的开发主要关注政治和社会效益，而忽略了经济效益，因此形成粗放式、低效率的开发模式，并在一定程度上造成了所投入的人力、物力和资金的浪费，技术应用也未实现预期效果。因此应注重档案开发利用的经济效益，使技术、人才等资源有效合理投入，实现档案价值最大化。

4.3 用户信息加密

人工智能的应用是海量数据的集聚与分析，数据搜集实现精准服务的同时，用户信息泄露也成常态。目前档案数字化平台的建设仍然存在用户个人信息泄露的隐患，因此为保障人工智能技术应用中档案利用者的信息安全，需要运用相应的技术对用户信息加密。如今，区块链广泛应用于各大行业，其非对称加密技术能够保障数据传输安全，一旦应用于档案领域，不仅能确保档案信息的传输安全，也能确保用户信息传输的安全。同时，其可追溯技术使平台既能记录用户的浏览痕迹并据此打造精准的用户画像，为利用者提供个性化的档案信息服务；且对相关的账户名称、IP地址、身份证号等隐私进行加密，确保数据不会泄露。因此，为了优化人工智能在档案资源开发利用中的应用，研发者可考虑加密技术的嵌入，构建更为安全可靠的平台，解决用户利用档案的隐私泄露风险问题。

4.4 信息素养与法律救济

研发者通过算法赋予人工智能读取、识别能力，而该技术本身几乎不具备自我判断、抉择能力，因此研究人员的价值取向和价值判断会影响人工智能的公正客观性。为解决技术算法的伦理问题，应从塑造研发人员正确的价值判断与价值选择着手。一方面应强化研发人员的信息素养。人工智能系统的开发涉及到多方主体，研发理念提出者、算法设计者、程序检测者等多类主体都需要接受信息素养的培训，能够秉承公正客观的想法进行系统设计、开发、运行、监督。另一方面，主管部门应开通法律救济途径，解决已经发生的伦理争端。当相应人群在系统使用中发现存在偏见和歧视，就能借助救济途经进行申诉，并得到及时回应、处理，进而对系统进行改善，避免类似的违背伦理道德的问题再次出现。总之，人工智能涉及到的伦理困境是必然面对也是必须解决的问题，需要多方主体协同解决。

5 结语

人工智能的出现与发展深刻影响了社会，同时也为档案资源开发利用带来机遇。相关技术的研发能够助力档案资源的数字化、文本化并实现资源的高效检索。但许多现实因素制约了其在档案领域的全面应用，而通过档案理念调整、用户信息加密、信息素养塑造等措施能够优化人工智能在档案资源开发利用的应用，期望档案更好实现价值最大化。需要注意的是人工智能技术利弊共存，技术变革存在风险，设备故障、数字环境缺失、数字信息泄露等问题不容忽视；同时智能设备出现道德伦理问题也是重要隐患。因此档案工作者和研究者对前沿技术应用前景期待的同时，也应以理性的态度对待技术在档案资源开发利用中的应用。