人工智能技术在档案工作中的应用实践与成功经验

2024-08-06 00:00:00陈蝶
档案天地 2024年2期

自 “人工智能”一词提出以来,人工智能经历三次浪潮逐步发展成熟,在医疗、教育、交通等众多领域应用中都取得了开创性进展,人工智能呈现出的深度学习、跨界融合、人机协同、群智开放、自主操控等新特征,为当今社会发展提供了新动能。在此背景下,《“十四五”全国档案事业发展规划》中着重强调要加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用,努力推动数字档案馆(室)建设优化升级 [1]。此外随着国内外馆藏档案数字化进程加快,手写识别、文档提取、数据关联等新兴技术在手写档案工作中发挥了重要作用,提高了手写档案字符转录的工作效率,节约了工作成本,同时极大程度上提高了档案工作服务的质量,满足了社会公众多方面需求。因此,顺应新时代发展的步伐,档案数智化战略转型势在必行。

近年来,人工智能技术的发展也引起了国内外众多档案学者的关注。国外研究中相关研究范围较广、研究程度较深,主要集中在传统理论创新[2]、档案开放鉴定[3]、敏感信息处理[4]、元数据[5]等方面,其中对于手写档案研究,则主要集中在手写识别[6]、单词发现[7]、笔迹分类[8]、文本行分割[9]等技术。国内研究中,学者们对于人工智能技术下手写档案研究较少,研究重心主要集中在档案智慧服务体系[10]、档案开发利用[11]、档案数据安全[12]等领域。总而言之,国内外研究在理论与技术应用中取得了较为突出的成就,但是在实践层面还不够完善,特别是对于手写档案中的人工智能技术深度运用仍有待探索。

梵蒂冈秘密档案馆的In Codice Ratio项目,针对梵蒂冈秘密档案馆的珍贵手写档案,通过传统理论技术与新兴AI技术的结合,逐步实现了手写档案的自动化转录。本文在分析该项目手写档案自动转录的基本思路、技术路径的基础上,学习其成功经验,以期为人工智能背景下我国档案工作发展提供些许参考。

一、In Codice Ratio项目手写档案转录的必要技术

正是基于梵蒂冈馆藏手写档案数字化工作进展缓慢,难以满足开发利用需求以及传统转录技术使用效果不佳,字符识别方式急需优化等背景,梵蒂冈秘密档案馆联合罗马特雷大学的人文和工程系进行跨学科合作,研发了In Codice Ratio项目,旨在为人文学者提供一个支持中世纪手稿自动转录的系统,以对大量历史资料进行数据驱动的研究。同时将人工智能、卷积神经网络、统计语言模型与手写文字识别技术相结合来转录文本,争取以最简便的手段努力完成梵蒂冈手写档案的转录,以期为相关学者、社会公众提供更方便、科学、高效的检索服务。因而本文以In Codice Ratio项目为研究对象,总结归纳出该项目成功的必要技术。这些信息技术不仅提升了此项目的工作效率,还为档案领域其他工作的开展提供了前所未有的发展空间。通过研究实践发现,In Codice Ratio项目组在手写档案数字化图像预处理技术、手写档案资源训练集采集技术、手写档案资源字符识别技术、手写档案资源字符转录技术等方面取得了突出成就,成功推动了项目的顺利进行,也为我国档案工作提供了成功经验。

(一)图像预处理技术:高效裁剪提取

In Codice Ratio项目的必不可少工作之一就是对手写档案原始输入图像进行预处理。为了确保后续工作的正常进行,每一页手稿图像都要经过一系列标准的预处理步骤,从而得到易辨别的单词图像。每个词的图像最后被提交给In Codice Ratio项目的转录系统。为了顺利得到可用图像,项目组应用了如下技术:一是利用不同算法进行文字裁剪。为了从输入图像中分离出含有文字的区域,需要搜索具有高轮廓密度的区域,因含有文字的区域通常显示出高亮度差异,而非文字区域则不显示。项目组首先通过高斯模糊法对输入图像进行平滑处理,然后通过大津算法进行二进制化处理,最后使用边界跟踪算法进行搜索。为了使二进制化图像更加稳健和准确,项目组还采用了局部阈值法,通过对已二进制化的图像像素进行计算、处理、细化,从而准确达到文字裁剪的目标。二是使用传统投影轮廓技术进行文本线条检测。经过研究,目前深度学习、卷积神经网络、关键点检测等方法都可以解决在文档中定位文本线条的问题。由于项目组目标手稿中的文本行数相当有规律,此项目采用传统投影轮廓技术,通过分析每行中黑色像素的数量来检测线条。同时,清除掉文本行之外的黑色像素,从而简化接下来的预处理步骤。三是通过凸包计算进行词的提取。项目组通过计算每条线所连接组件的凸包(即包含它的最小凸形)来提取单词。如果它们刚好重叠,一个词就需要至少一个或更多凸包才能进行识别、提取。四是进行字符切割点识别。与字符间距均匀的印刷文本不同,手写文本中往往没有明确的证据表明一个符号在哪里开始,另一个符号在哪里结束。正因为如此,在图像预处理过程中进行切割点识别是必备之举。通过识别字符切割点,既减少了字符可能的组合数量,也减少了字符排序错误的机会,在一定程度上降低了系统的工作量,提升其工作效率。

(二)训练集采集技术:众包平台合作

最先进的转录系统通常是使用人类注释者制作的整行转录集进行训练,通过反复训练进而提升转录系统的正确率。对于古老的手写档案而言,这往往需要古代语言和古文字学知识的专家参与进来。但是对于梵蒂冈秘密档案馆巨大的馆藏量来说,传统模式可行性较低。为了准确搜集训练样本,项目组采取了不同的方法建立训练集。一是采用基本切片分割技术进行字符剔除。在手写转录领域,人们普遍认为,在不知道其转写方式的情况下,没有先进的策略可以将一个词的图像分割成其字符成分。为了解决这一疑问,项目组利用切片分割技术进行了实验。具体实施情况如下:项目组通过计算编码图像矩阵每一列的墨水像素,并选择最重要的候选点,从而剔除所有小的、大的、错位的非字符片段,留下清晰明了的图像,从而为后续众包阶段工作奠定基础。二是应用众包平台进行样本采集。众包作为网络时代一种新兴的工作模式,指的是将工作以公开征集的方式外包给非特定的分布式网络大众来完成,具有效率高、大众化、经济化等优点。项目组开发了一个定制的众包平台,并在罗马市招收了120名高中生,他们的任务是负责匹配图像。具体而言是利用切片分割完成后的图像,当图像与给定样本相匹配,学生们就可标记图像上的复选框,相应的图像就会收到一张投票。最后,该图像被贴上投票最多的字符符号。如果没有出现明显的多数,那么图像就被贴上一个特殊的非字符类符号。通过这种方式,项目组能够较为轻易地收集大量的符号样本,并训练一个字符的识别模型,从而有利于训练样本的快速、准确、完整收集。

(三)字符识别技术:精确切割分类

通过字符识别,将手写档案转化为便于检索、复制、利用的电子档案,对于档案数字化相关工作具有重要意义。为了保障转录系统的正常运行,In Codice Ratio项目组采用了拼图式分割法以及深度卷积神经网络等技术确保字符识别的高效率、正确率。第一,采用拼图式分割法进行字符切割。项目组通过对输入文字图像的每个连接组件计算其上下轮廓,然后再分别计算上轮廓的局部最小值和下轮廓的局部最大值。进而将这两个函数与单词图像的列索引对齐,并将上轮廓的每个局部最小值与下轮廓最接近的局部最大值连接起来,以确定分割区域。通过拼图式分割法,可以有效减少视觉特征相同的“虚假字符”,进而提高字符分类器的精确度以及召回率。第二,基于深度卷积神经网络技术的字符分类器。该分类器是一个深度卷积神经网络,以56×56的单通道二值化图像作为输入对象,并通过卷积层等8个适应层传播,最后利用Softmax函数、损失函数进行字符真实性结果输出。与传统光学字符识别模型相比,该字符分类器可以处理潜在的、不正确的分割,并可以同时执行区分字符和非字符的二元分类、识别单个字符的多类分类等任务,在多类环境下有利于提高字符识别的准确性。

(四)字符转录技术:科学模型解码

In Codice Ratio项目组主要应用以下技术转录生成相应训练集字符。一是基于集束搜索算法的转录生成器。为了排除“虚假字符”问题,项目组将分类器中的干扰片段重新组合成一组候选转录。具体而言,项目组采用了定制的、深度优先的集束搜索算法,确保有效生成训练集每行中每个分段单词图像的最佳候选转录。此外,该项目组还使用统计语言模型为输入词图像选择最佳的n个候选转录。二是基于高阶隐马尔可夫模型的单词解码器。项目组在考虑前一步骤的n个候选转录的基础上,通过在高阶隐马尔可夫模型上对最可能的隐藏状态序列进行搜索,并解决特定解码问题,进而以原则性的方式修改字符识别决策,最终把合理的转录结果返回给用户。总之,项目组通过转录生成器以及单词解码器的设置,解决了训练字符隐藏的问题,成功将手写字符进行了转录,充分展现了此项目应用的高准确性、高精确性、强召回率。

截至目前,In Codice Ratio项目已成功形成了两个训练数据集,这不仅切实证明了In Codice Ratio项目的现实可行性,还充分满足了相关学者、社会公众的利用需求,为其提供了更方便、科学、高效的检索服务,为转录系统的下一步发展打下了坚实的基础。

二、In Codice Ratio项目对我国档案工作发展启示

(一)多元主体协同引领新发展

In Codice Ratio项目是社会各领域集体协作的典型,其合作主体主要包括来自梵蒂冈秘密档案馆的工作者,来自罗马大学与罗马第三大学的教授、专家、研究生、本科生等专家群体,以及由高中生组成的非专家群体。

首先,档案工作者提供充足资源,满足项目需求。梵蒂冈秘密档案馆的档案工作者给予了必不可少的鼓励与支持,正是在其大力支持下,In Codice Ratio项目有了更为丰富的资源,从而能更深入进行研究。该项目以其馆藏“梵蒂冈登记册”为主要实验对象,这些文件中包含了13世纪罗马教廷的官方信件,其中还包括有关梵蒂冈活动的历史文件,如报纸、教皇的政治信件、发布给全球各地的政治文件、教皇的账簿、重要活动记录、法律问题的权威意见等。这些文件由于其特殊的时代性,具有极其重要的研究价值,为此项目提供了不可或缺的资源支撑。其次,专家学者提供技术支撑,推动项目进行。教授、专家、学生作为In Codice Ratio项目建设的研究主体,通过技术支撑方式为该项目提供源动力。该研究团队中不仅包含相关技术专家,还包括古文字学家,在相互配合与协作之下,团队成功设计了一种基于卷积神经网络分类和统计语言模型的解决方案,开发了基于人工智能的识别转录系统,为项目的顺利进行奠定了技术基础。最后,非专家群体负责数据标记。为了确保系统的便利可用,In Codice Ratio项目提出了一个“无专家”的众包方法。该项目组将众包作为一种可扩展的训练数据收集手段,搭建了一个定制的众包平台,并雇佣了120名高中生来标记数据集,以期借助非专家群体来训练卷积神经网络字符分类器,从而实现准确的字符识别。

经过研究分析,In Codice Ratio项目建立了一个集合资源、技术、社会合作的工作机制,有效推动了项目的成功运作,也为我国档案工作开展提供了许多成功经验。一是档案主管部门大力支持,实现资源合作。任何项目的实施都需要充足的资源支持,而任何一个单独的档案机构数据都不能独立成为大数据[13],小数据集难以形成完整可靠的分析结果,因此国家档案局、各地方档案馆、其他档案机构需要打破地域壁垒,建立不受地域、部门限制,组织灵活方便的档案资源垂直共享平台,实现地区与地区、部门与部门之间的资源合作。二是学者专家共同推动,实现技术合作。努力建立由档案主管部门进行统筹协调,高等院校提供专业理论人才,科技企业提供专业技术支撑的分工合作机制,从传统的收集、存储、整理等服务向现代化的管理软件、电子化、智慧档案等方向进行摸索和转变,推动档案事业向科技性、创新性、共享性方向发展。三是加强众包理念宣传,吸引群众合作。公民是参与公共档案馆事业的重要社会力量来源,档案主管部门要主动出击,采取网络媒体、宣传栏、座谈会等线上线下多种方式加强与社会公众沟通交流,了解公民具体档案需求。此外,档案机构应主动开展档案众包项目,吸引社会公众加入,组织开放档案的编目、著录、编研、开发等专业性档案志愿服务活动[14]。

(二)技术运用推动工作创新

In Codice Ratio项目运用了一系列信息技术摆脱了传统手写识别系统转换准确率较低的窘境,也避免了因高成本、高复杂度而导致的系统运用“失控”状态,借用多种技术手段极大推动了相关工作的创新开展。一是实践技术创新。正如前文所述,In Codice Ratio项目通过人工智能、卷积神经网络、统计语言模型与手写文字识别等创新技术的使用,成功对手写档案数字化图像进行了预处理,并采集了相关训练集,最终完成了字符识别的任务,为后续工作打下了坚实的基础。同时,经过实验证明,该项目所研发的新技术与传统Tesseract OCR系统技术相比,准确率更高,能够获得更好的结果。二是工作模式创新。与传统的精英团队不同,In Codice Ratio项目采用有效的、可扩展的专家-非专家工作模式,通过众包的方法,让非专家群体参与项目,把专家从重复的任务中解脱出来,让他们去完善用低资源自动产生的结果,并解决最具挑战性的问题。同时,专家群体可以以远程监督的方式掌握工作进程,有利于提高工作效率以及工作安全度。

在档案工作中运用信息技术,不仅对现有工作环节具有改造作用,还会对未来工作引发新的思考。一是运用信息技术,创新工作环节。正是基于In Codice Ratio项目的成功经验,我国相关档案机构开展工作的过程中需要突破自身限制,通过新颖的信息技术使档案工作更加便利、利用方式更加多元化。如利用机器学习软件辅助档案鉴定工作、使用视觉模板匹配和自动分类技术进行档案检索,并努力做到精确查询结果以及运用软件工具筛选电子邮件中的机密、敏感信息等。这些信息技术的使用给档案工作者带来了极大的便利,也使档案工作实践发生了颠覆性的变化。二是加大相关立法,规范技术使用。人工智能技术固然能给档案工作带来极大的便利,但是在法律规范层面对人工智能技术的使用还存在较大争议。基于对个人隐私和数据安全的保护需求以及对法律责任承担的道德需求等问题,档案主管部门需要联合立法部门,对人工智能技术的运用进行详细规定,在《档案法》等法律文本中明确相应的法律责任,提高社会公众对其的信任度,在创新和风险控制之间找到平衡。

(三)跨学科合作面对新挑战

In Codice Ratio项目是档案学、古文字学与人工智能领域合作的产物,是三大学科专家的智慧结晶。具体而言,该项目以档案学科理论知识为导向,转录系统设计过程中始终坚持来源原则,细致对待梵蒂冈秘密档案馆中的珍贵手写档案,努力保证其真实性、完整性、安全性;以人工智能技术为根本,转录系统的成功运转离不开相关人工智能技术的支撑,这些技术构成了转录系统的必备框架。同时,通过技术合作成功采集、处理手写档案数据资源,增强了转录系统的整体性能;以古文字学、语言学为辅助,古文字学家、语言学家在转录系统设计前期运用专业知识对馆藏手写档案进行了梳理,成功识别、辨认清楚档案中的生僻、模糊字迹,为后续对大量历史资料进行数据驱动研究打下了坚实的基础。在多种学科的合作与支持下打破原有的边界,用跨学科的原理结合档案学科的要素创新,使手写档案转录系统初步研究规划成为可能,极大推动了不同学科之间知识的交流与共享,有利于激活馆藏档案服务效能。

从历史角度来看,档案学科本身就是一门跨领域学科,档案工作者本身就具备跨领域思维[15]。特别是大数据时代,随着互联网的快速发展,档案工作实践不仅仅是传统纸质档案的保管与利用,还出现了电子档案。因此为了确保档案事业的持续发展,我国档案主管部门可以借鉴In Codice Ratio项目成功经验,作出实际行动。一是加大合作,打造跨学科合作平台。计算机学与档案学有着千丝万缕的联系,两者之间的结合能够从根本上提升两个领域的认知,人工智能也可以为档案的保管与利用带来多样、有效的组织方式。因此,计算档案学的成立具有非凡意义。将以人工智能为代表的计算机科学与档案学科进行有机结合,通过跨学科知识的结合,能够为档案工作者开拓独特的视角。除此之外,建立一个由档案学科牵头,计算机学、历史学等学科为辅助,联合档案主管部门、档案机构、档案第三方企业共同打造的档案跨学科实验中心,为档案学的理论与实践发展提供强力平台支撑。二是加强培养,打造综合型人才。随着人工智能技术在档案领域的深入应用,档案工作者正经历一个从接收保管纸质档案到接收保管档案数据,从手工操作到信息化、智能化操作,从档案资源分散利用到网络共享档案资源的变革过程。档案工作者不仅需要掌握基础的档案理论知识,还需要对相关人工智能技术有一定了解。因而,档案主管部门及国家档案智库需要以大数据时代档案事业发展为导向,了解目前档案业务实际需求,培养档案基础理论与人工智能技术兼通的复合型人才。

三、结语

人工智能不仅是一种技术,更是一种思维,为档案工作带来了前所未有的机遇。文章梳理了In Codice Ratio项目的实验过程,了解了该项目的技术应用逻辑,并分析了其多元主体协同引领新发展、技术运用推动工作创新、跨学科合作面对新挑战的成功经验,据此提出了人工智能技术下我国档案事业未来探索策略。通过多主体合作、工作技术创新、培养理论与技术兼通的综合性人才等措施有助于推动人工智能技术在档案领域的应用,提升相关工作的效率,并能够助力档案工作的智慧化、科学化、现代化,实现其高质量发展。

参考文献:

[1]中华人民共和国国家档案局.中办国办印发《“十四五”全国档案事业发展规划》[EB/OL].(2021-06-09)[2023-03-08].https://www.saac.gov.cn/daj/yaow/202106/899650c1b1ec4c0e9ad3c2ca7310eca4.shtml.

[2] MOSS M,THOMAS D, GOLLINS T. The reconfiguration of the archive as data to be mined[J]. Archivaria,2018, 86: 118-151.

[3] MAKHLOUF SHABOU B,TIÈCHE J, KNAFOU J, et al. Algorithmic methods to explore the automation of the appraisal of structured and unstructured digital data[J]. Rec Manag J, 2020, 30(2): 175-200.

[4] SCHNEIDER J, ADAMS C, DEBAUCHE S, et al. Appraising, processing, and providing access to email in contemporary literary archives[J]. Arch Manuscr, 2019, 47(3): 305-326.

[5] BÜTTNER G. Auto-classification in an international organization: report from a feasibility study[J]. Comma, 2019, 2017(2): 15-26.

[6] ASSIS NETO F R, SANTOS C A S. Understanding crowdsourcing projects: a systematic review of tendencies, workflow, and quality management[J]. Inf Process Manag, 2018, 54(4): 490-506.

[7] ALMAZÁN J, GORDO A, FORNÉS A, et al. Word spotting and recognition with (下转47页)

(上接44页)embedded attributes[J]. IEEE Trans Pattern Anal Mach Intell, 2014, 36(12): 2552-2566.

[8] BULACU M, SCHOMAKER L. Automatic handwriting identification on medieval documents[C]. //14th International Conference on Image Analysis and Processing (ICIAP 2007). Modena, Italy. IEEE, 2007: 279-284.

[9] LIKFORMAN-SULEM L, ZAHOUR A, TACONET B. Text line segmentation of historical documents: a survey[J]. IJDAR, 2007, 9(2): 123-138.

[10] 李静. “人工智能+档案” 的医院档案智慧服务体系建设探究[J]. 黑龙江档案, 2023(1): 143-145.

[11] 郑慧, 刘思含. 人工智能与档案开发利用: 应用、愿景与进路[J]. 山西档案, 2022(5): 5-10, 28.

[12] 于英香, 李雨欣. “AI+档案” 应用的算法风险与治理路径探析[J]. 北京档案, 2021(10): 5-9.

[13] 程妍妍, 李剑锋, 孙筠. 新一代信息技术在档案工作中的运用及启示:以欧盟“时光机” 项目为例[J]. 浙江档案, 2022(4): 33-36.

[14] 邱燕. 档案事业公众参与的实践与探索[J]. 兰台世界, 2018(11): 114-116.

[15] 程妍妍, 宋莹, 郑伽. 国外档案工作与人工智能:潜力和挑战[J]. 中国档案, 2022(8): 78-80.

作者单位:上海大学文化遗产与信息管理学院