程妍妍 李剑锋 孙 筠/国防大学政治学院
“时光机”项目(Europe Time Machine)是欧盟耗资100万欧元,未来十年重点发展的六个旗舰研究项目之一,将为欧盟在全球技术竞赛中创造竞争优势。作为项目的主要发起方和参与方之一,档案机构不仅负责提供历史档案数据,也发挥提供领域知识模型、技术验证的作用。本文一方面研究该项目信息技术在档案工作中的应用,另一方面也探讨信息技术应用对档案工作带来的影响和启示,以期对我国档案工作在未来社会的定位和发展提供思路和借鉴。
2019年,欧盟“时光机”项目正式启动,该项目对加强欧洲的凝聚力、经济和社会发展产生强烈、长期和积极的影响,为促进各级决策层批判性思维形成、加强欧洲集体认同感以及提高科技竞争力作出突出贡献,并促进整个欧盟知识密集型和创意部门的创业和就业。项目目标是使用最先进的信息技术挖掘欧洲海量的文化遗产,创建一个合作性的数字信息系统,描绘欧洲经济、社会、文化和地理跨时代的演变,并向各领域提供免费的信息利用,支持未来科学和技术发展。项目应用大规模计算和数字化基础设施,从复杂的历史档案中抽取信息,如将中世纪的手稿和历史档案转化为可用的知识,并采用地理数据可视化和在线地图构建技术展现出欧洲发展历程。该项目指出,项目成果将是人类对历史和未来进行新的批判性思考的关键资源,能够进一步提升人类对历史的理解程度,“给历史增加新的维度”[1],能够为历史学家、政策制定者和公众提供新的见解,有助于从日常生活到学术、专业领域和政治事务的决策制定。项目参与方包括40多个城市的600多家机构,主要有提供数据资源的机构,如博物馆、档案馆、图书馆等,以及提供高新信息技术的企业等,其中参与的档案机构包括法国国家档案馆、日内瓦国家档案馆、巴黎档案馆、安特卫普市档案馆、克拉根福档案馆等。
“时光机”项目应用了一系列前沿信息技术,特别是基于医学断层扫描的档案数字化、机器学习为代表的人工智能技术等的深度应用,档案机构是信息技术应用最大的受益者之一,既提升了效率,也开拓了前所未有的想象空间。从“时光机”项目在欧盟各档案机构的应用实践来说,这些信息技术主要应用于档案资源数字化与识别、档案资源数据挖掘与关联、档案资源利用与呈现等。其中档案资源的数字化只是第一步,数字化之后必须进行文档的识别与转录、文档的组件提取、实体消歧义、知识组织与提取以及图像检索、增强/虚拟现实(AR/VR)呈现利用、地理数据整合等一系列工作。
“时光机”项目的重要工作之一就是对历史档案材料的数字化,从目前欧盟各国数字化进度来看,进展缓慢。如芬兰国家档案馆目前只有4%的档案材料进行数字化[2],按照目前的数字化速度,这项工作将需要200年,其他国家也不同程度的存在类似问题。因此,“时光机”项目的首要任务是应用新技术加速数字化,并处理数字化后的海量数据。该项目一是采用新型档案数字化技术。传统档案数字化工作采用扫描仪等设备完成,该项目可以在无需打开历史档案的情况下,对档案进行扫描识别。如项目参与者瑞士洛桑理工学院和威尼斯佛斯卡里大学合作研究一种类似于医学X射线断层扫描的数字化方法[3],该方法首先对历史档案的书写成分进行分析,历史档案的书写字迹主要使用铁和碳元素,使用X射线层析成像技术(X-ray tomography)对这些特殊成分进行扫描成像,从投影图像集中逐页提取信息,形成扫描图像。这种方法保护珍贵易损的历史档案,成本低速度快,有广阔应用前景。如威尼斯档案馆中有数十万封古老材料制成的遗嘱档案,传统扫描会损坏档案,应用该扫描技术有效防止风险;又如芬兰商业文件中心档案馆应用该技术对馆藏100年前的古老档案进行数字化。二是采用基于卷积神经网络和递归神经网络的深度学习方法对手写文本自动识别转录[4],如该项目对威尼斯国家档案馆数百万张数字化的18世纪财政文件进行自动识别转录。首先档案专家花了2年的时间用于图像注释,人工转录形成23000余张图像片段,这些图像中包含55000个威尼斯人名和地名,然后将带注释的数据集用来训练和测试深度学习体系结构,最终计算机自动转录研究搜索用例的性能水平大约是90%的字符正确率,与人工转录相比,计算机在这项转录任务中的表现优于人工。
“时光机”项目对历史档案数字化后形成大量图像文档,将这些数字化图像转换为结构化、链接关系的数据并不简单,需要采用一系列方法。在这方面,该项目主要应用了以下技术:一是文档组件提取分割技术。项目参与者瑞士洛桑理工学院的数字人文实验室开发名为dhSegment文档分割通用深度学习框架[5]用于历史档案处理,依靠卷积神经网络预测像素特征,提供图像处理操作自动提取文档组件,如文档框、多边形、线条、蒙版等。二是稀疏历史数据关联技术[6]。项目重点研究了人物实体记录链接系统,将多个涉及同一人物实体的多个历史文档相互关联。在这个过程中,需要进行实体消歧义、实体链接、识别人物实体、聚合实体的多源信息等工作,最后重建关于该实体的文档网络。如当档案馆的多份档案中涉及到同一个人物实体时,可以将这个人视为是网络中的一个节点,当同一个文档中存在多个人物实体时,可以视为这些人物实体之间存在关联,通过分析这种关联,网络节点不断增多,开始成长为一个巨大的网络,就像科学家从 Facebook 或 Twitter 数据中绘制社交网络一样。这个网络可以帮助历史学家发现大量隐藏在档案信息中的人物实体的关系、生活细节以及社会地位等信息。又如该项目在芬兰国家档案馆开展的WarSampo子项目,为86万用户提供有关二战历史的开放数据服务。该项目使用关联数据技术从多样化数据源中将已故军人实体和其所在的作战区域、军事单位、作战事件等数据进行关联,可以自动重组二战军人的生活故事。数据源包括美国国家档案馆中约26000份原始战争日记、与日记相关的约10000个军事单位的活动信息、数千篇关于战争回忆录的杂志文章、16万张真实照片档案等。用户既可以寻找在战争中已故军人的信息,也可以在历史地图中浏览和该名军人相关的作战区域、军事单位等相关信息。三是元知识编码技术。历史知识从根本上是不确定的,对历史事件的特定描述通常是基于一系列的来源和基于这些来源的一系列解释和推理形成的。项目采用语义网络技术对历史知识进行编码,同时详细记录将历史来源与给定编码关联起来的知识序列。
该项目提供图像检索和地理信息时间线展示等各类利用方式。一是历史照片档案检索利用技术[7]。照片档案是社会历史的快照,是人类视觉记忆的宝库,构成了价值无法估量的文化资产。档案机构的主要任务是保护这些文化资产并将其传播。照片档案传统检索方式是对照片著录信息进行检索,检索效果有限。利用“时光机”项目,第一创建新工具,帮助档案工作者完成新照片数据的分类、注释和索引任务;第二应用人工智能,提出在照片档案检索中将搜索范式从基于关键字转向基于语义。如该项目对威尼斯Cini基金会约100万张照片档案(1300—1900年)进行数字化并创建专用检索工具,使用卷积神经网络(CNN)深度学习方法,将图像数据库的每一幅画与1000个特征相关联,这些特征代表能够对应经过训练的卷积神经网络的卷积层。每幅画与高维空间中的一个点相关联,当一个图像查询被发送到搜索引擎时,按照它们与查询的距离进行结果排序。在检索出相似结果时,再采用代数公式运算精确图像查询结果。又如巴塞罗那自治大学计算机视觉中心参与的深度档案馆(Deep Archive)子项目,该项目关注历史照片档案的识别与检索。照片档案中人们的服饰、发型、生活环境、使用的工具甚至自然风光等,都能揭示照片档案的语义特征和照片之间的关联,能够推断照片的形成时间,或是揭示照片内容所反映的地点,从而利用人工智能技术将同一时间或地点的照片进行聚类,形成语义网络,供高级搜索或可视化工具访问。二是地图数据时间线动态展现技术。在“时光机”项目中,有专门做地图业务的商业公司,通过从历史档案中提取地理信息,结合地图技术进行展现。如MapTiler公司制作的动态地图模拟显示了标志性的威尼斯里亚托桥如何在盐沼中建造,以及该地区定期被火灾破坏和随后的重建过程。该公司地图产品还包括威尼斯地图,能够将威尼斯历史通过时间线的方式动态展现。地理数据由时间戳标记,标明建筑的开始日期和持续日期。地图旁边有时间线,用户可以将该地图和现代地图、卫星地图或扫描的历史档案地图进行比较。数据可以以3D形式提供利用,包括选择建筑物的名称、时间段和其他信息。
寻求和高新技术的结合是档案工作焕发生命力的关键。传统的社会认知,档案工作和其他文化遗产行业一样,是一门单纯消耗性的工作,而信息技术的应用挖掘出了档案资源的含金量,使其真正成为一种有价值的资产,也为档案工作服务社会提供了新的增长空间,档案工作为社会服务的重要性更加凸显。档案资源这种新的资产将成为一种社会经济加速器,推动教育、政府决策制定、智能旅游、智慧城市、环境建模等新兴领域的服务和产品发展。如教育方面,“时光机”项目在威尼斯档案馆重点发展威尼斯4D模型,将城市地图信息关联历史档案数据,在威尼斯部分大学的学士和硕士课程已经使用了项目成果用于教学和科研;城市建设方面,法国古斯塔夫·埃菲尔大学资助和支持的“档案城市”项目,提出利用城市建设档案的新方法,通过整合城市历史档案,规划未来城市建设,项目成果不仅为研究人员、历史学家和档案工作者使用,还被当地政府政策制定者、城市运营商以及渴望参与城市建设的普通市民利用;疫情防控方面,该项目和瑞士洛桑理工学院的流行病学专家合作,通过对威尼斯档案馆中的人口病例档案和死亡档案进行数据挖掘和关联,通过研究17世纪中叶瘟疫蔓延导致威尼斯三分之一人口死亡的原因,结合现代的疫情数据,对现代流行性疾病的预防和防控研究提供分析和支持;科学研究方面,该项目为科学研究的各个分支提供了支持,如伦敦政治经济学院专家指出“传统经济学的理论缺乏足够的数据支撑,欧洲金融档案馆存有大量的银行历史交易档案,这些档案有助于改变我们对金融市场运作方式的理解,传统的档案馆利用,我每天只可能查阅利用三份档案,但是‘时光机’项目将彻底改变游戏规则,通过对普通人员的交易档案的关联处理,我们可以得到更多数据,从而得出经济学正确有依据的结论”[8]。
“时光机”项目是欧盟各国集体攻关、跨界合作的典型,各国、各行业、各领域都是其受益者。该项目初期在威尼斯档案馆中进行先驱性实验和验证,进而由点至面扩展到整个欧盟的文化遗产机构,并计划将所有参与机构的信息资源链接成网,形成欧盟下一代旗舰项目之一。“时光机”项目联合了来自科学、技术和文化遗产的杰出专家和主要机构,会员类型分为个人会员和机构会员,合作方式灵活多样,包括以下三种。第一,本地“时光机”项目。机构如果正在进行或已经完成了一个旨在挖掘和可视化历史档案数据的项目都可以注册为本地“时光机”,一旦注册,有以下几方面优势。一是可以在“时光机”项目网站享有独立的主页空间发布项目成果,加强本地项目在整个欧盟知名度,获取更多的支持和合作的可能性;二是可分享本地项目经验、工具、知识和最佳实践;三是“时光机”项目会提供代码库、辅助开发等工具,加快本地项目档案资源的开发和挖掘。可以看出,一旦注册为本地“时光机”项目,这种合作方式是双向和相互促进的。第二,项目支持服务。对于一些缺乏经费或技术支持的机构,“时光机”项目提供资助机会、寻求合作伙伴或项目联盟,档案机构可以获得资金来源和技术,获得更大的创新成就。第三,通过参与征求意见流程共同设计“时光机”项目的技术框架。为确保项目技术选择达成共识,便于开放开发和评估,建立请求评议(Request For Comments,简称RFC)维护组,任何人都可以编写RFC,并遵循一定的规则提交,RFC编辑会指导编写和进行规范。从该项目的合作机制来看,实现了资源合作、经验合作和技术合作,因此,档案工作者需要具备合作性的思维。一是档案行业要打破行业内和行业间的壁垒,实现数据合作。因为对历史知识的挖掘需要大数据集,任何一家档案机构的数据都不能独立成为大数据,小数据集难以形成可靠完整的分析来源和产生可信的分析结果。二是技术经验合作。信息技术在档案机构的应用需要经历技术的实验、试用和验证,机构的经验共享,一家用,各家学,能够有力地加快技术应用发展速度。最佳实践路径是从国家层面发起类似“时光机”项目,如由我国电子文件管理部际联席会议发起,企业、档案机构、图书馆等文化遗产机构、高等院校等共同合作完成,形成大规模技术攻关团队,形成集体经验和智慧,加快技术成熟的周期。
信息技术应用于档案工作,除对现有工作环节进行升级改造以外,也会启发新的思考。一是对档案工作传统理论的影响。在“时光机”项目发起的“前言:21世纪的私人和公共档案馆(2022年)”“档案中新的数字指数技术创新(2021年)”“档案和知识社会(2020年)”等研讨会中,来自档案机构和国际档案理事会的专家代表深入讨论信息技术对档案来源、全宗、档案背景等传统理论的影响,认为传统档案管理理论在信息社会中存在局限性,但也可以在数字世界中找到新的生命,与其争论传统档案理论在信息技术背景下的存活问题,不如用信息技术理念来解读传统的档案管理理论。二是对档案工作实践的影响。“时光机”项目使档案馆突破了自身机构的限制,使档案馆能够直接连接到数字人文等新社区。信息技术也让档案机构从传统的历史馆藏中产生了新的见解,通过新颖的检索形式和检索系统使档案利用多元化。如在关联数据技术的视角下,档案的检索利用发生明显变化。传统档案检索依赖于档案的原始整理顺序和档案的来源,但是当不同全宗、不同案卷的档案通过内容关联数据链接到一起,原始的整理顺序和来源成为多种档案利用方式之一。正如档案学者Yeo[9]指出的,文件内容的逻辑关系超过了文件自身的背景关系,并且文件在更广阔的背景下产生了更多的关联。在新的视角下,文件会和除其形成机构之外的其他机构产生更多的关系。因此,档案的检索利用可能会更多的转向内容驱动的方法,和传统按来源为主的检索方法一起,形成互补的模式。又如档案的著录工作,技术的深度应用可以自动提取文档内容的重要实体和形成知识图谱,基于卷积运算的神经网络系统技术可以自动识别图像档案中的人物、事件等,那么传统的档案著录环节是否可以取消或者简化?因此,技术应用可能会导致传统档案业务流程中底层建构的理论和实践发生颠覆性变化。
信息技术在档案管理中的深层次应用,这一发展将对未来档案人员的能力素质产生巨大的影响。“时光机”项目绝不是单纯的技术应用,即使是最先进的人工智能技术,也依赖于档案工作者对档案知识的深度了解。如“时光机”项目就需要大量的档案学者对训练集中的档案信息进行注释,为深度学习提供背景信息,而在识别用特定文字和代码书写的档案材料时,单纯的技术是无法完成的,需要档案工作者的深度参与,提供专业知识。因此,“时光机”项目是技术和档案人员的结合,缺一不可。从这点上说,未来档案工作人员仅会收集和存储信息是不够的,只有具备对档案资源访问、使用和解释的能力才能适应时代对档案人员的高要求,才能将数据转化为洞察力,并将存储转化为记忆,从历史记忆的守护者变成历史记忆的守护和解释者。即使是发展到人工智能社会,技术和档案工作人员相互之间也并非处于相互取代的关系,档案工作者应当学会研究技术、应用技术,利用人类的优势弥补技术的弱点,开阔视野,积极和社会科学、复杂系统等跨领域合作,培养时代的档案工作新思维新能力。