孙振嘉 汪 泽 邓 君
数字人文(Digital Humanities)可以追溯到20世纪中期的人文计算,而人文计算则公认源于Busa教父为Thomas Aquinas作品编制词汇索引[1]190。从21世纪开始,数字化技术、数据挖掘技术等的应用推动了数字人文研究的进一步发展,更是推动了历史、艺术、考古等诸多人文社科类学科不断尝试使用新的技术和理念,以实现学科的新发展,档案学领域也应势而为。
近年来,档案领域数字人文研究成果不断增加,冯惠玲等专家学者更是将其作为“十四五”档案学重点研究领域之一[2]74。作为档案的重要组成部分,历史档案资源是历史事件的有机统一体,也是国家与民族发展的见证。数字人文视域下,如何有效利用数字技术对数量巨大、内容庞杂多样的历史档案资源进行细粒度组织,实现历史档案资源有效组织与管理,是目前档案学者需要解决的问题之一。有关这一问题的研究,有助于推动人文学者对历史档案资源的深度开发与利用,从而更好地实现该类档案资源见证过去、服务现在和启迪未来的重要作用。
因此,本文以五四运动这一历史档案资源为研究对象,立足数字人文视角,应用CIDOC-CRM本体模型,尝试用层次化方式,以历史事件为中心对其进行知识组织研究,以较为全面有效地展现历史事件的原本面貌及其相关要素间的关联,为历史档案资源开发利用提供新的思路,实现历史档案资源的“活化”。
随着数字技术的更新迭代,数字人文研究的不断深入,引起了档案领域专家学者的重点关注,数字档案和历史档案是数字人文研究的对象与热点之一[3]1。档案是较早与数字人文交融的学科,其研究主题主要体现在两者关系探究、档案数字人文项目、面向数字人文的档案资源开发利用等方面。两者关系研究方面,左娜、张卫东从学科建设角度,由“跟风论”的观点出发,梳理了数字人文与档案学研究之间的逻辑关系[4]94;龙家庆等立足数字人文背景,分析其对档案工作思维方式、技术工具、业务流程和研究思路及议题的影响[5]4;牛力等从档案工作角度总结了档案参与数字人文建设的五种模式[6]62。在档案数字人文项目方面,有学者通过对美国马里兰州档案馆奴隶制文化遗产项目[7]21、“欧洲时光机”项目[8]10等进行分析,为国内开展档案数字人文实践提供了借鉴;国内也涌现出了一部分以“北京记忆”项目[9]、“数字敦煌”项目[10]等为代表的中国特色的数字人文项目。不仅如此,学者们还聚焦档案资源的组织、开发利用,探讨其理论与路径,如贾琼等提出从元数据描述、元数据—本体映射、RDF数据发布、语义聚合与访问层面实现档案资源聚合与组织[11]105;牛力等提出了数字人文下档案资源“发现”“重构”和“故事化”为主线的档案研究路径[12]88。而在具体档案资源开发利用方面,学者们借助数据库、文本挖掘、可视化、语义检索等数字技术和工具,以案例分析的方式,对抗战档案资源[13]111、传统家谱档案资源[14]72、清代职官档案资源[15]18、侨批档案资源[16]83等进行了研究,很大程度上为数字档案和历史档案“变藏为用”提供了借鉴。
在历史档案开发的诸多成果中,部分学者们应用本体方法对多样的历史档案开展了知识组织与关联研究。例如,邓君等结合口述历史档案资源特征,构建了口述历史档案资源领域本体,检验了本体实现口述历史档案信息组织关联的可行性和实用性[17]58。Koho等利用本体方法,重建了整个WarSampo知识图(KG),对有关第二次世界大战的异构芬兰历史资源进行知识描述和组织[18]265。除此之外,还有部分专家借助本体方法在档案著录[19]100、档案编研[20]138、档案知识库构建[21]51等方面也取得了重要成果,为档案科研及智慧档案管理的实践赋能。FOAF[22]、SEM[23]128、RiC-CM(即档案情境信息概念模型)[24]49、CIDOC-CRM[25]等一系列通用本体模型吸引学者广泛探讨。其中CIDOC-CRM这一模型的应用主要集中于文化遗产、考古学等领域,学者们不仅立足于宏观视角,将该模型应用于博物馆文物数字化元数据规范[26]131、数字时代考古资源组织共享[27]1等,还结合该模型特点对民族传统节日[28]、宗教建筑遗产信息[29]、第一次世界大战史料[30]、先秦人物史料[31]、近代人物史料[32]35等微观具体领域资源进行知识组织研究。
综上所述,人文学者立足数字人文背景,利用相关技术工具,对数字档案和历史档案展开了丰富的研究。虽然本体方法在历史档案资源相关研究中获得学者青睐,但在文化遗产和考古等领域中表现突出的CIDOC-CRM本体模型直接用于历史档案资源知识组织的探索略显不足。因此,本文利用CIDOC-CRM本体模型,以五四运动相关档案资源为例构建历史档案资源本体模型,并以实例可视化方式进行展示和验证,尝试以事件为基础的方式对历史档案资源进行语义层面的细粒度知识组织。
1.本体。本体一词本是哲学子领域的一个名词,属于形而上学的一个分支,其注重识别现实存在事物的类别,并对它们进行描述。后来随着计算机等技术的发展,其被引入到科学研究的诸多领域,并被赋予了有别于原始含义的具体技术意义。Studer等学者对本体进行深入研究后,对其概念进行了总结,即本体是共享概念模型明确的形式化规范说明[33]161。本体通过定义类、属性等要素赋予数据语义关系,对相应知识集合实现细粒度的描述与归纳[34]36。因此,借助此方法,选用应用较为广泛、重用和共享价值较高的本体模型,可以更好地进行历史档案资源的知识组织研究。
2.CIDOC-CRM本体模型。CIDOC-CRM是国际文献委员会(CIDOC)通过十多年标准开发工作而构建的概念参考模型,它旨在实现各种异构文化遗产知识、信息资源的交互与集成[25]。目前,于2021年5月发布了最新版Version 7.1.1(见图1),该版本定义了81个类、160个属性。CIDOC-CRM定义了E2 Temporal Entity、E52 Time-Span、E53 Place、E54 Dimension、E59 Primi tive等7个核心类。
图1 CIDOC-CRM概念模型结构图
CIDOC-CRM本体包含的类与属性虽呈现出复杂、多样的特点,但依靠明确的逻辑语义能更好地实现对知识对象的表达。这也使其呈现出了一些简单本体无法具备的优势。
(1)较细致的规范性。CIDOC-CRM中类(Class)用“E+数字”形式表示,如E1 CRM Entity表示“CRM实体”、E5 Event表示“事件”;属性(Property)用“P+数字”形式进行标识,用于连接属性两端的两个类,前者称为“域”,后者称为“范围”,如E1 CRM Entity.P2 has type:E55 Type表示“CRM实体的类型为……”CIDOC-CRM通过规范化方式,可以从时空、地理、政治等多个角度,充分展现历史活动起源、演变的过程,从而实现对单一复杂历史事件档案信息资源的动态描述。
(2)极强的可扩展性。CIDOC-CRM的可扩展性是其能够处理跨领域、异构信息资源的重要因素之一。这也意味着,该特点能够更好地迎合利用者的需求或跟进时代发展的新侧重点去新增一些类或属性,如此就能更好地保证对历史档案资源的有效描述和组织[35]40。
(3)较好的针对性。CIDOC-CRM预期使用范围覆盖了用于交换和整合博物馆藏品的异构科学文献所需的所有信息,广泛应用于文化遗产领域,可以更好地对历史事件档案资源展开组织、描述。
综上,从CIDOC-CRM的特点可知,该模型中与事件相关的类含义十分广泛,包含了出生、死亡、迁移等一系列的事件,这也决定了其能从事件角度去实现历史档案资源知识组织的特性。复用该本体对历史事件档案资源进行语义化描述和组织,可以有效地、深层次地展现历史事件整体面貌,进一步实现对历史档案的细粒度组织和管理。
1.五四运动历史档案资源。五四运动又称“五四风雷”,是典型的、参与主体广泛、形式多样的复杂历史事件。五四运动档案资源是包含其“导火线”“运动扩展”等所有具有直接关系历史事件的档案资源在内的档案集合。首先,该事件档案资源具有显著的连续性、层次化特征,其包含了五四运动“爆发”“发展”“高潮”到“结束”的各个子过程。其次,该事件档案资源具有多样性的特点。从来源来看,主要有当时报刊档案、亲历者的口述和评议形成的档案、已保存的馆藏档案三类[36]40。这一特点也使得人文学者可以从不同的侧面了解整个历史事件的情况。从档案形式来看,主要分为文字类、视频照片类、画作类三种,其中以文字类档案居多。另外,这部分档案资源还具有一定分散性和异构性。由于五四运动影响范围广泛,许多地方机构都有相关的档案资源,之后更是有部分革命家、学者等群体对其进行过回忆性的描述,这些档案资源依据不同的分类标准和规则分别存储在当地的档案馆、图书馆或博物馆。
由此可见,五四运动历史档案资源特点与CIDOC-CRM本体模型功能性特征十分契合,利用本体方法复用CIDOC-CRM模型可以实现部分资源语义化组织和描述,有助于日后对该类资源的开发和利用、开展智能化档案服务。
2.五四运动历史档案资源本体核心类及属性构建。为清晰呈现五四运动事件概况,笔者基于CIDOC-CRM模型,结合该事件及相关档案资源特点定义了7个核心类(表1,见下页),从人、时、地、物等多维层面确切反映该历史事件的状态及过程。
表1 五四运动历史档案资源本体核心类及其说明
事件属性(E5 Event),是指在特定的时空条件下,历史主体实施的具有持续性或时空跨度相对较大的行为,即用于表示较为复杂的历史事件类。该类所表征的历史事件主要是在宏观把握历史脉络时不可或缺的历史“节点”,在本文研究中特指五四运动这一实例。
活动属性(E7 Activity),特指历史人物或组织在一定时空条件下发生的一个短暂性的或持续时间相对较短的行为,可以将其视为表征较为简单的历史事件的类。而这些简单事件是构成五四运动史实的基本单元,其相关档案更是开展该事件历史研究的重要语料,是实现复杂历史事件档案资源组织和描述的核心。五四运动历史档案资源从北洋政府、亲历人员等不同角度反映了学生罢课、商人罢市、工人罢工、政府镇压等活动的事实情况,如北京学生集体罢课、上海工人罢市、北洋军阀政府逮捕游行学生等。
时间属性(E52 Time-Span),是事件属性和活动属性的基本特征。利用该属性,可以实现对各个活动的顺序串联,以展现整个历史事件的演变过程,实现对档案资源的有序组织。当然,该属性可通过特定时间点或时间段与资源对象中的大小事件实现对应。例如,五四当日北京学生天安门游行(1919年5月4日下午1时)、大规模罢工(1919年6月6-8日)。
地点属性(E53 Place),即事件参与者在执行某一活动时所处的空间地理位置或空间范围。就历史研究来说,对其时空信息的研究极为重要。例如,在对五四运动相关档案的研究中发现,各地曾发起过声援北京学生运动的爱国活动。比如,辽宁学生群体开展响应活动,奉天(今沈阳市)当局对进步思想和学生运动进行镇压与防范;阎锡山当局对山西两次学生运动进行压制与约束。借助特定的空间范围和五四运动期间相关史实,可以有效推知不同地点当局政府对相关爱国活动的情感态度[37]21。
参与者属性(E39 Actor),即在一定时空条件下,某一行为的发出者、某一活动的实施主体。在历史事件中,其发起者可为单一个体或一个团体组织,也可为多个个体或多个组织。由于个体和组织存有不同的特点,笔者对二者予以区分,在参与者属性之下复用了人物(E21 Person)和组织(E74 Group)两个概念属性,作为其子属性。实施主体的实例分别添加于相应的子属性之下,这也为实现个体与一些组织的关联奠定了基础。五四运动中人物属性的实例包括蔡元培、梁启超、陈独秀、罗家伦、林长民等,组织属性的实例包含北洋军阀政府、京师检察厅、上海学生联合会、新潮社等。
佐证材料属性(E31 Document),即资源对象所涉及的文本、图像、视频等记录,用于证明活动的真实情况。同时该类相关的实例是开展知识组织研究的重要基础,是还原历史、研究历史的重要基础。例如,1919年5月22日《申报》7版《京学界重行罢课》对当时学生运动的报道,即在5月4日以后,学生罢课的活动仍在酝酿之中,并且进一步呈现扩大的趋势。
类型属性(E55 Type),用于表征事件或者档案资源的类型,其实例是活动属性和佐证材料属性的实例与其所属范畴、类型的集合。从资源对象来看,其事件类型主要有活动谋划、示威游行、请愿、罢课、罢工、罢市、暴力对抗政府、政府镇压等多种形式;其佐证材料类型主要包括亲历者口述和评议形成档案、所存档案(其中包括政府所存文字类档案、照片视频类档案)、报刊报道档案三类。
为清晰明辨复杂事件的体系结构以及简单事件相关要素之间的语义关系,笔者同时复用CIDOC-CRM模型的部分关系属性,构建特定活动与相关要素之间的对应关系,见表2。
表2 五四运动历史档案资源本体关系属性及其说明
根据上述类和关系属性构建五四运动历史档案资源本体(见图2),以实现相关事件单元和档案资源组织可视化,为同类历史事件档案资源开发利用提供参考。图2中,实线用于表示“上位类”和“下位类”间的层次关系,虚线则用于表示“类”之间的关联(即关系属性)。
图2 五四运动历史档案资源本体模型
3.五四运动史料资源本体模型实例可视化。资源对象的实例化是为用户提供语义化检索服务的重要基础,而可视化是为了让用户以更为直观的方式了解信息检索结果。根据前文构建的框架模型,本文以北京市档案馆2019年国家重点档案保护与开发项目成果《五四运动档案史料选编》[38]、湖南省青苹果数据中心华文报刊文献数据库[39]为数据源,利用Protege进行实例添加,如图3。
图3 五四运动历史档案资源本体实例可视化
鉴于五四运动中涉及的参与者、佐证史料数量众多,内容较为复杂,考虑到用户多层次性、需求的多样性,为方便知识利用者直观获取相关资源,笔者利用Protege软件的comment属性为相应的概念属性和实例添加注释。在E31佐证材料、E21人物类下的各实例中,以注释方式分别添加了档案材料内容和参与人信息等相关内容,如图4、图5。人文学者通过阅读注释起到与阅读档案原材料一样的效果,也可借助具体事件与实例之间的关联,结合注释内容,更好地深入了解当时的历史环境。当然,也能为相关档案资源的进一步开发利用做好数据准备。
图4 佐证材料实例具体内容注释
图5 人物实例基本情况注释
为进一步验证该本体模型的可行性和实用性,笔者以“火烧赵家楼痛打章宗祥”为检索词进行知识查询,检索结果见图6。实线表示类与实例之间的关系,虚线则用于表示各个类的实例之间的关联。
图6 按照单一简单事件检索结果可视化
结合图6,可以得出“火烧赵家楼痛打章宗祥”这一事件的语义信息:“火烧赵家楼痛打章宗祥”是五四运动中暴力对抗政府的事件,发生于1919年5月4日下午,地点在北京赵家楼,傅斯年、段锡朋、匡互生、邓中夏、章宗祥为主要参与人,此事件也直接推动了“政府逮捕学生,镇压学生运动”事件的发生,而《章宗祥伤势诊断书》《京师地方审判厅讯问保安队排长何文贵的笔录》《赵惠全关于章宗祥被打情形的报告》等佐证材料反映了事件的实际情况。就可视化结果表达的信息而言,除了能了解到该事件的一些基本要素外,还可以看出该事件的佐证材料涉及了京师审判厅、医院、京师检查厅和京师警察厅等多个档案形成者。可见,该事件在当时社会环境下引发了强烈轰动。另外,该结果中所表达的事件间的推动关系,更容易让用户从横向的角度去动态感知历史事件的发展趋势。
由上述实例可视化检验结果可知,本文基于CIDOC-CRM构建的本体模型可以实现对历史档案资源的知识描述和知识组织,也实现了计算机对数据间语义关系的理解。该过程能围绕单一复杂历史事件进行相关档案资源的知识聚类,为用户检索的关联性、准确性提供了有力支撑。当然,结合特定的历史事件档案的特征及所构建模型的可扩展性,新增相应的类(Class)及关系属性(Property),有助于满足用户多样化需求,也能更好地推动相关研究人员对资源对象的深层次挖掘和开发。
数字人文浪潮下,信息数量以爆炸式速度增长,庞大的数据量与用户想要快捷准确获取知识资源的需求之间的矛盾日益凸显。在档案资源的开发和利用中也面临同样的问题,而知识组织是实现档案资源结构化、档案检索便捷化、检索结果准确化、档案服务智能化的重要方法之一。通过利用本体等研究方法为档案资源建立语义层面上的关联,对档案资源的细粒度、层次化管理和高效开发利用大有裨益。
本文通过复用CIDOC-CRM概念模型构建五四运动历史档案资源本体,将所涉的知识单元以“事件”为中心进行结构化、语义化组织,揭示了主体要素、时间要素、空间要素、信息资源要素与特定事件的关联,借由这些相关关系可以从不同角度去定位用户所需信息,对知识对象整体和检索结果以可视化方式呈现。
本研究构建的五四运动历史档案资源本体是充分发挥CIDOC-CRM概念模型在历史事件描述方面的功能性特征,实现相关历史档案资源知识描述与组织的一次有益尝试。笔者认为,未来数字人文视域下,历史档案资源知识组织研究可以从以下四个方面推进:一是结合典型的通用语义模型、元数据模型,抽取其中的部分属性,来进一步丰富对历史档案知识单元的语义化描述和组织;二是结合知识图谱、关联数据技术方法,深入挖掘历史档案资源,更全面地呈现历史事件发展演变过程;三是综合现有知识资源,利用数据库和网络技术,构建面向历史事件知识的GLAM(美术馆、图书馆、档案馆、博物馆)融合数据平台;四是利用语义分析技术,结合统计学、计量学的学科理论与方法,依据历史事件间的关联节点数量、档案资料涉及某事件频次等的不同赋予相应权重,用定量的方法去衡量一个历史事件的重要性或影响力,以更好地抓住复杂历史事件的重要转折点,为人文学者借助历史档案开展历史研究赋以羽翼。