(中山大学档案馆 广州 510275)
数字人文(Digital Humanities)一词由Unsworth等人在《数字人文指南》(A Companion to Digital Humanities)中提出,起源于二十世纪中期的人文计算[1],是传统人文领域与数字技术的交汇融合,是计算机科学、知识管理和一系列人文学科的交叉领域[2]。关于数字人文的概念界定,学界虽尚未达成共识,但其内涵是计算机技术与人文学科的双向融合[3]。数字人文是“充分运用计算机技术开展的合作性、跨学科的研究、教学与出版的新型学术模式和组织形式”[4],受到人文和计算机科学领域的广泛关注[5]。国际上已成立两百多个数字人文研究中心,涌现出威尼斯时光机、影谷项目、记忆宫殿等具有代表性的数字人文项目。
数字人文的兴起对传统人文研究的思维方式带来挑战和影响,推动人文研究方法、模式和工具的创新,高校档案管理工作也面临着深刻变革。顺应趋势积极应变,基于信息技术探寻档案管理工作改革路径成为国内高校档案馆发展的共识[6][7]。我国高校目前普遍进入信息化建设高峰期,基于高校层面的信息化统筹,各职能部门业务系统进入快速搭建与逐步完善阶段[8]。学校人才培养、科学研究、行政管理、社会服务等职能部门在其业务系统中形成的呈级数增长的电子文件已成为高校档案馆原生性电子资源的主要来源[9]。“存量数字化、增量数据化、利用网络化”的数字档案馆建设,丰富了档案馆数据资源馆藏,同时为数字人文研究提供了关键资源[10]。然而,仅以档案原貌呈现的传统的档案利用方式已不能满足数字人文影响下用户的个性化利用需求,需要拓展与创新档案资源的整理与开发路径[11]。针对新思维模式下的档案利用需求和数字记忆需求[12],为了有效地开发和利用高校档案馆藏资源及其元数据记录,提出档案时空本体模型及档案数据抽取框架,从档案数据资源中构建学生学习与发展领域的档案时空本体及其关联知识图谱,充分利用丰富的馆藏档案资源,以可视化的形式展现珍贵的数字校园记忆,实现档案资源增值。
近年来,档案学界逐渐呈现出数字人文研究的热潮,截止2020年1月22日,在CNKI中国知网中,检索时间范围不限,检索主题中含有“数字人文”并且含有“档案”的有效文献共51篇。从发表年度来看,2014和2015年分别发表1篇论文,2017年发表2篇,2018年上升为14篇,2019年激增到29篇,2020年已有4篇网络首发,可见档案领域的数字人文研究呈现蒸蒸日上趋势,如图1所示。
从研究内容来看(如图2所示),主要聚焦在以下三个方面:
图2 数字人文与档案研究内容分布情况
(1)41%的论文探讨数字人文背景下的档案资源开发,如杨茜茜提出了“数字人文视野下历史档案资源整理与开发的路径模型”[11];张美芳探讨了“面向数字人文的声像档案资源组织方法,构建从数字采集到精准服务利用的模型”[13];牛力等提出“档案资源创新开发利用应实现视角转换、路径转型和实践转向”[14];罗铿探讨了“侨批资源基于数字人文研究服务的开发模式”[15];张卫东等探寻出“资源优先级选择—方法应用—服务集成”的档案资源整合路径和方法[16];杨千提出“以档案馆、数字人文研究团队和社会公众为主体,以档案材料的多重脉络解读,人、物、事关系网络揭示和社会记忆建构为目标的合作开发模式”[17];朱兰兰等阐述了“数字人文技术在家谱档案资源多元化开发中的应用”[18]等。
(2)25%的论文对档案相关的数字人文项目进行了介绍,如刘晋如、靳文君等对中美档案领域的数字人文项目展开了比较研究[19][20];赵生辉、刘芮等综述了国外档案领域数字人文项目概况,并从中总结了国内开展类似研究的启示[21][22]。
(3)20%的论文探讨数字人文与档案工作之间的关系等,如龙家庆、王玉珏、李子林、吴加琪分别对“数字人文研究与档案工作的关联及路径”、“数字人文与档案工作的关系”、“数字人文兴起及档案工作的参与机制”等进行了较为深入地探讨[23][24][25];张斌等对“数字人文背景下的档案馆发展”进行了理性思考和探索[10]。
此外,加小双提出“档案学与数字人文应该并且可以在充分对话和互动融合的基础上谋求协同合作,并以数字记忆作为案例进行论证”[12];郑爽等探讨了“实现数字人文视域下的档案记忆功能”的可能途径[26];张澍雅讨论了“数字人文对档案信息传播的影响”[27]等。
在研究方法方面,已有研究大多从理论上探讨数字人文项目、数字人文背景下的档案资源开发、以及数字人文对档案工作的影响或启发等,鲜有从档案数据的知识图谱模型构建视角进行案例剖析,国内数字人文方面的研究与实践尚有待向纵深方向拓展[28]。
在已有研究基础上,笔者从数字人文与学校档案馆藏资源融合研究入手,提出档案时空本体模型和档案数据抽取框架,以学生学习与发展专题档案开发为案例,构建档案关联数据知识图谱,为可视化展示、智能性检索和精准性利用提供支撑。
学校档案馆既是档案工作的业务主管部门,又是永久保存和提供档案利用的科学文化事业机构,门类齐全的馆藏资源反映着学校在教学、科研、医疗和管理等方面情况,为学校师生和社会提供丰富的档案资讯服务。馆藏资源来源广泛、形式多样、内容丰富,按照分类方案有序组织和存储,然而这些分散存放的档案数据资源之间可能存在着多种类型的关联。如何刻画具有潜在关联的档案资源以更好地支持数字人文背景下的档案利用,是档案工作者必须解决的重要问题。
人工智能领域的研究者陆续提出了不少知识表示的方法,如框架系统、产生式规则、描述逻辑、本体方法等。来源于形而上学的哲学分支的本体,作为一种能在语义和知识层面刻画信息系统概念模型的建模工具,已被广泛应用于语义web、系统建模和自然语言处理等领域,尤其适用于建模以不同形式保存却存在潜在关联的档案数据资源,探索发现档案数据资源的抽象本质,以获取档案领域知识。张正强从电子文件元数据的概念本体和语言本体等方面指出“建立基于本体的电子文件元数据是建设智慧档案馆的关键与核心”[29]。
图3 档案时空本体及其实例化机制
作为档案的基本特性,档案资源具有原始凭证价值,而时间和地点是档案资源中两个重要元素。为拓展开发和深度利用馆藏档案资源,采用本体建模方法,并借鉴文献[30]从时间和空间两个维度构建公共数据预测方法,提出构建具有时间(Time)或时序(Temporal order)、空间(Space)或地点(Location)的档案时空本体,如图3所示。该档案时空本体用于描述档案资源中档案实体的基本时空信息,实体对应于档案数据资源中的记录,包含1个类、7个数据属性。档案资源的时间维度,主要刻画档案资源内容所涉及的时间点或时间段,可以是档案生成时间或档案内容相关的时间;档案资源的空间维度,主要描述档案资源中关于地理空间的元数据与内容,如城市、校园、课室等地点。通过档案时空本体建模,利用时序和空间立体地可以展现重要档案资源的发展状况。
以档案时空本体为父节点,通过继承机制,易于扩展和衍生。实例化学生、教师、专业、课程、课室、设备、项目、竞赛等人(Person)或物(Thing)本体,学校、院系、管理服务机构、附属单位等组织(Organization)本体,录取、选课、活动、科研、奖助、答辩、毕业、就业等事件(Event)本体;并根据描述需要为不同实例化档案本体增加或调整属性,细描勾画出档案资源中的重要人物、组织机构和事件等,可以全方位刻画档案资源。
如图4所示,为了描述馆藏资源中新生学籍档案,在档案时空本体(如图中灰色字体表示的属性)基础上,利用本体继承机制,通过重定义时空属性,扩展增加学生性别、民族、籍贯、身份证号等基本属性,以及学号和入学成绩等学籍相关属性(如图中黑色字体表示的属性)即可。类似的, 重定义和扩展课程的时空属性、课程类别、学时、学分等基本属性可以对课程档案资源进行表示。
图4 档案时空本体实例化示例
图5 档案数据资源
在档案时空本体模型基础上,针对馆藏档案数据资源,围绕学生学习与发展特定领域,进行深度的专题档案资源整理与开发。档案馆藏数据资源,一般包含对传统纸质档案进行数字化扫描处理后的档案数据或业务系统在线生成归档的原生性电子档案数据,通常具有图片、声音、视频、文本、3D对象等形式,以及时间、地点、人物、事件、主题、责任者及组织机构等元数据著录项,如图5所示。直观地表达并抽取这些分散存放的、不同形式的档案数据之间的关联,是数字人文背景下的档案资源深层次整理与开发中的关键问题。
综合语义网络、本体论、Web、知识推理、自然语义处理和人工智能等多方面基因优势的知识图谱技术,通过预先抽取语义建立数据链接并支持语义搜索、采用规范的计算机符号表示、计算和推理数据,在语义搜索、智能问答、可视化辅助决策和常识推理等方面发挥了重要作用。蓬勃发展的知识图谱技术已在政府、医疗健康、金融、电信、电商、出版、数字图书馆和农业等众多领域得到了广泛应用。
图6 档案资源关联
鉴于此,采用知识图谱表达档案资源之间的关联,如图6所示,教师、学生、院系、专业、课程、竞赛、社团和项目等相关档案实体之间存在着千丝万缕的关联关系,如教师主讲课程、教师指导学生、教师组织竞赛或社团、教师主持或参与项目、院系设置专业、专业开设课程、学生主修专业、学生选修课程、学生参加竞赛或社团或项目等等。通过抽取馆藏档案资源中的档案实体及其元数据描述,借助知识图谱技术,可以将潜在的档案资源关联可视化地表达,进一步提升档案利用效果。
以学生学习与发展专题档案资源为案例,提出一个从馆藏档案数据中心抽取学生学习与发展过程中重要实体并建立关联数据知识图谱的框架,如图7所示。从档案数据中心的新生录取名册、学籍表、课程表和成绩单等档案数据对象及其元数据中,运用文本挖掘、标注、语义分析、社会网络分析、地理信息系统及自然语言处理等技术分析档案数据,提取有用的信息和线索,并通过实体匹配、识别与消歧,以及概念抽取、关系抽取与事件提取等,提炼学生招生、录取、课程、专业、院系、竞赛、社团、项目、奖助、答辩、毕业、就业等相关的人、物、事件和组织机构等档案实体及其关联,通过融合分析和映射推理,建立学生学习与发展专题档案数据集和关联数据知识图谱。
图7 档案数据抽取框架
在档案数据抽取框架中,采用资源描述框架RDF(Resource Description Framework)描述档案时空本体及其关联数据。每个RDF三元组(主体,谓词,客体)为基本的知识单元,三元组中的主体、谓词和客体均可以唯一标识和定位,其中,主体和客体来源于档案时空本体中的实体(即实体类),谓词为档案时空本体中类的属性。因此,档案时空本体中的实体和属性为RDF提供了语义来源。同时,RDF是一个链接资源描述的有向图模型,其三元组中的主体和客体对应于图顶点,谓词对应于两个顶点之间的有向边。而SPARQL语言(SPARQL Protocol and RDF Query Language)提供了对RDF数据的查询支持,档案时空本体可以填充档案资源与查询之间的语义间隙,支撑档案数据资源的多层次的深度智能化应用。
通过档案数据抽取框架,可以构建馆藏档案资源中关于人、物、组织、事件等实体及其之间的关联关系,按照不同维度组织档案数据资源,为档案的深度挖掘和精准利用提供支持。图8为学生学习与发展过程中关于学生、教师、课程、项目、竞赛等实体之间部分关联的知识图谱可视化结果。
若以人为起点,通过实体实例化,并运用语义分析、智能检索、人物画像等技术,即可构建以学生或教师为中心的社交网络,包括师生关系、同事关系、同学关系、校友关系等;亦可清晰地展示出某位特定学生曾学习的课程、参加的竞赛或项目研究等。
图8 学生学习与发展的部分知识图谱
还可通过时间分析、空间分析、文本分析等方式,检索特定时间或特定地点开设的课程、开展的项目、组织的竞赛等,特定人物或特定地点出现的频次,特定事件在时间线上的先后次序和动态发展状况等。此外,通过知识图谱中的间接关联关系,可以进行档案知识推理和挖掘,实现全面、立体、精准、可靠的档案利用和服务,提升用户体验。
档案作为一种真实、可靠、兼具凭证性与权威性的信息资源,正日益成为国家治理和公共服务必不可少的重要组成部分[31]。数字人文研究正在影响着档案工作者的思维方式,数字人文技术在档案工作中的应用,有助于促进档案数据资源的增值和精准利用。针对新时代用户个性化的利用需求,如何结合数字人文技术应用,有效地开发和利用馆藏档案资源是一个复杂的系统工程。档案工作者需要在数字人文和档案工作的碰撞下,清醒地审视和积极地应对数字人文对档案工作的影响与挑战,提高数字人文素养,提升档案理论水平与业务工作能力,转变传统的档案工作模式和思维方式,充分发挥馆藏档案数据的资源优势,通过跨界融合与多元合作平台构建,打造具有影响力的特色档案数字人文项目,促进新时代档案事业发展。