基于数字人文的历史档案文献开发实践解析

2023-07-06 20:24:04王萍黄小宇
档案与建设 2023年3期
关键词:数字人文

王萍 黄小宇

摘 要:融入数字人文思维与方法开发历史的文献可助推历史档案文献被传播、被发现、被理解、被应用。文章运用质性的文本分析方法及归纳法,从国内外98个基于数字人文的历史档案文献开发典型项目中提取实践要素,从主体、对象、过程、成果、保障维度解析其跨领域跨机构的协同化、博专兼具的深度化、知识发现流程的规范化、知识内容的多元可持续化、实践支持措施配置的全方位化五个实践要点,并就其持续纵深推进的可能路径作出前瞻性展望。

关键词:数字人文;历史档案文献;档案开发

分类号:G273.5

An Empirical Study of 98 Domestic and Foreign Projects : Analysis of the Development Practice of Historical Archives and Documents Based on Digital Humanities

Wang Ping , Huang Xiaoyu

( School of Public Administration of Sichuan University, Chengdu, Sichuan, 610064 )

Abstract: Integrating digital humanities thoughts and methods for development practice will promote the dissemination, discovery, understanding and application of historical archives and documents. Through the qualitative text analysis method and induction method, this paper extracts five practical elements from 98 typical digital humanities-based historical archives and documents development projects at home and abroad, which include collaboration across fields and institutions, in-depth development for a wide range of resources, standardization of knowledge discovery process, diverse and sustainable knowledge-based contents in terms of subject, object, process, results and guarantee. And a forward-looking outlook is made on the possible path of its continuous and in-depth advancement.

Keywords: Digital Humanities; Historical Archives and Documents; Archives exploitation

近年来,随着对历史档案文献原始文本保护和深度利用需求的增大,历史档案数字化和数据化实践在海内外日益勃兴,为数字人文应用于历史档案文献开发实践夯实了数字基础。国际上,数字人文研究机构次弟设立,手握丰富历史档案文献的档案馆、图书馆、博物馆等积极参与其中,开展了系列实践项目,如著名的“威尼斯时光机(the Venice Time Machine)”[1]及以一战和中世纪文化为研究主题的欧洲数字档案研究基础设施(Collaborative european Digital Archive Infrastructure, 以下简称“CeNDARI”)项目。[2]在我国,《“十四五”全国档案事业发展规划》强调,重视数字人文在档案深层加工及利用环节的应用;国家重点档案保护和开发工程亦要求围绕历史研究、文化遗产传承等主题开发档案[3],彰显数字人文与历史档案开发利用相结合的工作导向。

现有基于数字人文的历史档案文献开发研究成果丰硕,但多聚焦于数字人文的特定方法与工具在历史档案开发的应用研究[4-5],或是对某一具体历史档案文献开发的研究[6-7],其技术和具然性取向明显,尚欠从个别经验到一般规律的抽象和升华。作为实践性强的领域,基于数字人文的历史档案文献开发需要从体量丰富、具有代表性的实践项目中挖掘出实践框架和要素,以便提炼出具有规律性和可操作性的项目运作维度及延展性运用方法。基于此,本文对98个国内外基于数字人文的历史档案文献开发代表项目开展实证研究,从五个维度解析项目实践,提炼项目推进路径和范式,以期助力深化基于數字人文的历史档案文献开发。

1 数据收集与分析方案

1.1 数据收集

本文以与本研究定义契合、具代表性且信息易获取为原则对相关项目展开数据收集,过程如下:(1)确定项目范围。①从国际数字人文组织联盟网站CenterNet中选取18个创始成员;另外,为掌握更多关于我国此项工作开展的情况,将4个非创始成员的中国机构纳入考量,剔除3个无官网的机构后,以剩余代表机构为案例来源。②由于机构视角可能导致部分孤立的典型项目未被纳入调查,加之CenterNet中国内机构及项目较少,因此,又基于文献线索补充具有代表性的国内外案例19个及国内机构2个(代表机构见表1)。(2)收集项目信息。信息收集来源以项目官网为主,辅以文献、搜索引擎等,获取要素包括项目名称、主体、背景、目标、内容(开发的历史档案文献、运用的数字人文技术、开展过程和项目成果)及启示。最终遴选出98个基于数字人文的历史档案文献开发项目(见表2)。

1.2 数据分析

(1)运用质性文本分析方法解析项目信息,提炼出基于数字人文的历史档案文献开发实践要点:首先,通过描述信息要素在项目中的核心体现归纳初始编码;其次,经由分析比较初始编码形成行动聚类以完成聚焦编码;再次,对比各聚焦编码,找出关联以归纳实践维度。最终将实践要素解析为开发主体、面向对象、行动过程、最终成果和保障措施五个维度(见表3)。

(2)虽然项目成果作为维度之一已涵纳于实践解析,但因项目成果不仅是项目价值最直接的呈現方式,而且在成果维度上呈现出单点与多点并用、学术性与大众性并包、当下与未来兼具的特征,故单独列出,从结果层归类上述项目(见表4)。

2 实践要素解析

2.1 主体维度:跨领域跨机构的协同化

协同既是数字人文领域的重要特征,亦是基于数字人文的历史档案文献开发项目秉承的核心理念。它不仅呈现于项目主要团队内部,也体现在同其他团体及个人的合作中。

一方面,项目主要团队囊括各领域专家,主要包含三类领域的专家:(1)传统人文领域。历史学者为主,英语、文学、哲学、人类学、艺术史等领域学者协同,承担项目内容策划任务。(2)信息技术领域。系统工程师、多媒体技术人员、网站开发人员、界面设计师、数据处理专家等为主力,承担技术支援与开发任务。(3)信息资源管理领域。图书馆学者、档案专家为主,承担历史档案文献内容整理与加工工作。如CeNDARI主要团队由8 个欧洲国家的 14 个合作伙伴组成,包含计算机信息学家、历史学家和档案学家。“威尼斯时光机”项目团队来自瑞士洛桑联邦理工学院、威尼斯大学、意大利电信公司等,包含数字人文学者、计算科学专家、历史研究人员、档案学家等。

另一方面,为获得资金、资源、技术支持,项目组建了与其他机构团体及个人的协同队伍。其主要协作对象包括三类:(1)资金资助者。各类项目或积极争取政府支持,建立数字人文项目资助体系;或向外部组织机构和社会公众等寻求资助。例如“影谷计划”[12]多年来持续得到美国国家人文科学技术教学基金会、弗吉尼亚大学等的资助。(2)资源贡献者。上述项目多与档案馆、图书馆和史志办等拥有史料的信息资源管理机构建立合作或向社会公众征集资源。如“1941年香港战役:空间历史项目”[13]同香港大学档案馆、战争纪念馆等组织机构以及部分家族和个人合作,以广泛获取相关历史档案文献。(3)文本开发者。历史档案文献的数字化与数据化需大量人力参与,部分项目召集业余爱好者参与历史档案文献抄录、标注等工作,并由专业人员检查质量。如2010年伦敦大学学院法学院发起的“边沁手稿转录项目”。 [14]

2.2 对象维度:博专兼具的深度化

广度为基:(1)项目团队多途径获取来源广泛的历史档案文献,主要包括:①官方机构及组织的资源,如图书馆、档案馆、博物馆、纪念馆、文化馆等;②散落民间的资源;③流失国外的资源。以“台湾数位典藏计划”[15]为例,其历史档案文献主要来自三方面,包括文化资产与政府部门、民间组织和个人工作室、国内外资源平台。(2)在资源获取阶段均高度重视资源的多样性与完整性。如在资源类别上,除手稿、文书、信件等历史档案文献,还辅以古籍、口述历史等佐证材料;在内容上,除针对性较强的主题项目外,还致力于构建文献内容的完整性。以“中国记忆工程”[16]为例,中央档案馆、国家档案局构建了全国范围内首个面向公众开放的大型区域性历史文化资源共享平台——中国记忆。该平台集中了手稿、信件、文件以及口述材料、影像资料等,形成“我们的文字”“大漆髹饰”“东北抗日联军”等多载体多种类的专题历史档案文献集合。

深度为要:(1)以数据思维为引导,对历史档案文献进行细粒度治理。多数项目不再停留于全宗级和案卷级档案整理,而是更趋于深入历史档案文献文本,解读内在要素。以“古兰经语料库”[17]为例,该项目使用OCR将手稿转换为XML编码文本,建构存储手稿及其音译数据的数据库,形成独特的古兰经语料库和符合国际规范的手稿目录。(2)以数字技术为抓手,对历史档案文献开展价值挖掘。如“中国历代人物传记资料库”项目团队运用文本挖掘技术、关联数据技术、GIS 技术等获取和收集档案内容信息和外形特征,并基于历史档案文献数据开展社交网络分析,从人际关系、入仕历程、相关著作等维度全面呈现人物关系。

2.3 过程维度:知识发现流程的规范化

知识发现是指从大量数据中提炼出可信、新颖、有效且能被人们理解的模式的处理过程。[18] 数字人文本质上是一个基于数据的人文科学知识生产和发现过程,具有标准化的知识发现研究方法。基于数字人文的历史档案文献开发项目主要由以下两类驱动开展:(1)问题驱动,主要体现为,项目依据人文研究者的需求确定历史研究问题,继而规划和建构相应历史档案文献资源集合,人文研究者基于此研究具体问题,最终呈现成果并解释已知现象。如2013年开启的“数字全景监狱”以“探索不同类型的刑罚对 1780年至 1875 年间在旧贝利被判刑的 66000 人的影响”为研究问题,驱动开展知识发现实践。(2)数据驱动。①各类主体基于自身馆藏,以主题为中心将历史档案文献数据化、结构化,为公众提供数字人文知识服务。如上海图书馆基于其馆藏家谱构建“家谱知识服务平台”[19]。②科研人员以数据为基础,利用数字人文技术深入挖掘历史档案文献,帮助超越固有认知局限。如 “历代宝案脉络分析系统”[20]项目以台大历代宝案为主体,通过全文化、重要词汇撷取、正规化与标记,建立了具有后分类、脉络关系、可分析统计等功能的数字人文脉络分析系统,帮助呈现历史档案文献的原有脉络以辅助研究。

虽驱动背景不同,但以上项目多遵从知识发现的规范化流程,具体如下:(1)制定历史档案文献开发项目方案。(2)明确项目方案所涉历史档案文献并构建数据集,这一步骤需注意数据收集的全面性、解读的正确性和处理的规范性。(3)进行知识组织。核心任务是基于数字人文思维与技术实现数据挖掘及关联以发现知识,从而实现目标或解决问题。过程中需以历史主义为主、逻辑主义为辅,尊重并重构历史的有机联系并实现纵深向的数据处理。(4)展示成果。通过数据呈现技术呈现成果,该成果可助力新一轮的知识发现。仍以“数字全景监狱”为例,首先,收集英澳等国不同组织持有的刑事司法档案、家谱档案等历史档案文献并通过数字化和数据化完备数据集。其次,利用Node.js、MySQL和Java servlet等技术支持进行数据的自动或手动关联并进行数据分析,实现对各类刑罚下犯人信息及后期生活与工作等情况的探索。最后,通过网站构建展现成果。

2.4 成果维度:知识内容的多样化及可持续化

(1)项目成果呈现与开发工具创建。现有项目开发成果展示主要有以下三类:①内容浏览型,包括专题展览、资源类型展示、多种复合型呈现三种,如以专题形式呈现的“北京记忆”[21]。②数据库检索型,主要有历史与档案类及文学与艺术类数据库,如“中国地方历史文献数据库” [22]。③可视化呈现型。一是整体可视化,如“威尼斯时光机”通过3D模型及可视化方式展示威尼斯的地理空间演变和社会网络关系。二是部分成果可视化,如“铁路与现代美国的形成”项目[23]成果之一就是运用数据分析技术制作铁路工人时空变化分布地图。三是检索結果可视化,如“淡新档案客家研究数位分析系统”[24]可对检索结果进行统计分析、圆饼图制作和文字云展示等。

在诸多基于数字人文的历史档案文献开发实践中,工具创建既是项目开发刚需,同时又为后续项目的开展持续提供技术支撑。上述项目的工具创建成果分为两类:①单一工具开发。一是分析工具,如“Archetype”[25]用于在线呈现带有结构化注释和数据的图像,允许用户搜索、查看材料的详细特征,可用于分析历史手稿。二是转录平台,如 “历史文献众包平台”[26]鼓励感兴趣且有一定操作能力的用户运用工具进行历史档案文献数字化抄录和标注。②综合平台建构。包括个人研究平台和多主体协作平台。前者如“DocuSky数位人文学术研究平台”[27]为学者提供建构符合国际标准格式的个人云端资源库的方法指南,并辅以各种实用工具帮助学者开展历史档案文献研究。后者如CeNDARI,在该虚拟基础设施中不仅提供大量历史档案文献,还开发了协作空间及专题研究指南,创建出虚拟研究基础设施和人文研究虚拟协同平台。

(2)持续优化与发展。数字人文项目的可持续发展是其重要评估指标。上述项目主要采用两种方式体现其可持续发展性:(1)及时更新资源。如“被盗关系:恢复美洲土著奴役的故事”项目[28]定期在数据库中添加新的相关历史档案文献数据,以便于更完整地呈现土著奴隶制的发展演变过程。(2)更新迭代项目成果。①拓展资源使用平台。如“南非档案馆”[29]运用开源程序 Zotero进行南非地区历史档案文献资源数字化、标准化管理,力图通过运用Internet Archive 建立相关网站作为历史档案文献的在线数据库以供社会化利用。②同其他平台打通相关业务。如上海市图书馆推动家谱知识服务平台与其他平台相关业务打通,方便家谱研究专家开展研究,所得研究成果又可持续演化为知识服务平台的一部分,形成良性循环。③转化成果性质,如“欧洲大屠杀研究基础设施”于2018年被添加到欧洲研究基础设施战略论坛(eSFRI)路线图中,有望在2025 年为大屠杀研究社群提供长期、稳定的知识服务。

2.5 保障维度:实践支持措施配置的全方位化

(1)硬件保障:项目实施的基本要求。开发历史档案文献需要专业的人员、充足的资金以及虚实结合的基础设施,三者须相互支撑并贯穿于全流程。人力保障包括组建跨领域的专业团队,并实现各类知识的融合;资金保障则主要来源于项目基金以及部分社会机构或个人的支持;此外,以数字人文视角观之,历史档案文献开发需基于内外平衡的人文数字生态系统。[30]现有项目多以实体研究中心为基础,如“塞勒姆女巫审判”项目[31]以美国弗吉尼亚的学者实验室(Scholars Lab)为主体;“中华文明之时空基础架构”项目[32]以台湾中央研究院历史语言研究所与计算中心为主体。但也有部分项目通过构建虚拟研究环境来支持历史档案文献开发,如伦敦大学“边沁手稿转录项目”通过建设专门的转录平台,使公众参与在线转录哲学家和改革家Jeremy Bentham的原始手稿。

(2)软件保障:项目实施的技术工具。为解决历史档案文献解读困难、关联困难、利用困难的问题,现有的开发项目大量应用了以下技术:进行基础数据建设的数字化技术,如扫描、拍摄等;进行资源组织和分析的数据管理技术,如数据库建设、语义描述及数据分析技术如文本分析、时序分析;进行成果展现的可视化技术,如关联呈现和VR/AR技术等。这些技术是基于数字人文的历史档案文献开发项目不可或缺的工具要素。

3 基于数字人文的历史档案文献开发项目的未来展望

在未来相当长的时间内,基于数字人文的历史档案文献开发将成为人文研究、历史档案资源管理、数字技术等相关领域的重要工作内容。通过对国内外典型案例的解析,我们认为,对应上述五个实践维度,国内在开发相关项目时需在五个方面发力:

第一,强调开发主体的多元合作。从理论上讲,合作主体数量和领域覆盖面与贡献力大小呈正相关,但主体间既存在合作又存在竞争。为此,在基于数字人文的历史档案文献开发项目中,特别是针对各异维主体,如何准确定位角色、提高协同效率以及设计出针对多主体利益博弈的平衡机制显得尤为急迫。

第二,设计出相应的鉴定及匹配方法,以解决因资源汇聚产生的资源可靠性甄别及资源适配问题。

第三,加强人文学者与数字技术专家的交流互鉴。结构化的知识发现标准流程业已证明是历史档案文献定制化、定向化开发的科学路径,但纵览现有实践成果,一是该路径运用的实践基础并不够扎实,经零星探索总结提炼的做法尚缺乏进一步规范优化的场景支撑;二是历史档案文献所指向的研究议题涉及多学科研究领域,应明确其中急需解决的和基础性的问题;三是如何选择数字人文技术手段来支撑知识发现流程以完成既定目标,确保历史档案文献的内在联系被完整、准确地予以呈现至关重要。

第四,着力提升项目开发工具的普适性、可延展性及易用性,使成果在展现形式上更直观生动,以工具之力利助推开发项目数量与质量双提升。

第五,支持与保障措施的全方位化是始终不变的“压舱石”,需要国家宏观层面的政策引领和支持,以及学术科研层面的共识建构与推进。《关于推进实施国家文化数字化战略的意见》[33]明确要求,提取具有历史传承价值的中华文化元素、符号和标识,丰富中华民族文化基因的当代表达,中华文化数字化成果全民共享。以数字人文理念的想象力、数字人文技术的创造力,对富含中华文化元素、承载中华民族文化基因的历史档案文献进行创造性开发和创新性转换,既逢其时,恰具其意。

注释与参考文献

[1]The?venice?Time?Machine?[eB/Ol].?[2023-01-31].? https://www.timemachine.eu/.

[2]?The?CenDARi?white?Book?of?Archives?[eB/Ol].?[2023-01-31].http://www.cendari.eu/sites/default/files/ whiteBook-web.pdf.

[3]《“十四五”全国档案事业发展规划》[eB/Ol].?[2023-01-31].https://www.saac.gov.cn/daj/yaow/202106/899 650c1b1ec4c0e9ad3c2ca7310eca4.shtml.

[4]贾琼,王萍.基于关联数据的历史档案资源聚合研究[J].图书情报工作,2021,(10):105-112.

[5]hinRiChs?u,?Alex?B,?CliFFORD?J,?et?al.?Trading? consequences:?A?case?study?of?combining?text?mining?and? visualization?to?facilitate?document?exploration[J].?Digital? scholarship?in?the?humanities,?2015,?30:?50-75.

[6]?潘威,白江涛,夏翠娟,等.基于TGis的专项历史地名库设计与搭建——以“数字历史黄河”地名库为例[J].数字人文研究,2022(1):13-24.?

[7]?李义敏,叶凯,余康,等.数字人文视域下鱼鳞总图的复原与数据库建设——以晚清兰溪县城坊与汤溪县寺平庄为例[J].档案学通讯,2022(6):96-102.

[8]数字敦煌[eB/Ol].?[2023-01-31].https://www. e-dunhuang.com/.

[9]中国历代人物传记资料库[eB/Ol].?[2023-01-31]. http://isites.harvard.edu/icb/icb.do?keyword=k16229.

[10]?The?european?holocaust?Research?infrastructure[eB/ Ol].?[2023-01-31].?https://www.ehri-project.eu/scientificadvisory-board.

[11]?The?Digital?Panopticon?[eB/Ol].?[2023-01-31].? http://www.digitalpanopticon.org/.

[12]?The?valley?Of?shadow[eB/Ol].?[2023-01-31].? http://valley.lib.virginia.edu/.

[13]?The?Battle?of?hong?Kong?1941:a?spatial?history[eB/Ol].?[2023-01-31].?https://digital.lib.hkbu.edu. hk/1941hkbattle/en/index.php.

[14]Transcribe?Bentham?[eB/Ol].[2023-01-31].? https://blogs.ucl.ac.uk/transcribe-bentham/.

[15]台湾数位典藏计划[eB/Ol].[2023-01-31].? http://digitalarchives.tw/.

[16]中国记忆项目[eB/Ol].?[2023-01-31].?http:// www.nlc.cn/cmptest/.

[17]Corpus?Coranicum[eB/Ol].[2023-01-31].? https://corpuscoranicum.de/de/about.

[18]麻新純,徐辛酉.基于知识发现的历史档案情报价值实现[J].档案学研究,2008(6):11-14.

[19]家谱知识服务平台[eB/Ol].[2023-01-31]. https://jiapu.library.sh.cn/#/.

[20]历代宝案脉络分析系统[eB/Ol].[2023-01-31]. http://lidaibaoan.digital.ntu.edu.tw/.

[21]北京记忆[eB/Ol].?[2023-01-31].?http://www. pekingmemory.cn/.

[22]中国地方历史文献数据库[eB/Ol].[2023-01-31].? http://ndfwx-hw.datahistory.cn/.

[23]?Railroads?and?the?Making?of?Modern?America[eB/ Ol].[2023-01-31].?https://railroads.unl.edu/.

[24]淡新檔案客家研究数位分析系统[eB/Ol].[2023-01-31].?https://dash.thcdc.hakka.gov.tw/.

[25]Archetype[eB/Ol].?[2023-01-31].?https:// github.com/kcl-ddh/digipal/.

[26]历史文献众包平台[eB/Ol].?[2023-01-31].? http://zb.library.sh.cn/.

[27]Docusky数位人文学术研究平台[eB/Ol].[2023-01-31].?https://docusky.org.tw.

[28]?Recovering?stories?of?indigenous?enslavement?in?the? Americas.?[eB/Ol].?[2023-01-31].?https://indigenousslavery. org/about/.

[29]south?Africa?Archive[eB/Ol].?[2023-01-31].? http://southafricaarchive.org/about.

[30]Anderson?s,?Blanke?T.?Taking?the?long?view:?from? e-science?humanities?to?humanities?digital?ecosystems[J].? historical?social?Research/historische?sozialforschung,?2012,37:? 147-164.

[31]salem?witch?Trials[eB/Ol].?[2023-01-31].? https://scholarslab.lib.virginia.edu/work/salem-witch-trials/.

[32]Chinese?Civilization?in?Time?and?space?[eB/Ol].?[2023-01-31].?http://ccts.ascc.net/.

[33]?让中华文化更“活”更火——透视《关于推进实施国家文化数字化战略的意见》[eB/Ol].?[2023-01-31].?http:// www.gov.cn/zhengce/2022-05/23/content_5691982.htm.

猜你喜欢
数字人文
数字人文项目合作平台分析
图书馆未来的技术应用与发展
图书与情报(2017年6期)2018-03-12 19:13:41
数据驱动下的高校图书馆数字人文服务研究
图书与情报(2017年5期)2018-01-02 11:24:34
汉传佛教文化遗产数字化建设现状调查与特征分析
数字人文2011—2016年研究综述
数字人文时代公共图书馆经典阅读推广研究
数字人文时代公共图书馆经典阅读推广研究
数字人文目标下图书馆信息服务模式研究
数字学术与公众科学:数字图书馆新生态
跨界与融合:全球视野下的数字人文