档案机构主导开发数字人文项目的方法探究
——以美国马里兰州档案馆奴隶制文化遗产项目为例

2020-12-06 14:40:20苏依纹四川大学公共管理学院
浙江档案 2020年9期
关键词:马里兰州档案馆关联

苏依纹/四川大学公共管理学院

数字人文项目运用数字技术关联文献、扩展内涵、整合开发人文资源,其开发模式受众多人文研究者青睐[1],全球范围内在CenterNet上注册的数字人文研究中心已达200多家[2]。图书馆、档案馆作为文献与信息资源的保存与供应方,亦参与发起数字人文项目。但相较于图书馆等文献机构,档案机构主导的相关实践明显不足,有待形成更为完备的方法框架并借助数字人文理论、方法及实践,推进档案信息资源开发利用的数字转向。

档案机构主导数字人文项目,从实践情况看,档案机构主要基于馆藏参与历史保存、记忆构建类数字人文项目,很少主导设计数字人文项目开发并负责主要的管理工作。在大部分数字人文项目中,档案馆馆藏与其他机构文献资源共同构成项目资源基础,被数据化后在数据层进行融合关联。除了资源贡献,档案机构也着手从方法层面展开系统的项目实践探索,如广州市城建档案馆于2002年开发广州记忆工程[3],欧洲数家档案馆与其他记忆机构联合设计欧洲大屠杀研究基础设施项目(EHRI)[4],然而相关实践尚未形成规模。从理论研究看,成果主要有国外典型数字人文项目对我国档案资源开发利用的启示[5-9],数字人文项目中档案信息资源、地方特色档案、档案记忆资源整合模式与开发路径研究[10-14],数字人文与档案工作的关联路径、影响研究[15-18],数字人文视域下具体技术应用案例研究如档案信息挖掘、关联数据技术[19-21]等。

国外档案机构已开始利用自身馆藏、人员探索主导开发数字人文项目,而国内学者尚未充分立足档案机构主导情境研究数字人文实践方法。本文以马里兰州档案馆奴隶制文化遗产项目为例,使用文献调查法、案例分析法描述马里兰州档案馆主导开发数字人文实践的关键方法与宏观导向,依此得出可供借鉴的经验,以期为我国档案机构主导开发数字人文项目提供应用理论依据。

1 代表性实践概览:美国马里兰州档案馆奴隶制文化遗产项目

1.1 背景目标

从档案馆历史与馆藏来看,马里兰州比其他州拥有得天独厚的奴隶制文化资源开发条件。马里兰州由地方管控档案,在美国南北战争时期没有脱离北方联盟,因此没有被军事占领[22],档案保存完好。马里兰州档案馆中有关奴隶制的馆藏丰富,具有良好的开发基础,奴隶制文化遗产项目应运而生。项目的最终目标是形成在线可视化的反抗奴隶制历史门户网站,并利用数字技术拓展更多的关联与研究角度补充叙述被奴役者缺失的历史。项目目标并非一开始就得以明确,而是源于志愿者的日常工作。最初档案馆志愿者杰里·海森(Jerry Hynson)发现了刑事诉讼卷中巴尔的摩县法院的教唆黑奴逃逸案审理文件,工作人员出于兴趣开始利用文件系列进行案例研究,目的是发现帮助奴隶逃逸或反抗的“无名英雄”。随着研究范围扩大又逐步演变成对特定地理区域内被奴役或自由社群反抗奴隶制情况的考察,之后项目在数字技术、计算思维的辅助下形成更广阔的研究视野,显现出数字人文项目的特点与形式。

1.2 流程内容

奴隶制文化遗产项目开发总体上经历了三大流程:(1)资源汇集与数字化。自2001年起,马里兰州档案馆员工查看并检索了馆藏中16个县和巴尔的摩市档案,从总共30多个档案系列中提取、整理了有关黑奴生活经历的信息。项目开发中使用到的文献类型包括但不限于已出版文献资源、案例研究资料、档案系列中的财产估值清单、人口普查数据、自由证明等。(2)数据整合。在数字化与转录工作完成后,档案馆将单独数据表集成于自行开发的数据工具MDSlavery.exe中,该工具依靠Apache Spark开源框架搭建集成数据管道,有效解决了分批转录数据重复操作问题,其核心程序包括:数据聚合,将工作人员转录的数据合并到一个数据帧中;数据清理,使数据集中的每个字段架构一致,达到可进行可视化分析的质量;数据存储,数据清除后将其存储在MongoDB数据库中。(3)可视化分析与数据关联。项目组使用可视化工具进行分析,旨在更便捷、快速地探索数据并从中提取视角与数据关联点启发。Tableau支持自动分析统计,以及将分析结果以各类图表的可视化形式呈现。事实上,数据关联工作是一个贯穿全程的工作,要义是反复“关联”,直至项目后期的汇总分析[23]。

1.3 成果输出

奴隶制文化遗产项目的最终成果是一个面向公众、家谱学者、历史学者的网络化研究基础设施,即包含案例故事、数字展览、数据库与交互地图功能模块在内的门户网站,以展示被奴役群体的集体经历、“失忆”数据为目标。各模块功能如下。(1)案例故事。网站上所展示的近250个案例研究是工作人员从档案系列与相关已出版文献中挖掘出的一系列黑人被奴役历史中的重要事件与研究概述,相当于馆藏档案系列中奴隶故事的汇编与摘要。(2)数字展览。即马里兰州档案馆于2010年至2011年间完成的马里兰州五县“地下铁路”逃脱故事展,是其案例研究成果之一,反映了“地下铁路逃脱运动”中出逃的奴隶、奴隶主、协助者之间的复杂关系。(3)数据库。这是一个在线档案资源库数据库,集中了马里兰州所有有关奴隶制生活馆藏的数据化成果。其数据条目描述了1830年至1880年的40万个个人,其中包括黑奴、自由黑人、奴隶主、普通白人等。数据库支持对姓名、年龄、所属、文件类型等字段的检索,且可对检索结果进行过滤,过滤属性包括年份、地区以及检索对象的健康状态、读写能力等。(4)交互地图。这是所有功能模块中最具有“数字技术+人文”特色的模块,体现了项目关联数据的思维与可视化技术的良好运用。用户可在地图上点击县区域查看该县地图。点击不同区域可以获取更为详细的地图,地图指向人物与地理实体,包括居民、教堂、学校、工厂、城镇等。点击信息标题可以获取地图来源档案文件指示信息,也支持链接到有关案例研究。此外,地图也支持人名、地图字段的简单搜索功能。

2 方法特色:档案主体视角显著

2.1 注重档案的有机关联

在奴隶制文化遗产项目中,关联工作并非在可视化分析步骤才启动的,它贯穿全程并要求通力合作,是档案有机关联与整体观的重要体现。从初期持续进行的案例研究工作开始,项目所有参与者都负责发现视角与关联的工作,在扩展材料叙述视角的同时也努力确保叙述的准确性。如,人口普查数据中黑奴本杰明·斯诺登(Benjamin Snowden)的记录显示他出生于1805年,而逃跑公告显示其出生于1809年。这种误差到底是当时调查的疏忽,还是表明这是不同的两个人?这就要求项目组比对多类文件进行确认。在确认调查中能够发现,文献材料是基于权力机关的视角形成的,奴隶姓名记录错误的现象十分常见,如奴隶主遗产清单中往往只记录奴隶的绰号,只能依靠丰富的文献量与强大的关联比对才能勉强应对。目前,项目组正朝着更加细化的关联思路、研究角度努力,开始尝试关联更多案例研究信息、人员、地点与事件,如将对多地新闻报纸中有关同一逃亡者公告内容的发布时差、目的地信息等进行关联挖掘,发现奴隶逃亡路径与协作逃亡的关键地点。

2.2 以档案机构为核心开展多元主体协作

一方面,档案机构的核心地位表现为马里兰州档案馆在项目发起、目标确定与调整、全程管控等方面都体现出最显著的话语权与行动。另一方面,各方力量在档案馆的倡议与统筹中充分参与,提供资金、技术、人员等:马里兰州公共电视台、摩根州立大学、国家历史出版与文件委员会等为项目提供资金支持;马里兰大学数字人文中心与数字策展创新中心提供工具使用、数据开发与呈现方法等技术支持;马里兰大学数字人文中心的学生以志愿者的身份,作为开发基础工作层面的重要参与者,除了负责基础转录工作与描述任务,还参与文件关系描述、案例研究、数字成果展示方法研究等工作。如“在地下”这一学生子项目就是由学生负责从报纸上搜寻与黑奴相关的所有逃跑公告、购买通知等,并协助档案馆完成故事案例挖掘、尝试进行文件中复杂关系的描述[24]。

2.3 在成果设计中强调档案对历史研究的服务支撑

首先,项目的重要服务群体是美国的家谱学者与历史学者,其开发视角与成果功能都侧重挖掘黑奴个体尽可能完整的生平信息,并期望通过数据关联发现并详细考察马里兰州反抗奴隶制的群体活动,方便学者展开奴隶族系研究及黑奴与政府、奴隶主、普通公众间的关系研究。其次,其项目最终成果形式——网络化研究基础设施也大大增加了其服务研究价值。该网站的网络化体现在将过程发现全部纳入集成开放的研究基础设施框架中,既包括数据库类的网状结构,在奴隶制历史中的典型人物、事件叙述等关键网点也有所覆盖且相互关联。除网络化的知识架构,网站内关于奴隶制信息使用的标准、政策与资源也指引俱全。但也存在一些问题,如用户与工作人员、与其他用户群体间缺乏沟通机制,面向用户的社会化协作开发程度不高等。

3 启示:档案机构主导数字人文实践的方法

3.1 以档案关联为重构多元叙事视角的核心

数字人文项目的目标导向往往关注补充多元叙事视角,聚焦隐性内容挖掘,这就要求档案部门应维护档案有机联系,将数据关联工作贯穿于数字人文实践。一是确立满足人文研究者的主题档案利用需求为数字人文开发的主要目标,再依据主题需求从馆藏数据中提取关系挖掘目标。二是使用半结构化数据仓储、语义分析、可视化分析、数据自动批处理等技术,辅助分析及提升关联效率。三是将档案有机关联思维辐射至数字人文开发全程,甚至于项目形成前就开始进行内容关联工作。奴隶制文化遗产项目时间跨度为20年,可以说前期的案例研究为之后的互动地图开发的技术路线与关联设计奠定了扎实基础,关联思维一直渗透到后续开发阶段。我国档案机构可在档案编纂工作中关注内容有机联系,也可与相关利用馆藏进行人文研究的学者进行合作展开案例研究,即在深入的馆藏研究后选择独特视角开发数字人文项目,并在之后的数字化、整合、数据关联、可视化分析、成果建设阶段不断扩展联系。

3.2 档案机构统筹之下强化主体协作与教研合一

档案机构的主导地位不限于档案机构的独自行动,而要凸显其统筹作用和档案话语权的显示度。一方面,除了对资源使用的绝对把控,档案机构在项目初始需厘清项目制度、各主体责任机制并进行流程设计,在开发各阶段按照既定目标统筹各方行动并不断更新决策规划。另一方面,档案机构要注重识别和利用社会各类力量。目前业务外包、高校合作已是我国档案机构拓展业务的工作环节,在实践过程中还可广泛寻求与文旅部门的合作,也可采取社会众包的形式进行。如,2016年上海图书馆发布线上众包抄录平台,持续在平台发布盛宣怀档案抄录任务并支持专业人员与业余爱好者对盛宣怀档案进行在线抄录[25]。在众多合作主体中,高校力量起关键性作用,高校研究组织能够提供专业支持来保障数字人文项目合规并提供成熟的数据分析方法、工具,还能让学生参与进来,从这一层面来看,档案机构完全能够成为学生的数字人文实践能力训练基地。目前,我国许多高校已展开数字人文相关研究及实践训练,并成立专门的研究中心[26-28],已有档案机构联合其力量共同建设数字人文项目,如“广州记忆数字文献资源库”由广州市国家档案馆主持,中国人民大学信息资源管理学院和中国电信广东公司协同建设[29]。

3.3 构建集档案网络化研究基础设施

为实现数字人文所需的多层次、多维度、跨时空的资源开发利用,档案机构要相应进行匹配化的资源建设,当前重点是构建网络化研究基础设施。我国档案机构已有数字化研究基础设施建设经验,代表性案例是由国家档案局主导建设的“中国开放档案共享平台”,其中近78万条档案目录及原文数据开启了历史档案信息资源“一站式”全国范围共享的格局[30]。后续工作中,要达到更广泛的知识关联共享与协作开发,需要档案机构内各管理要素的高度集合。档案机构应开发适用于其数字人文成果形式的网络专题平台,在网络平台框架内努力以可视化形式呈现关联后的新知识、新内容;还应详细拟定平台使用制度、建设标准与资源指引并予公开;再有,平台搭建的终极目标是刺激知识融合共享,以及促进用户与各要素间的交流,应将平台升级为档案机构主导设计、监督,主题知识、技术、标准等各要素涌流的协作研究平台。

猜你喜欢
马里兰州档案馆关联
“一带一路”递进,关联民生更紧
当代陕西(2019年15期)2019-09-02 01:52:00
奇趣搭配
关于县级档案馆馆藏档案开发利用的思考
兰台内外(2017年6期)2017-05-30 06:46:41
全省部分档案馆新馆掠影
浙江档案(2017年10期)2017-03-31 06:27:31
智趣
读者(2017年5期)2017-02-15 18:04:18
when与while档案馆
马里兰州欲叫停《纸牌屋》
环球时报(2014-03-31)2014-03-31 09:33:35
小鼠神经再生的检测(下)
语言学与修辞学:关联与互动
当代修辞学(2011年2期)2011-01-23 06:39:12
拖家带口 去应聘
环球时报(2009-03-19)2009-03-19 14:09:58