张晓雁 游 越
(1.北京大学外国语学院图书馆 北京 100871;2.北京大学图书馆 北京 100871)
近年来,数字人文研究引起学界的广泛关注,不同领域的专家学者积极投身于数字人文的理论研究与开发实践,数字人文相关学术论文呈现快速增长态势。有学者对2001 至2020 年国际数字人文研究共计1 107 篇文献进行定量与定性分析,归纳出数字人文研究的热点主题,其中“数字档案”排名第4 位[1]。究其原因,档案作为人类生产生活与社会实践的原始记录,具有真实性、原始性、独一无二且不可再生,是数字人文研究的重要对象和信息资源之一。
2022 年是北京大学“数字与人文”年,数字人文也一直是北京大学推进交叉学科建设的重要领域。北京大学有着深厚的人文和科学积淀,很多院系都有与数字人文相关的丰富积累。该校倡导人文学者积极面对数字时代的到来,在数字科技助力下,开拓人文研究的新方式和新领域。在这样一种大环境下,北京大学的人文学者们纷纷响应号召,积极开展数字人文相关实践。笔者所在的北京大学外国语学院就有多位学者采用新思维、新技术、新方法,建立数字平台,将区域与国别研究、语言学、各国文学与数字人文技术深度融合,开展学术研究、重塑人文精神。以国家社科基金重大项目“‘太平洋丝绸之路’档案文献整理与研究”为例,项目组与北京大学人工智能研究院团队合作,共同建设“太平洋丝绸之路档案文献数据库”。项目组负责收集、整理太平洋丝绸之路外文档案文献,北京大学智能研究院团队负责技术层面的建设和实施工作。两个专业团队深入合作,探索出“深度融合、适度交叉、有序推进、互相成就”的数字人文建设模式。作为“‘太平洋丝绸之路’档案文献整理与研究”项目的子课题——“太平洋丝绸之路档案文献数据库”的负责人,笔者全程跟踪、部署、实施项目的建设全过程。本文在调研国内外档案资源数字人文建设的基础上,通过介绍“太平洋丝绸之路档案文献数据库”的建设过程,探析高校图书馆在其中的角色定位并总结数字人文视域下外文多语种档案建库经验,以期为国内数字人文项目提供借鉴与参考。
数字人文概念源于20 世纪60 年代的人文计算。21 世纪初,由于技术对人文研究领域的渗透,数字人文逐渐取代人文计算,成为新兴跨学科研究领域。国外数字人文研究相对较为成熟,既有成功的档案个案研究,如Pamela VanHaitsma通过技术手段还原了美国废奴主义者莎莉·霍利(Sallie Holley)(1818—1893)的缺失演讲语音档案[2];Robledano Arillo Jesus 等运用数字人文技术构建西班牙内战时期摄影档案相关数据模型[3];也有对美国高校图书馆整体数字人文研究的探讨。如田燕飞、盛小平采用网络调查法与案例分析法,选取美国10 所数字人文服务开展较好且影响力较大的高校图书馆,从数字人文咨询服务、数据管理、技术支持及协助申请资金等方面进行研究,总结美国高校图书馆数字人文服务的特点[4];苏敏以2019 年U.S.News 世界大学综合排名前50 名的美国高校图书馆为调查对象,运用网络调查法对这些高校图书馆数字人文服务进行具体分析,发现这50 所美国高校图书馆都开展了数字人文服务,服务内容主要包括数字人文推广服务、数字人文教学支持服务、数字人文科研支持服务、数字人文项目开发服务和数字人文参考咨询服务[5]。有学者在文献调研后指出,国外数字人文研究多以图书馆、档案馆、博物馆等时光记忆机构为依托,“以特色档案资源建设、古籍文献数字化为发展契机”[6],建立相关数字人文网站和专题数据库,面向读者开放。
在国内,有关档案资源数字人文方面的研究进展也非常迅速。在CNKI 平台,以“数字人文”“档案”“数字化”为主题进行检索,共检中314 条记录(检索时间为2022 年12 月6 日)。去除无关文献后,得到有效结果188 条。逐一梳理文献发现,国内档案资源数字人文研究主题主要集中在红色档案[7-11]、口述档案[12][13]、文化遗产[14][15]、人物手稿[16][17][18]以及诸如泉州海上丝绸之路文献[19]、敦煌吐鲁番文献[20]、徽州文书[21]等地方特色档案资源领域。对于外文档案资源的数字人文研究,特别是诸如荷兰、印尼、菲律宾等非通用语种的档案资源数字人文研究非常少见。
此外,从论文发表时间看,2022 年占比21.81%、2021 年占比34.57%、2020 年占比28.19%;从学科分布看,档案和博物馆占比67.55%、图书情报与数字图书馆占比21.28%;从基金分布看,国家社会科学基金占比21.81%。由此看出,近3 年国内档案资源数字人文研究发展势头强劲,发文量逐年递增(考虑2022 年非整年及CNKI 收文滞后等因素)。与国外数字人文研究主体一样,国内研究机构主要也是档案馆、博物馆和图书馆。同时,研究还得到一些国家级基金项目的重视和支持。
太平洋丝绸之路是海上丝绸之路的重要组成部分,既包括太平洋西岸的贸易活动,也包括以丝绸为主要代表的中国商品通过跨太平洋海上航线,到达太平洋东岸地区的贸易活动。由于相对晚于印度洋贸易活动,太平洋丝绸之路鼎盛时期的大量档案文献资料保留在西班牙、荷兰、日本、英国、美国等太平洋沿岸国家和欧美国家的档案馆和博物馆中。
以数据库形式全面盘点、分类、整理、呈现不同语种涉及太平洋丝绸之路档案文献,从中甄选出重要文献进行翻译和深入研究,通过文献呈现不同时期、不同地区海洋贸易政策的特点,这是国内学界的前沿领域,具有开创性、引领性与示范性。具体体现在以下几个方面:
2.1.1 拓宽海上丝绸之路的格局和视野
数据库中的资源组织将海上丝绸之路的范围从太平洋的西岸地区扩展到太平洋东岸地区,将中国海洋贸易史、海上交流史和大航海时代的全球史进行有机的结合,通过中外文档案文献的深入对比研究,为太平洋贸易网的系统研究进行资料准备,并为中国在海洋贸易的影响地区扩展到太平洋的东岸地区奠定坚实的基础,从而使海上丝绸之路的格局和视野都更加广阔。
2.1.2 开拓涉海研究的新思路和新方向
数据库以各国多语种档案文献为基础,从以中文和英文档案作为主要研究材料来源逐渐转变成兼顾多语种档案并进的思路,在一定程度上促使海上丝绸之路研究、海上贸易研究回归其应有的轨道,开拓了涉海研究的新思路和新方向同时,广泛、持续地积累涉海文献,摸索档案文献数据平台建设的经验,探索以多语种、跨地区、长时段文献和资料为基础,也将为太平洋丝绸之路提供全方位有力支撑的途径。
2.1.3 突破现有太平洋丝绸之路档案研究局限
不再将档案的研究局限于通过中文档案文献说事情、一文一说或多文一事,而是将太平洋丝绸之路的档案文献研究置于地区大历史背景下。数据库元数据选取代表太平洋丝绸之路不同的历史时期;选取不同国家和地区典型的档案和馆藏资源;选取能反映世界相关地区和太平洋地区历史上发生的重大历史事件的相关档案;选取能够与当前现实相呼应、突出中国在太平洋丝绸之路、太平洋贸易中发挥作用的档案。充分利用数字人文技术,对涉及的大量历史事实和档案文献进行总结提炼,选取最有代表性的案例进行重点挖掘,以线串点、以点带面,取得以微小窥全局的效果,从而充分反映太平洋贸易的兴衰变迁。
数据库建设由北京大学外国语学院的吴杰伟“‘太平洋丝绸之路’档案文献整理与研究”项目组和北京大学智能研究院的马郓团队合作完成。项目组成员既有外语学科学者(负责资源内容)、计算机技术专家(负责数据库架构)、人工智能(负责档案数据的收集和分类)专业人员,还有图书情报学(负责需求分析和数据加工)、艺术学(负责人机交互界面设计)等领域专业人员。
针对数据库建设的具体目标,项目组采用互联网软件开发中的“敏捷开发”模式,定期生成迭代任务清单,辅以燃尽图,由开发团队持续快速响应,达到“更低风险、更高质量、更快交付”的软件开发目标,从而获得非常高的团队满意度。此外,项目组采用每周例会交流形式,根据项目需要进行深入讨论,形成过程文档。例会中还对其他成员进行“科普”,将本学科的需求用其他学科的话语体系表达出来,并在工作成果的迭代中,找到更多、更新的研究思路。
数据库资源主要包括16 世纪后中国与太平洋西岸地区(日本、东南亚等)- 中国华南地区 -菲律宾Manila(马尼拉)- 墨西哥Acapulco(阿卡普尔科)跨太平洋大帆船贸易为标志的海上贸易活动外文档案。资源类型多样且时空跨度大,涉及国家和地区多,语种丰富。16 至19 世纪太平洋地区贸易往来档案,除常规档案外,还包括地图、海图、贸易货物清单、人员信息、海关记录、法律文书、海洋科技文书等。资源涉及太平洋沿岸的东北亚、东南亚、北美、拉美等地区,聚焦日本、荷兰、印度尼西亚、菲律宾、美国、墨西哥、英国、葡萄牙、西班牙等国家相关领域的档案资料,语种包括英语、日语、西班牙语、荷兰语、葡萄牙语、印度尼西亚语等。
在收集渠道上,主要是对各国档案馆、图书馆等原始档案文献的提取整合。由于项目组的部分成员具有在对象国长期工作和研究的经历,与对象国的档案馆、博物馆、研究机构及主要学者有密切的接触和往来,从而能够获取丰富的原始档案。目前,项目组已经与西印度档案总馆、荷兰国家档案馆等机构取得联系,并签署协议、得到许可。
2.4.1 数据库资源体系层级结构
通过对现有太平洋丝绸之路沿线各国多语种档案资源类型和内容的研究分析,本项目数据库资源体系层级结构的资源分类方法采用“类型——收集区域/单位级别——主题”的复式分类法来制定。
2.4.2 多语种档案史料的元数据
元数据是用于描述每个太平洋丝绸之路沿线各国多语种档案电子文件属性特征及其内容信息的结构化数据,由若干字段名称、关系以及著录内容组成,是建立统一标准规范的重要环节。本项目档案数据库的字段设置参考Dublin Core (都柏林核心) 元素集为基础进行设计。元数据字段主要包括归档单位、文件类型、年度、档号、题名、描述、责任者、采集时间、主题分类、保管期限、原文链接、文件大小、版权信息、图片分辨率、图像尺寸等。这些字段名称是数据库应用平台中资源管理模块设计的重要依据和基础。
数据库是以太平洋丝绸之路沿线各国多语种档案文献史料为基础元数据,提供在线访问、查阅检索与全面展示研究的信息化平台。数据库客户端具有对太平洋丝绸之路沿线各国历史档案所包括的海图、地图、海关记录、法律文书、海洋科技文书等多种电子档案的访问、下载和一站式检索功能;后台管理端则实现了管理员对多种档案资源的数字化科学管理。数据库包括网站系统、电子资源管理与使用系统、后台管理与发布系统。通过3 个子系统构建完整的多语种档案资源信息化综合平台。
经过两个团队的共同努力,目前数据库已基本完成测试并上线使用,数据库一级页面见图1。现收集西班牙语、荷兰语、印尼语等外文档案资料 8 000 余份,内容包括海图、贸易货物清单、海关制度、法律文书等,基本都是国内学界初次接触的原始档案文献。后期还将通过后台管理端,持续补充、更新、完善数据库档案资源。
图1 “太平洋丝绸之路档案数据库”主页
数字人文建设如火如荼的大环境下,作为支持高校科研的重要机构,高校图书馆需要做好自身角色定位并帮助学者高效、深入地开展人文研究。关于图书馆员在数字人文建设中的角色定位,图书馆界有少量专业文献进行了研究。汪莉指出图书馆需要在新的学术环境中重新定位自身学术角色,数字人文需要的不是支持者和服务者,而是合作者[22];杨新涯认为基于图书馆和人文学者之间的分工,图书馆在数字人文的发展中主要扮演“我负责食材,你负责灶台”的角色[23]。笔者比较认同汪莉和杨新涯的观点。
在本项目中,图书馆员协助人文学者,不仅充当着“负责食材”的前期切配厨师角色,还需要充分了解、准确把握人文学者的项目需求,熟悉技术人员的研发方案,并为两者间沟通交流搭建桥梁,担负起类似企业产品经理的责任。
数字人文时代,人文学者只拥有资源是不够的,还需要将这些资源进行数据化。资源数据化是数字人文研究的基础,也是图书馆员需要发挥专业背景开展工作的重要内容之一。资源数据化过程会涉及很多细节,例如数据获取范围、数据清洗标准等。人文学者有时在数字技术方面存在“短板”,图书馆员可以利用图书馆学相关方法更好地完成早期数据处理工作,发挥技术匹配及协调能力,为人文学者提供解决方案[24]。在本项目中,图书馆员作为切配厨师,对早期多种形态的“食材”进行深度清洗、精细切配,最后形成净菜,配以现代化灶台(技术人员的技术方案)提供给大厨(人文学者)烹饪。以用户需求分析为例,图书馆员将外语专业学者提出的较为模糊的档案手稿需求,进一步细分,并逐步清晰化,最终明确功能需求,以图表形式展示给技术人员(见表1)。这一过程可以概括为产品需求(用户需求)--业务模块--功能模块--具体功能。
表1 “太平洋丝绸之路档案数据库”功能需求一览表
事实上,太平洋丝绸之路沿线各国档案馆、图书馆的原始档案资源非常丰富,对这些资源进行数据化,将所有纸质文献和电子文献以元数据的形式呈现,并在元数据基础上进行必要的知识组织,是图书馆员的工作重点与难点。本项目中,馆员和外语专业学者通过标准化、规范化建库,不断讨论确定数据选取和清洗标准,调整数据结构,以最大程度保证数据库资源建设方面的统一性和规范性,确保数据库的开放与共享。同时,在数据的遴选整理、罐装录入、图像处理、文本识别、“软件+人工”校对、数据标引等各环节进行层层把关,通过科学流程确保了数据加工质量。
3.2.1 面向人文学者的需求分析
面向人文学者的需求分析是指馆员对接人文学者,就人文学者的项目需求进行全面了解和针对性剖析,从而明确项目建设目标和内容。人文学者有可能对数字人文方法论不太熟悉,对数字人文技术的实现效果不太清楚。因此,在项目早期,人文学者类似于对象国的问题提出者,馆员则是一位转译者,在人文学者与技术人员之间起到桥梁对接作用。
在本项目中,外语专业学者提出的需求基本是口头性描述。即学者从自身操作角度出发,以“故事”形式来描述其渴望得到的系统功能。这些描述往往是对软件功能特性的非正式、局限于某个特定场景的一般性解释。并不是适合技术人员开发的标准需求,不能直接用于指导系统开发。例如外语学者提出,“通过这个网站我想看到荷兰和西印度两家档案馆收藏的档案手稿的关联性”,这一描述既无法精准反映出软件需求,还因碎片化而呈现出一些局限性。
基于数字人文视角,在“太平洋丝绸之路档案数据库”建设中,馆员经与外语专业学者多次沟通,通过“先发散、后收敛”的方式精准识别与解析用户需求,保证研发项目需求边界清晰。项目以外文多语种数字档案为主,通过与国外档案馆和研究机构建立合作关系,获取大量的太平洋丝绸之路的数字档案文件。根据外语专业学者希望看到荷兰、西印度等不同国家档案馆不同语种手稿的需求,图书馆员需要先期考虑到跨库检索中非通用语种字符的数据处理问题以及采用“爬虫”等技术采集网站资源,通过第三方接口形式获取专业数据。此外,外语专业学者希望通过平台建设能够梳理太平洋丝绸之路发展过程中的重要历史节点、人物和事件之间的联系,探索建立相关知识图谱,从而梳理出太平洋丝绸之路相关国家的文献联系和信息联系,图书馆员需要先期考虑数据库应具备数据关联和分析功能。在底层数据集建立时,即对基本数据集、原数据集、新数据集等相关子库共有或特有元数据进行标准化规范,对其关联性进行确定,避免最终结果失真的同时还能够保证建立检索结果彼此间的多重关联关系。
3.2.2 面向技术人员的需求沟通
面向技术人员的需求沟通贯穿技术人员的研发全周期。早期馆员应对接技术人员,将与人文学者深入沟通后的建设目标和内容,转换为平台功能需求分析,传递给技术人员。中期,馆员需要与技术人员共同探讨数据库系统架构,并对关键技术有大致了解。研发后期,馆员需要对平台进行测试,以发现错误,并对软件质量进行评估。除测试网站功能外,还包括软件形成过程的文档、数据和使用指南等方面的测试。只有这样高效的、贯穿全流程的需求沟通,才能保证项目的顺利实施。
可以看出,数字人文项目中,图书馆员切配厨师和产品经理的角色定位要求馆员既要非常明确人文学者项目内容的深度、广度,也要大致掌握现有数据处理技术、数据分析方法和可视化技术方案。事实上,近年来,图书馆员也逐渐成为数字人文领域的重要推手,在与人文学者的项目合作中形成一种新的协作关系。这一过程不仅提升了高校图书馆的学术话语权,让学科馆员工作真正融入高校学科建设中去,也进一步地体现其在支撑学科发展中的担当和作为。
在两个专业团队的通力合作下,“太平洋丝绸之路档案数据库”已经完成整体研发、测试并顺利上线,面向国内外业界学者免费、公开访问使用。作为该数据库项目负责人,笔者对数据库能够成功上线的几个关键性问题体会颇深。
数字人文应用项目中,研究团队构成的跨学科、多元性以及团队成员的创新意识非常重要。在本项目中,人文学者不再是孤军奋战、单打独斗,而是有组织、高水平的团队合作。团队成员既有北京大学外国语学院外语学科、语言学学科的顶级人文学者,又有北京大学智能研究院的高水平计算机技术、人工智能领域专家和强大的学生研发团队,还有专业图书馆员、艺术学领域学者。同时,项目组每周例会制度和 “敏捷开发”工作模式,充分讨论项目需求,总结阶段性工作并布置下一阶段任务。这些都是“太平洋丝绸之路档案数据库”能够超出原计划,提前3 年顺利完成的关键所在。
在本项目中,可以看到:科技赋能人文、人文赋值科技。在技术的强大支撑下,人文学者不再管中窥豹而是通过直揽全局的资源掌控,开启了相关研究领域的广阔空间;而北京大学智能研究院团队通过本项目,也对 DOI (Digital Object Identifier)赋码技术开展进一步的实践研究,并择机与图灵奖得主罗伯特·卡恩(Robert E.Kahn)开展有关数据的“逻辑汇聚、物理分散”合作。可以看到,项目真正实现了双方互利双赢发展。
有学者认为,“图情领域理论与方法是支撑数字人文的基础”,“图情领域的专业性人员优势、专业性组织优势、数字学术空间优势也将有力助推数字人文研究的开展”[25]。
在本项目中,图书馆员在对人文学者研究需求进行深入调研的基础上,在数据库开发前期,即对数据资源层面的结构化数据进行了有序的组织,包括书目、各级各类档案目录、元数据、专题门户、名称规范文档等。这些支持数字人文研究的数据资源大多是建立在图情领域相关理论和业务基础上的实践成果,图书馆员在这方面的确是得心应手的。
此外,本项目中,数据库实现了对多语种档案资源的数字化转化,通过对每份档案的标引,揭示了词与词之间的内在关联,通过知识组织和交叉来深入揭示资源内部关系,实现对更多文献的掌握和处理。而这种文献标引技术与方法也是图书馆员的强项。
20 世纪初,我国高校图书馆参照国外经验,建立了学科馆员制度。一直以来,学科馆员在高校用户学习、教学、科研、管理等方面的信息难题求解和信息文化培养做出了一定的贡献。但是,近年来,随着高校各院系学科建设的要求与时俱进,对学科馆员的要求也愈来愈高,仅仅面向师生的问题解答与信息素质培养是不够的。在数字人文的成功案例中,都可以看到学科馆员的身影。他们发挥自身数据处理、需求分析等方面的图书情报专业优势,真正地融入高校学科建设中。
以笔者所在的北京大学图书馆外国语学院馆为例,学科馆员除日常答疑解惑、用户培训外,还按照北京大学外国语言文学学科建设要求,定期运用多维文献计量和情报分析方法,对标国内外相关机构,发现学科的长项短板、分析学科竞争力。在本项目中,馆员还作为建库子课题负责人,真正地融入学院教师的课题研究中。
数字人文建设中,学科馆员需要具备多种能力并进行角色转换。在本项目中,学科馆员不仅要具备对人文学者研究需求的先期调研能力,还需要具备文本数字化和挖掘、数据管理和保存等数字人文技术应用的能力;不仅要熟悉数字人文研究的全生命周期,还能够有效地沟通协调人文与技术之间的关系,帮助学者跨越人文与技术间的鸿沟。事实上,高校图书馆已经从单纯的信息资源或空间资源的提供者,转变为合作更深入、服务更精准的学术协作者。
在“资源共享、服务共建、文献分藏、读者分流”的建设思路下,北京大学文献信息资源服务体系由北京大学图书馆(简称“总馆”)和41 所院系分馆(简称“分馆”)组成。与总馆独立于院系不同,分馆作为教学、科研的重要辅助机构,是院系的重要组成部分。分馆立足院系,更加贴近本院师生需求。一方面分馆馆员在行政上隶属本院系的职工身份,让她们与本院师生读者有着天然的亲近感;另一方面,分馆与院系同处一楼,本院师生就近入馆,分馆往往会发展成为院系的学术活动交流中心,更有利于学科建设发展。
在本项目中,分馆馆员与人文学者均隶属于北京大学外国语学院,彼此相互熟悉且有着共同语言,具有良好的互动合作关系;分馆馆员和人文学者的办公室也同处一楼,更利于线下沟通交流。更重要的是,多年来,分馆馆员已经融入学院学科建设中,参加学院各类学科建设研讨会、专题会,教育部学科评估工作,同时承担学院学科发展史等项目建设。她们非常了解学科建设背景、明确学科建设要求,这些因素均有利于项目的顺利实施、部署。
开放共享包括两个方面:一方面,与传统物理空间保存、获取资源方式不同,数字人文项目通过对资源的数据化及相关技术处理,让人文学者可以便捷地在线访问、开放共享诸如太平洋丝绸之路多语种档案这类专业资源,促进该领域学者的科学研究,让学术交流与共享变得更加通畅。另一方面,现今强大的软件开发技术让高效获取线上数据易如反掌。在本项目中,得益于北京大学系统软件团队黑盒式数据互操作技术(2018 年国家技术发明一等奖),研发团队在不到2 天时间内,即生成了6 000 余份、数十万份档案的访问路径。
但是,开放共享应该建立在版权保护的基础之上,开放共享的互联网时代更加需要强调版权保护意识。即使技术上获取数据非常容易,项目组始终坚持“版权保护”底线。未经授权,不能将档案存储在项目自设的数据库;即使授权,也只能在授权范围内的档案进行拷贝。我们认为,只有充分体现对创新创造的尊重和保障,开放共享才能走得更远。
当前,数字人文已逐渐成为人文学者研究的重要方法和工具,高校图书馆作为学术支撑的重要机构,必须明确自身在数字人文中的角色和地位。本文以“太平洋丝绸之路档案数据库”建设实践为出发点,探讨了数字人文项目中高校图书馆的角色转换,阐述了数据库建设中的几点体会。然而,该项目的建设意义不仅是建成了一个获取太平洋丝绸之路档案资源的数字平台,更重要的是跨越数字和人文的边界,通过跨学科合作开展人文学术资源数据研究,实践数字人文的构建思路,从而赋予研究者更为多元的观察视角,启发学者面向数字人文做出更多前瞻性思考和学术准备。
2022 年12 月,在北京大学社会科学部组织的 “数字与人文领域专项支持计划”之“节气沙龙”活动中,两个团队负责人以“太平洋丝绸之路的探索与思考”为题做了专题报告,引起了强烈反响。与会专家从各自研究专业视角提出了未来相关研究的建议,并一致认为数字人文的发展为传统人文研究提供了跨学科的研究范式,新的研究方法带来了新的研究思路,拓宽了人文学科研究的领域,增强了人文学科研究的科学性。我们有理由相信,未来,数字与人文的结合必将在促进思想文化传播方面发挥巨大作用。