蔡迎春 (上海师范大学图书馆 上海 200234)
特藏资源是图书馆宝贵的教育资源,体现着图书馆的人文底蕴和资源价值,历来为所有图书馆所重视。据OCLC发布的最新研究报告《推进国家数字平台:美国公共图书馆和州立图书馆的数字化现状》显示,美国92%的公共图书馆拥有本地重要的、独特的实体特藏,而在过去3年,已有37.6%的图书馆致力于特藏资源的数字化建设[1]。而荷兰莱顿大学图书馆馆长和出版社社长贝尔德 (Kurt De Belder)在2013年的一次讲演中曾预测,在15年内高校图书馆将只有特色馆藏在本地存储和管理,其他纸本馆藏都将存入国家/地区级的仓储库。未来图书馆资源竞争将是以“非正式出版物”为核心的特色馆藏竞争[2]。武汉大学图书馆副馆长张洪元也提出,图书馆要实现特殊化,体现图书馆特别的理论与价值,就要加强特藏建设、提供特藏空间[2]。
因此,伴随着整个社会数字化迁移的过程,国内很多图书馆非常关注特藏资源建设,并且在充分考量现有资源特点的基础上,强化本馆资源特色,着力特色资源库以及特色数据平台的建设。据2016年的一项调查显示,所调查的我国179所高校图书馆中有98所拥有特藏资源库,占比54.7%[3]。其主题范围涉及到古籍、民国文献、地方文献、地方戏曲、文史资料、非物质文化遗产等。但在资源的记录与揭示上,这些数据库多是基于书目数据库的题录、电子全文、照片、声像、视频等数字化的资源集合,很多数据库中的知识未能得到充分揭示。仅有少数图书馆将数字人文理念和技术结合进特藏资源数字化建设中,并且取得了一些进展,使许多本习以为常的数据,在经过深度挖掘和关联后,展露出了新的内涵和本质特征。因此,数字人文相关技术在特藏资源建设中的运用亦越来越多地引起图书馆界的关注。
表1 上海地区图书馆特藏资源数字人文建设情况
在国外,数字人文研究多以高校和图书馆为依托,为各类数字人文研究项目提供丰富的数据支持。据美国《图书馆管理杂志》2013年1月登载的一项调查报告显示,截至2012年11月,全球已有近100个正式的数字人文中心,其中大约有一半在美国。这些数字人文中心约有半数坐落于图书馆内,另有1/4与图书馆保持着某种非正式关系[4]。到了2016年,美国已有41%的图书馆为数字人文项目提供特别服务,17%的图书馆中设有数字学术中心,为多种学科提供支持,5%的图书馆设有专门为人文学科服务的数字学术中心[5]。典型的案例有:美国普渡大学(Purdue University)图书馆利用GIS技术从研究合作、学习支持和活动推广3个角度提供支持人文及社会学科的服务[6]。美国密歇根大学图书馆参与数字人文项目“Using the Digital to Read Literary Texts in Context”,对20世纪初加利福尼亚地区杂志中的地域文学小说进行整理、筛选及可视化[7]。爱尔兰的都柏林圣三一学院(Trinity College Dublin)图书馆在发起数字人文项目“The Mary Martin Diary”时,充分利用了图书馆的沟通技巧、项目管理技能、数字化工具和技术以及其他在线资源的使用,为这个多学科合作项目提供了人员、资源及技术保障[8]。
在国内,数字人文项目及相关的实践虽然引起了一定的关注,但实践案例主要还是集中在研究机构或人文领域,图书馆应用数字人文相关技术来进行特藏资源建设的实践案例相对来说还比较少。以上海地区为例,调研的29家高校图书馆中,有19家具有本馆特色资源,已建和在建的特藏资源库达到44个[9]。但是,仅有4家在特藏资源数字化建设中应用了数字人文的相关技术。另外,上海图书馆由于长期的积累,特藏资源丰富,尤其是名人手稿、家谱、地方文献等,在特藏资源的数字人文建设中,可以说是起到了非常重要的引领作用,具体见表1[10]。
具体分析上海地区图书馆特藏资源数字人文建设情况,一般都是以数据库或数据集的形式开展,主要集中在文学、艺术、语言学、古籍、历史文化、档案等人文领域。就数字人文相关技术而言,应用较多的有规范控制、文本挖掘、关联数据、信息可视化等。
(1)规范控制是图书馆编目控制中的重要一环。例如,利用人名规范可以方便集中同一责任者的不同著作,也能汇集同一著作的不同版本或译本。以上海图书馆的“人名规范数据集”为例,作家鲁迅的笔名多达100多个,只要建立一个规范档,就能将鲁迅以不同笔名发表的文章都集中在其词条下。而要将同一人的很多信息集中在一起,就要设置这个人唯一可被机器读取的标识符,用HTTP的URI表示。这个唯一的标识符,不仅可以是人名,也可以是地名,在互联网上具有唯一性。
(2)文本挖掘技术以非结构化的文本数据为研究对象,能够实现从海量的非结构性文本中发现新的模式、规则、趋势等,为用户非结构化的文本挖掘与分析研究带来便利[11]。文本挖掘技术一般在文献与目录的研究项目中应用较多,可以方便地实现资料查询、计量分析、统计等功能,实现文献的深度利用与开发。以上海财经大学图书馆的“数字人文知识发现平台”项目为例,通过数据挖掘,可以尽可能全面地揭示电影资源附着的各类信息,并以时间轴、数据地图、对比的方式呈现数据[12]。
(3)关联数据是一种已经发展成熟的语义技术实现方式,可以把散落于不同文献的人、地、时、事关联起来,形成完整的知识图,以可视化的方式展示。例如,上海图书馆的“上海年华”项目,主题较广,涉及到的文献有报刊、手稿、照片、名人档案、地图、地方文献等资料,上海图书馆正是利用关联数据技术对馆藏特色资源进行全方位的整合,以立体的方式呈现出各事件之间的关联性。
(4)信息可视化是指从数字资源中发现特定知识并用图形化方法呈现,并显示文本中隐含的内容和关系,如GIS技术与地图绘制等[13]。例如,华东师范大学图书馆的方志库,利用可视化技术将方志文本中复杂或难以表达的内容,以视觉符号或图表的形式表达出来,为人们提供一种理解海量复杂文本的内容、结构和内在规律等信息的有效手段,使研究者视觉认知、关联、推理的能力得到充分发挥。
我们应该看到,数字人文应用在特藏资源数字化建设中取得了一定的成就,在一个项目建设中综合运用多种数字人文相关技术的情况越来越多。但是,在为人文研究提供了许多便利的工具和方法的同时,许多相关的应用还不是很完备,尤其是对“如何建”“怎么建”等相关问题考虑还不是很成熟,对人文学者研究没有真正起到帮助作用。以上海外国语大学图书馆的“俄罗斯文学特色文献数据平台”项目为例,数据检索结果可以显示各数据库的列表形式展示给用户,虽然可以清楚看到来源数据库,但对用户帮助不大[14]。如果能将资源以更符合用户需求的条件排序,并能去除其中的重复数据,则可以进一步提高用户的研究效率,扩展其研究视野。
另外,上海地区其他图书馆在特藏资源建设上应用数字人文相关技术的情况还不是很多,为此笔者进行了相关调研。结果显示,67%的图书馆对数字人文理念及相关技术还不是很了解;78%的图书馆表示目前本馆缺乏既懂数字人文技术、又对人文学者研究需求熟悉的馆员;35%的图书馆在特藏资源建设应用数字人文相关技术方面有规划,但是还未制定出相对成熟的具体方案。调研结果从一个侧面反映了目前图书馆对数字人文理念和相关技术还需要深入了解,图书馆缺乏相应的人才储备。虽然如此,许多图书馆还是计划在特藏资源建设中结合人文学者的研究需要,尝试数字人文技术的相关应用和研究。
上海师范大学图书馆在确定了以数字化的特色馆藏服务教学和科研的目标以后,拟将馆藏民国文献的整理与研究作为突破口,把“原版民国时期文献”和建国后出版的“新版民国时期文献”(包括编校、再版和影印出版)结合起来,建设一个能充分揭示民国时期文献及整理成果子目内容的目录数据库——“民国时期文献目录数据平台”(以下简称“数据平台”),以有效促进人文学者对民国文献的分析和研究,并使民国文献整理出版和采集有章可循。
当前民国时期文献及其整理成果丰硕,本研究通过全国各大图书馆的馆藏目录、各民国文献主要出版机构目录等途径收集的“新版民国时期文献”近1 000种。但是,到目前为止,尚没有一个关于“新版民国时期文献”的目录数据库。“数据平台”将扩展民国时期书目整理的时间外延,首次全面普查1949年后民国文献整理出版成果,把握民国文献出版整体情况,揭示已整理出版的民国文献中所收录图书、报刊和档案的子目内容,弥补解放后民国文献的整理出版无书目可查的缺憾,可以使民国文献的书目索引编制更加完整,并具有可持续性。
另外,数字人文相关技术可以有效揭示“新版民国时期文献”与“原版民国时期文献”之间的关联性,有利于发现民国文献整理是否过于集中于哪些类目,哪些文献类型或者哪些文献被重复、过度整理,哪些文献一直未被重视、甚至被忽视,从而找到并发现文献整理出版的趋势和轨迹,便于出版社和图书馆制定出版计划或进行采购决策。而且,通过数字人文相关技术的应用,可以揭示某一人物、某一事件或某一学科研究进展之间的关联,并以可视化的方式呈现,帮助学者快速地从海量的数据中发现新的知识,发现人物关系、事件发展脉络以及某一学科发展轨迹。因此,本项目应用数字人文技术,主要是解决3个方面的问题:一是解决数据检索、文本对比和文本标注的问题,将人文学者从低水平的重复工作中解放出来;二是基于数据的量化统计和分析研究,对内容数据进行关联;三是对知识进行多维度呈现,为学者提供一种新的角度来解决问题或发现新问题。
“数据平台”建设之初,项目组首先邀请到相关领域的专家进行论证,主要是考虑如何建的问题,即如何用数字人文相关技术建立一个多元的、可供分析的“数据平台”来达到建设目的。
(1)需要建立规范档
民国文献出版具有一定的特殊性,如出版地、出版机构名称变更的情况普遍,民国期刊停刊、复刊、出版周期不固定等情况较多,还有就是著者笔名尤其多。因此,建立规范档就成为先决条件之一。除了常规的主题规范、文献类型规范以外,需要对名称进行规范,尤其是对同名的不同责任者以及同一责任者的不同笔名进行消歧与合并。
(2)具备数据关联和分析功能
民国文献中所涉及的人、地、时、事等都具有千丝万缕的关联,如果按时间、人物、地点及出版机构等进行多重关联统计分析,就能够快速地从海量的数据中发现新的知识,发现人物关系、事件发展脉络以及出版发展轨迹等。
(3)具备可视化功能
应用可视化工具,能够为民国时期的出版史研究、文献版本研究乃至各个学科的专题研究提供较为直观的分析,把传统数据库的检索结果变成用户可以开展自主分析的基础数据,把传统数据库检索结果的平面式输出转化为立体化的全方位时空呈现。
(4)具备数据的后续更新和维护功能
“数据平台”不仅能录入数据,也应便于查重,实现新版本追加、自动排序以及索引编制功能,解决数据的后续更新和维护问题。另外,还需要具有开放性,为以后进一步增加全文提供接口。
建立“数据平台”的基础数据,首先主要是依托《民国时期总书目》和《1833—1949全国中文期刊联合目录》及其补编本,以及本项目收集到的“新版民国时期文献”相关子目。
“数据平台”的定位不仅仅是储存与检索,其既要为人文学者提供研究环境,并帮助他们重新组织知识、发现问题,还要为出版社和图书馆提供出版或采购依据。因此,在项目启动之初,关于如何利用图书馆现有的人力、物力以及资源条件,将数字人文相关技术应用于“数据平台”,成为项目亟需解决的问题之一。
(1)共享开放的规范数据集
名称规范档的建立是“数据平台”建设的基础,也是最重要的环节之一,但是目前利用图书馆现有的人员和技术条件很难实现。因此,在建设时,项目组大量调研了上海地区其他图书馆,尤其是上海图书馆的特藏资源数字化建设,在对规范数据充分了解的基础上,加强与上海图书馆的合作,利用其开放的人名规范数据集,首先进行先期的规范档建立,并且在合作共享的基础上,逐步实现对出版机构等其他相关规范档的建立。
目前,“数据平台”已搭建完成,大量基础数据正在录入。对于文献作者,以及题名、摘要中的人名,则直接进入上海图书馆人名规范库获取其URI,然后进行著录。例如,《哲学概论》一书的作者陈大齐,通过规范库的检索,其人名URI值为http://data.library.sh.cn/entity/person/p7sfh4jcd1mfa4vt,“数据平台”就将此URI直接录入。对于有多个笔名或别称的作者,如冰心,原名谢婉莹,笔名冰心女士、男士、素人,所有这些名字的URI赋值都是一致的,均为http://data.library.sh.cn/entity/person/05ebng66w4qjnkhg。
(2)数据关联及文本分析功能的实现
“数据平台”在底层数据集建立时,通过对基本数据集、原版数据集、新版数据集和新版子目数据集4个相关子库所共有或特有的元数据进行规范,并对其关联性进行确定,从而建立彼此之间的多重关联关系。因此,利用“数据平台”可以开展基于数据挖掘的文本分析与统计。
目前,“数据平台”规范的元数据包括文献目录(含内容提要)中的人名、地名、学科主题、原版及新版出版项等信息,可以利用“数据平台”提供的检索和分析功能进行文献主题分布、出版地分布、作者分布、年代分布等分析,并且还可以利用这些信息进行组配式的关联分析。例如,通过对著作的主题、出版时间分析,揭示某一学术领域的研究或某一学术流派在民国时期的学术史;通过作者及其著作出版时间的分析,勾勒出作者的学术轨迹和学术生平等。又如,如果想要获取“民国时期敦煌学研究”的相关信息,通过作者与主题的匹配分析,可以看到敦煌学的早期研究者的基本信息,其中,陈垣为中国历史学家、宗教史学家,向达为中外交通史家,罗振玉为金石学家、考古学家,刘复为语言学家,张大千为画家等,正是因为这些学者利用敦煌文书提供的原始资料开展各自学科领域的研究,从而推动了敦煌学的起步和发展,并让敦煌学发展成为一门世界关注的显学。
(3)可视化工具的应用
可视化工具在“数据平台”的应用,主要体现在文本分析的可视化和GIS技术的应用上。文本分析的可视化,仍然以“民国时期敦煌学研究”为例,通过学科主题结合时间范围的分析,能够绘制出敦煌学在1908-1949年间学术论著发表数量柱状图,以此体现敦煌学研究的发展情况,具体如图1所示。
图1 民国时期敦煌学研究论著数量
GIS技术在“数据平台”的应用,主要是通过“中国历史地理信息系统”(CHGIS)建立地理信息关联,将地图的视觉化效果、地理分析功能与“数据平台”中的地名信息相结合,在中国历史地图之上,叠加整合,实现时间和空间两方面的直观检索,提供文献的出版地分析、作者的地域分布分析以及出版的时空变迁分析等[15]。通过地图直观显示文献的出版数据,按时间先后顺序自动生成地域出版文献数量、出版机构分布、出版机构迁徙流动路线图等,实现检索结果、分析结果的电子地图呈现。
(4)数据可编辑功能的实现
考虑到出版信息在不断增加,开放数据接口,可供出版社和图书馆按照平台要求的格式添加数据,以防止提供数据不准确和完整。因此,在数据提交时,平台设计了审核流程,以备对数据进行不断的完善和补充。
在数字人文视域下,图书馆特藏资源的数字化并非必须具备非常成熟的数据人文理念及技术,而是要根据本馆现有的条件,同时充分调研人文学者的研究需求,制定具有可操作性、符合本馆资源特点的数字化方案。在实际建设时,对于数字人文相关技术的应用,可以考虑先易后难,逐步实现和完善。另外,对于各方面制约和限制,需要前期进行充分论证是否可以通过其他方式得以解决,如人员、技术支持、项目管理、数据保存、元数据选取等。本项目组在“数据平台”建设中,对于这些关键问题的解决体会颇深。
首先是团队建设。上海师范大学图书馆虽然缺乏熟悉数字人文技术的专业人员,但是通过近些年的积累,不论在民国文献的整理与研究,还是在研究团队培养方面都已具有一定的基础。团队成员大多是具备文献整理及相关领域知识背景,了解人文学科发展现状及态势的专业馆员。因此,对“如何建”以及“怎么建”具有一定的思路和创新想法,可以通过学习弥补在数字人文理念和相关技术应用方面的不足。在项目组制定出“如何建”的思路之后,团队成员就通过参加数字人文会议、调研和听取数字人文讲座等方式,加强对数字人文的理解,并且结合其他图书馆的相关案例,制定符合本项目特色的解决方案。
其次是合作众筹。虽然数字人文研究在很大程度上依赖于掌握数据处理技术的专家,但是,在“数据平台”建设时,在技术准备不充分的条件下,项目组没有坐以待毙,而是考虑先期使用成熟、稳定的开放数据集,与在数字人文项目方面有成功经验的团队进行合作共享。首先利用上海图书馆的“人名规范库”,然后在合作中,通过不断的学习和积累,寻求其他相关规范库的建立。另外,对于项目实施,尤其是平台设计和基础数据录入时,需要大量的人力和物力的情况,则通过众筹的方法,把技术难题分解,分包给其他有经验的专业团队,各个击破。例如,“数据平台”的设计,主要是请有经验的专业人员进行,团队成员与专业人员通过不断沟通和测试,进一步完善设计思路和方案;数据录入则是外包给专业的数据公司,在确保录入速度的同时,为了保证质量,团队成员主要是做好专业指导和抽校工作。
再次是营销工作。这项工作很重要,但也容易被忽视。试想如果“数据平台”建成以后缺乏宣传与推广,或许会导致利用率不高、达不到最初建设目的的尴尬局面。反之,如果能对“数据平台”的建设加大宣传力度,不但可以提高使用率,也可以在目标用户群中形成上海师范大学图书馆民国时期文献特藏资源的既定印象,从而汇集到更多的民国文献资源,更加促进图书馆特藏资源的建设。对此,在项目建设前后,上海师范大学图书馆借助多方渠道,加强对民国时期文献的整理与研究,以及“数据平台”的推广,以此获取图书馆界、出版界和学术界等其他相关机构的支持和帮助。例如,利用上海师范大学图书馆承办上海高校图工委刊物《上海高校图书情报工作研究》的机会,增加“民国文献整理与研究”固定专栏;在“国家图书馆民国时期文献保护工作办公室”的指导下,与上海图书馆、国家图书馆出版社加强合作,举办“民国时期文献整理与研究国际研讨会”等。这样不但可以让图书馆界或学界知晓上海师范大学图书馆在民国文献整理与研究方面的作为,而且还可以从资金、资源和技术实现等方面获得其他机构的帮助,从而辅助本项目的具体实施。更重要的是,可以让更多的人文学者了解到“数据平台”建设的重要性以及对相关研究的支撑作用。
最后,在“数据平台”建设中,项目组还特别强调元数据创建、管理及映射方面的工作,争取与现行通行标准一致或与国际标准接轨,以便于知识发现。例如,在项目实施时充分考虑到《民国时期总书目》和《1833—1949全国中文期刊联合目录》及其补编本的分类排序规则,同时还参照目前国家图书馆正在编纂的《民国时期文献总目(图书卷)》进行分类、标引与著录,使“新版民国时期文献”目录与《民国时期总书目》保持基本一致的体例和详尽的著录内容。另外,在元数据保存方面项目组也非常注意平台资源的合法性,书目数据库中的字段以及文档结构中独特的排列方法使用是不是受到版权保护,有没有侵犯原创作品的版权等问题都咨询相关专家意见,以免招致不必要的法律纠纷。
数字人文技术的发展给传统人文领域的研究带来了新的活力,“数据平台”的建设及数字人文相关技术在民国文献领域的应用实践,给研究者带来了新的视角,也为数字人文在特藏资源数字化建设上增添了一个新的案例。国内特藏资源数字人文项目中,由图书馆支持或开展的成功案例还比较少,过程中必然会遇到各种挑战,尤其需要计算机及多媒体领域的技术专家来不断优化知识组织方法和知识服务功能。在当前数字人文的大趋势下,图书馆需要借鉴一些成功的案例,或是寻求与其他在数字人文研究及服务方面有成功经验的图书馆的合作,或是用众筹的方法来解决技术难题,又或是积极参加数字人文国际会议加强经验交流。
目前,“数据平台”已录入部分数据,各项功能正在测试完善中,仍然需要进一步摸索,在其运行一段时间后,将邀请相关专家再次评估。如果运行效果好,下一步将考虑在目录数据库的基础上进一步扩展数据内容,寻求相关合作,最终增加全文;如果效果不佳,对人文学者研究的影响或推动不尽如人意,则继续考虑应该如何改进等,这些问题都会是下一步团队反思和研究的重点。