蔡迎春 (上海师范大学图书馆 上海 200234)
“数字人文”(Digital Humanities)是在20世纪90年代以后逐渐成熟的研究领域,涉及的学科集中在语言学、历史学、文学等方面。数字人文产生的背景主要是由于海量的图书、报刊、视频和图片等人文资源的数字化,以及面对海量的数字化文本,学者需要新的技术、工具和数据平台对其进行组织、挖掘、统计、量化分析和智能化处理等[1]。该研究领域于2009年在现代语言协会年会(The Modern Language Association)上获得了北美学界的认可。近10年,国内外图书馆、博物馆以及大学科研机构,以特色资源建设、古籍文献数字化等作为发展契机和重点,成立了一批数字人文国际学术性研究组织或机构,致力于数字人文项目的建设和开发,建立人文网站和主题数据库,并面向用户开放[2]。例如,在国外主要有美国哈佛大学“地理分析研究中心”和斯坦福大学“数字人文实验室”[3],英国伦敦大学学院“高级空间分析中心”和谢菲尔德大学“数字艺术与人文专门研究中心”等[4]。在国内主要有香港公开大学“数码文化与人文学科研究所”、台湾大学“数位人文研究中心”、武汉大学“数字人文研究中心”、南京大学“数字人文研究中心”、上海交通大学“地方历史文献研究中心”、复旦大学“社会科学数据研究中心”、南京师范大学“虚拟地理环境实验室”、首都师范大学“国学传播中心”、北京师范大学“文艺学研究中心”等。此外,国内许多大学和研究机构也围绕着特色资源或古籍文献开展了“数字人文”研究,如上海图书馆的“名人手稿档案关联开放数据集”和“家谱数据库”、中国社会科学院的“地理信息服务平台系统”以及中山大学的“徽州民间历史文献整理”等。同时,国家数字图书馆工程也建设了多个数字人文数据库并向公众开放[5]。可以说,这些数字人文项目为特色资源建设提供了基础数据保障和基本分析工具,并利用信息技术和数字技术对特色资源进行数字化整理、分析和展示。
由此可见,国内的数字人文项目主要是在特色资源建设方面已经取得了一定的成绩。因此,本文主要采用文献调研与案例分析相结合的方法,对国内图书馆、博物馆以及大学科研机构开展数字人文项目并成功实践的案例,在特色资源建设中应用数字人文的方法和技术情况等进行梳理,综合分析数字人文在国内人文领域实践的进展、特点和趋势,以期获得国内大学图书馆对未来研究与实践有益的启示和思考。
近几年,国内在数字人文特色资源建设方面的相关研究越来越受到大学或图书馆的关注,本文以“数字人文”“特色资源”“数字化”等作为关键词对CNKI数据库进行检索(检索时间区间为2011-01-01至2018-02-10),然后对检索结果进行人工梳理,筛选出国内与特色资源相关的“数字人文”研究与实践方面的学术论文。通过查询,最终获得相关学术论文46篇,从发表时间上来看,2011—2015年每年发表在3篇以下,自2016年快速增长,到2017年达到了18篇(见图1);从发表刊物来看,主要以图情领域相关刊物为主,有30篇,占到了65%,其中以《图书馆论坛》《大学图书馆学报》《中国图书馆学报》等刊物发表相关论文数最多,其他图情刊物均有涉及(见图2);从作者来看,主要有夏翠娟、刘炜、张磊、赵思源和朱本军等(见图3),5位作者的发文量占到总发文量的46%;从作者所在机构来看,主要是集中在上海图书馆,以及部分全国知名大学,如北京大学、华东师范大学、上海交通大学和中山大学等(见图4);从课题分布来看,有24篇论文是有相关课题支撑的,其中国家级以上课题的相关研究占到了46%(见图5)。
图1 2011—2018年发表的相关论文数量单位:篇
图2 2011—2018年特色资源数字人文相关论文发表机构
图3 2011—2018年特色资源数字人文相关论文作者分布
图4 2011—2018年特色资源数字人文相关论文作者机构
图5 2011—2018年特色资源数字人文相关论文课题分布
同时,通过46篇论文的关键词词频共显可以看出:相关研究主要集中在数据库建设、资源数字化、GIS、历史地理、历史研究、历史文献、地方历史、古籍整理、古籍善本、徽州文书、物质文化遗产、人文科学研究、人文研究、人物传记、数字博物馆等方面,而应用的数字人文技术主要表现在可视化分析、词频统计、关联数据、文本挖掘、规范控制等方面(见图6)。
图6 2011—2018年特色资源数字人文相关论文关键词共显
从以上数据可知,国内对特色资源建设的数字人文研究起步较晚,但是发展势头较为强劲,尤其是在2016年以后,发文量已超过以往年份的总和,说明国内图情领域学者已经在密切关注并积极推动相关研究,而且研究大多得到各类基金项目的支持,尤其是国家级的基金项目的支持。但是研究机构却相对集中,主要分布在上海图书馆和几所国内知名的大学。从研究内容考察,主要集中在古籍文献、历史文献、徽州文书、人物传记以及非物持文化遗产等领域,主要是利用可视化分析、关联数据和词频控制等数字人文技术支撑,而且研究的焦点大多还是基于理论上的探讨,真正从理论层面、技术层面、应用层面等进行整体性框架分析和研究并支持案例的相对较少。通过对相关论文的内容进一步分析可知,上海图书馆在数字人文研究及特色资源建设方面起到了引领和借鉴作用,尤其是在名人手稿开放数据集和家谱知识库建设方面。
另外,通过查询相关会议信息以及会议综述可以发现,国内图书馆界近几年的数字人文研究热度持续增加,尤其是2015年以后,北京大学、南京大学、上海图书馆、深圳大学城、中国人民大学等都有相关的学术研讨会或学术论坛进行深层次的探讨。许多大学图书馆或科研机构都在积极推进人文领域的数字化建设与研究,在特色资源建设方面,都有相关的研究案例报告,或者是在课题策划中应用数字人文理念对所需资源的深度揭示和组织的相关报告。据不完全统计,目前关于特色资源库建设的国家社会科学基金支持项目达127项,各种资源库建设已经为学术研究提供了丰富的基础数据[6]。为此,学者探讨的不再是“能否用”,而是“如何建”“怎么建”的问题。可以说,随着数字人文实践不断深入,以及更多分析统计工具在资源整合上的应用,不仅要将资源库作为检索的平台,而是要作为分析研究的平台进行建设,因此,要有长远规划和数据整理的统一规范,以实现不同资源库之间的兼容。同时,框架设计时要具有“众筹”意识,从而为以后的补充、修改和完善提供可能。
为了深入分析特色资源建设中的数字人文应用研究情况,本文对46篇相关论文中涉及到的数字人文应用案例进行挖掘和梳理,同时结合网络资源进行补充。在汇总时考虑到有些数字人文应用案例是由图书馆或研究机构成立的数字人文研究中心牵头规划实施的,而有些是图书馆或学者根据资源研究需求自行建设的,故分别进行汇总。
数字人文中心是使用数字媒体和技术进行人文研究、教学和实验的机构,主要以大学或图书馆为依托,为各类人文研究项目提供丰富的数据、机构之间的协同管理以及研究人员的培训等[7]。数字人文中心起源于美国,据统计,美国的数字人文中心有一半左右设置在图书馆。近几年,国内的数字人文研究中心建设力度显著加强。据不完全统计,国内目前已正式成立的数字人文中心或从事数字人文研究的机构共有12个,具体见表1所示。
通过以上统计,可以很清晰地看出:国内数字人文中心的活动主要涉及特色资源建设、人文工具的开发与研究,以及与数字人文相关的讲座、培训等会议的开展。同时,将与其他研究机构或本校其他部门之间的合作作为关注和发展的关键。
在特色资源数字人文技术应用方面,台湾地区进行了有益的实践,研究领域非常广泛。例如,台湾大学的数位人文研究中心为学者提供明清档案、古契书、台湾老照片、植物标本等丰富的数据资源;而“中央研究院”的人文社会科学研究中心关注面则更广,将经济、文化、地图、航空也纳入到研究领域。除武汉大学和南京大学数字人文中心外,包括香港地区在内的其他数字人文中心研究的资源领域相对单一,主要涉及家谱、古籍、历史、地理、传记、艺术和非遗等方面,研究项目较少,大多仅涉及1项。武汉大学数字人文研究中心关注领域较为广泛,不仅在专题数据库方面,而且对古籍、档案等方面均有涉及,主要致力于人物、传记、地图等领域。在人文工具的开发和研究方面,武汉大学数字人文研究中心基于文本挖掘、历史地理信息可视化以及图像捕捉分析等,着力研究数字人文理论、方法和技术标准,并设计开发数据平台与通用软件。中山大学等4所高校联合成立的文化遗产继承与数字化保护协同创新中心,也开展数字化技术方面的相关研究。在开展培训教学活动等方面,台湾大学数位人文研究中心、香港公开大学数码文化与人文学科研究所、南京大学数字人文中心都会定期举办国际研讨会,或开展相关培训与教学,以加强和促进数字人文方面的学术交流和合作。
表1 国内各大学或研究机构“数字人文研究中心”及相关项目
纵观我国人文学科领域,虽然成立了一些数字人文中心,但相较而言数字人文理念仍未被广泛接受,数字人文中心主要分布在一些知名的大学或研究机构,而且还未真正发挥其作为重要研究孵化器的作用,所涉及的资源领域相对较为单一,对相关技术的研究还需要更大层面上的合作和深入。但从国内近几年数字人文中心的建设趋势来看,各大学、研究机构之间合作逐步加强,而且多以研究和开发为主要内容,为加强学者之间的交流与合作、有效促进数字人文技术和特色资源项目的广泛开展搭建起平台。
虽然没有建立数字人文中心,但许多大学图书馆或研究机构也从事特色资源的数字人文项目研究,并通过相关实践研发出多个数字资源平台或数据库。据不完全统计,这方面的项目共涉及21项(见下页表2)。
世界各国数字人文项目中以历史记忆和档案管理为主题的数字档案项目数量庞大,影响深远。而从国内数字人文项目来看,则主要集中在古籍、文学、艺术、档案等人文领域,尤其以古籍整理、保护,以及古代诗文类文学作品为主题的数字人文项目最受关注,虽然其它领域也有涉及,但关注度不高。从参与机构进一步分析,相对集中在北京大学、首都师范大学和上海图书馆。绝大多数都是人文领
域的学者依靠各类型基金课题的项目成果,占到近3/4,并且学科领域较为广泛,基本上是将数字人文等相关技术应用到特色资源数字化保存或文本建设中,对人文领域相关研究产生较大的影响。例如,北京大学中文系的3个相关项目,均是在史料文本库的基础上,通过相关技术实现对文本的标注、智能点读或文本分析,以方便学者的研习和分析;“唐宋文学编年地图”项目,通过构建多维地图的形式,形象直观地提供给研究者;“数字敦煌”项目,则以测绘遥感、3D打印等相关技术,将敦煌文物及莫高窟内外形态进行精确扫描、修复还原,并以数字形式保存;“丝绸之路历史地理信息系统建设”,利用地理信息系统(GIS)进行数据库建设与相关信息的考证、定位,从整体上分析丝绸之路多边民族关系,以及两千年来沿线文明发展与演变的历史脉络。另外,大多数图书馆虽然在特色资源的整合建库方面起到了一定的作用,但参与度还不是很高,实践项目所涉及到的领域和技术应用开发还不是很深入。例如,北京大学图书馆的数字人文项目是以打造“数字人文交流平台”和建设北京大学“数字人文孵化器”为主的交流培训类项目;而上海财经大学图书馆和上海外国语大学图书馆主要是对馆藏老电影和馆藏俄罗斯文学资源进行收集、挖掘,以便于学者进行文本挖掘统计和语义分析研究。
表2 国内各大学或研究机构特色资源建设中的数字人文项目及实践案例
国家图书馆和上海图书馆在古籍等特色资源建设中的数字人文应用方面可以说起到了一起的引领作用,尤其是上海图书馆的“上海年华”项目,不仅涉及主题较广,包括晚清民国期间的报刊、手稿、照片、名人档案、地图和地方文献等,而且对馆藏特色资源进行了全方位的整合,其中的家谱知识库利用关联数据的知识组织功能,把散落在不同家谱文献中的人、地、时和事关联起来,形成完整的知识图,以可视化的方式呈现,读者不仅可以利用家谱资源,而且可以参与资源开发[8]。而上海图书馆名人手稿档案关联开放数据集,数据经过语义化的清洗、加工、转换进行知识组织之后,不再是简单的关于文献的描述性元数据,而存在着丰富的人与人、人与文献、文献与文献间的关联关系,是研究近现代历史、人文、经济、社会等问题的宝贵资料。
总之,数字人文项目及相关实践虽然在国内已引起关注,但相关实践案例主要集中于研究机构或人文领域学者,图书馆虽然已有涉及,但成功案例相对缺乏,尚在探索之中,需更多地与人文领域学者进行广泛合作,借鉴成功案例,在馆藏特色资源的挖掘和开发方面发挥重要作用。
一般而言,数字人文项目追求的是“小而深”,“开放、合作、连接、多元、实践”是其核心价值[9]。这5个特点并不是独立的,更多的时候是以一种相互交叉的综合方式呈现。因此,开展特色资源建设的数字人文项目时,并不是需要每个图书馆都建立数字人文中心。但是,图书馆需要加强与人文学者和其他研究机构的合作,注重发挥自身资源优势,把项目进行细化、深化。同时需要借鉴其他研究机构的经验,形成互动关系,而且,在实践过程中应该加强以下6个方面。
特色资源的挖掘和开发是图书馆的核心工作,为了有效地推进特色资源建设中的数字人文研究,图书馆需要了解人文学者的研究需求,整合其常用的资源,同时,还需要图书馆具有跨学科的思维和研究角度[10]。另外,由于研究工具日新月异,相关技术和方法实践性强,因而对研究人员的知识更新速度以及应对问题能力提出更高的要求。因此,图书馆在启动数字人文项目之初,首先要对相关人文领域所研究的诸多问题进行调研,并且考虑“如何用”“怎么用”数字技术来达到其研究的目的。一方面,数字人文项目面对的不仅是馆藏特色资源,而且还包括人文领域已产生的可编辑、可存档文本,这些资源和文本如何应用相关技术有机地整合在一起?另一方面,图书馆如何优化人文学者的研究体验和整合人文学者研究所需数字内容,从而建立一个多元的、可供分析的数据平台?这些都需要图书馆具有较强的问题意识,先期进行充分调研和论证。
数字人文研究在很大程度上依赖于数字内容,需要对海量文献进行数据化处理,即文本挖掘。因此,相对于传统的数据库建设,特色资源数字人文应用项目对图书馆提出更高的要求,需要图书馆员掌握数字人文的相关技术和数字化运算工具,不仅成为专业的数据处理专家,在文本数字化、文本挖掘、数据管理和保存等发面发挥独特的作用,而且在元数据创建、管理及映射方面与国际接轨[5]。基于相关案例分析可知,数字人文应用项目的规划实践与专业团队建设具有直接的关联。例如,上海图书馆数字人文项目的开展,主要得益于具有一个不论在项目开发还是技术实践上都非常专业的团队。因此,图书馆要重视人才队伍建设,尤其是对数字人文相关技术的培训和人才引进,不仅要储备相关的技术人才,而且还要不断加强与人文学者的联系,做好相关领域资源的收集和组织工作,为特色资源建设中的数字人文应用项目的开展做好人员、技术和资源准备。
数字人文研究团队构成的多元性和工作内容的实践性是数字人文的重要创新价值体现。但是从国内特色资源建设中的数字人文应用项目的开展情况看,相关技术的更新与在实践中的具体应用之间存在诸多脱节,原因之一,可能是与研究团队的构成具有一定的关联。例如,国内数字人文应用项目基本上以研究机构、人文学者或图书馆为主,图书馆可能在资源和数字人文技术方面具有优势,但是对人文学者研究需求不甚了解,而研究机构或人文学者却有可能在技术或资源组织方面相对薄弱。以古籍方面的数字人文项目为例,由于古籍在时间和空间上的跨度较大,元数据难以统一,无法按照通用标准形成知识体系,而可视化便于知识的表达和描述,使研究者能够更直观地理解和进行古籍文献的知识建构。但是,鉴于技术和资源组织等相关因素的限制,可视化技术在古籍数字化中的应用还不是很充足,大多仅仅提供最基本最简单的功能,没有揭示资源间的知识关联。因此,在特色资源建设中的数字人文应用项目中,研究团队的多元性以及团队成员的创新意识显得格外重要,以达到完善资源的文本挖掘和整合技术,将文本以更直观的方式呈现给学者,为学者提供简洁的交互界面,满足其在海量资源中研究的需要。
开展特色资源建设中的数字人文应用项目,必定是在充分调研人文学者研究需求并与其高效互动的基础上,建立一个基于特色资源的数据平台,而不是仅靠图书馆自行完成。在协作过程中,还可以通过“众筹”形式,将更多的人文学者邀请进来,从而促进其与技术人员各取所长,规避彼此之间专业上的短板。另外,数字人文应用项目建设的初衷是对特色资源的开发与共享,势必需要确保资源的多样性、开放性和兼容性,需要寻求与不同地区、不同机构和甚至不同国家的机构或研究团队合作,以方便对资源内容进行多方面收集。例如,哈佛大学燕京学社、“国立中央研究院历史语言研究所”历史语言研究所和北京大学中国古代史研究中心合作的“中国历代人物传记资料库”项目,资料库的强大不只在于其数据量,主要是其数据的处理及提供利用方式,不是纯文本的,而是结构化的、带地理位置信息的,而在资源内容和研究方法方面,合作机构之间则定期组织培训及工作会议,通过集体讨论而达成共识[11]。因此,国内图书馆要具有协同意识,不仅要加强与本校研究机构或人文学者的合作,而且还需要加强与国外在数字人文研究及服务方面有经验的图书馆的合作,通过邀请国外图书馆及数字人文领域的专家来馆内进行相关技术或项目管理的培训,指导本馆数字人文研究的开展。
共享总是与开放相对出现的,传统图书馆或资料库主要是强调物理空间的保存,人文学者要想获得某方面的资料,必须要到图书馆或资料库查找,非常费时、费力,获得资料也较为单一;在线数据库更大程度上方便了人文学者对资料的获取,并有效节省了时间和经费;而数字人文项目通过对特色资源的信息技术处理,把人文学者从单一个体角度的研究中解放出来,使之可以从更为宏观的角度看待原本独立的现象,并通过更多的数字工具来处理大规模的数据问题,从而促使了很多开放资源的软件出现[4]。例如,上海图书馆的“名人手稿档案关联开放数据集”,其中所有数据经过语义化的清洗、加工、转换进行知识组织之后,能够揭示人与人、人与文献、文献与文献间的关联关系,并向用户或其它研究机构开放,支持用户发布和展示其个人研究内容,并允许用户开发和使用插件以满足个性化订制需要。另外,数字人文所带来的这种免费数据集及和技术工具的共享,由于使用共同的技术语言,也可以促进在线学术团体的出现与沟通,使得信息的交流和共享变得更为通畅和方便。
只有建立可持续的特色资源整合和数字化保存项目,才能反映特定领域的最新研究进展,从而长期地为人文学者提供持续性的研究数据。因此,数字人文项目的可持续性是人文学者必须关注或为之坚持的要素。而作为图书馆,如何组织和保存数字人文研究项目的基础成果,并让这些成果能够对其他研究者有所帮助?能否提供应用程序界面来支持研究者获得数据并且实现跨项目使用数据?能否根据研究者的需求,提供适合的用户界面,并且能够及时提供更新?能否根据数字人文最新技术的应用,实现原有资源的进一步整合和揭示,提供更为直观、更加方便的分析研究功能?能否持续提供其他领域学者使用的模型或者案例,使研究者也能够利用这些数字项目和数字人文领域的研究成果?这些都是数字人文项目开展过程中必须要考虑或实践的关键问题[12]。