贾晋峰
(山西省图书馆,山西 太原 030021)
特藏资源是图书馆宝贵的教育资源,体现着图书馆的人文底蕴和资源价值,历来为所有图书馆所重视。据OCLC发布的最新研究报告《推进国家数字平台:美国公共图书馆和州立图书馆的数字化现状》显示,美国92%的公共图书馆拥有本地重要的、独特的实体特藏,而在过去3年,已有37.6%的图书馆致力于特藏资源的数字化建设。而荷兰莱顿大学图书馆馆长和出版社社长贝尔德(KurtDeBelder)在2013年的一次讲演中曾预测,在15年内高校图书馆将只有特色馆藏在本地存储和管理,其他纸本馆藏都将存入国家/地区级的仓储库。未来图书馆资源竞争将是以“非正式出版物”为核心的特色馆藏竞争。
虽然国内外对数字人文的研究日益加深,但对于“数字人文”的定义并没有形成清楚的界定。目前国内引用较多的是美国学者JohnUnsworth的观点,他认为“数字人文”是具有典型性的实践活动和建立模型方法,主要包括两种形式:(1)高效的计算;(2)人文沟通。我国学者王晓光教授从对数字人文的产生与发展过程中总结出数字人文的出现实质是一种关于人文方式和研究方式的学术创新,通过把时代最新的科技、信息技术和人文研究结合起来,从源头上改变人们对知识的获取、理解、表述和呈现方式。对国内外的研究成果进行梳理可以得出数字人文主要包括下面几个特征:(1)数字人文包括众多的人文学科领域,如辩证学、考古学、艺术学等;(2)数字人文的研究对象比较广泛,包括了txt文本、格式化信息、图片信息、影音资料等可数字化资源;(3)数字人文以现代通讯技术、超媒体和数字图书馆等为方法论基础,并通过文本分析、数据库设计、数字绘图、音乐检索等方式来进行分析;(4)计算机信息技术的快速发展和不断更迭,数字人文的研究方法也随之不断变化和发展。
GIS 即地理信息系统,是一种基于计算机的工具对空间信息进行分析和处理,并把地图这种独特的视觉化效果和地理分析功能与一般的数据库操作集成在一起的工具。就历史学研究方面,越来越多的学者开始借助 GIS 技术进行历史知识和历史事件的静态和动态的可视化展示研究。大体而言,GIS 技术的应用在历史领域可概括分类为 3 个方面: 展示历史资料的数字化、空间历史数据的管理和可视化、基于空间分析方法探知历史过程。目前,将 GIS 技术与文献数字化建设相结合来进行的历史研究已经有不少成功案例,最典型的就是台湾中央研究院开发的中国历史文化地图系统 (CCTS)和台湾历史文化地图系统 (THCTS)。中国历史文化地图系统 (CCTS) 以 《中国数字地图》(1∶ 100000) 和《中国历史地图册》为主要基础,参考了很多历史地图以及影像资料等,也借助了其他资源丰富的电子数据系统和联合资料库,构建了一个具有精确空间定位、整合时间与空间属性的中国历史文化时空基础平台。
当前民国文献数字化主要是数据库资源建设,数据库建设是民国文献开发和保护的重要措施之一,已有的数据库主要有4种类型:全文数据库,目前仅有少量民国期刊全文库;全文图像数据库;专题数据库,目前最多的,如南京图书馆开发的“中国近代文献图像数据库”等。机读目录,最主要的数字化整理成果,包括图书目录和期刊目录。上海图书馆的期刊篇名数据库《全国报刊索引》单独建库。如国家图书馆的“民国中文期刊资源库”“民国法律文献库”;上海图书馆的“民国期刊全文库”、“晚清期刊全文数据库”和“近代民国中医药专题库”;北京师范大学图书馆的“馆藏解放前师范学校及中小学教科书全文库”、C A D A L的“民国期刊全文数据库子库”,上海师范大学的“民国教育文献全文数据库”;北京大学图书馆的“民国旧报刊全文数据库”;北京爱如生数字化技术研究中心研发的“中国近代报刊库”和“民国图书库”;南京大学图书馆的“南大图书馆馆藏民国图书数据库”;尚品大成数据技术有限公司开发的“大成民国图书全文数据库”等等。
文本挖掘是数据挖掘的领域之一,是从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程,知识发现是其本质与精髓所在。数字人文所强调的不再是单纯的文本化和数字化,正是基于文本的深度挖掘与智能分析。从目前国内的相关数字人文实践来看,古籍数字化项目中已经迈出了文本挖掘的重要步伐,开发了许多数字人文系统,例如古代诗词分析系统、“古籍研习平台”、“古汉语文本自动句读系统”等。以北京大学数据分析研究中心的“全唐诗分析系统”为例,这个分析系统的突出优势是能够深入挖掘和发现信息,不再局限于单一的全文检索模式,重点表现在对诗词韵律的标示,词语组合次数等提点进行智能化统计,为我国学者研究中国古代文字、古代书籍、古代语言等领域奠定了有力的基础。在民国文献数字化过程中,我们也可以借鉴这一经验,对民国期刊报纸的开发,不再单一提供文献的全文内容,而是在标引的基础上更深层次提高文献资源揭示的深度和关联性。
21世纪图书馆项目的目的是研究当前和未来,如何通过图书馆服务来满足或支持各层次的需要,以及资源达到最有效的工作效果,提供优质服务。数字人文为民国文献数字化深度开发提供理论和实践的经验和方法,为保护和完善珍贵资源,我们共同推进民国文献数字人文朝着更广泛、更深入的领域发展。