颜艳萍
(云南省图书馆,云南 昆明650031)
随着大数据、人工智能等现代信息技术的飞速发展,数字技术同人文社科这两大领域彼此间的交融和渗透,催生出一个全新的领域,即数字人文。其凭借特有的跨学科、跨领域的特点,深刻地影响着历史、文学、计算机科学等学科的演进,也为古籍资料的重新整合、梳理及使用创造了条件,使其拥有更先进的探究方法、工具和平台。
古籍是中华民族文化遗产的重要瑰宝,受自然环境与人为因素的影响,古籍原本流失严重,现存古籍破损情况严重。据不完全统计,我国现存古籍超过五千万册,其中有三成多损毁严重,急需得到抢救性保护。[1]“古籍数字化,是指利用现代信息技术对古籍文献进行加工处理,使其转换成计算机能够辨认的数字信息,构建古籍文献书目数据库及古籍全文数据库,全面呈现古籍信息资源的一项系统工作。”[2]它使古籍文献的文化价值和社会服务功能得到充分体现。可是大部分古籍数字化产品仅仅是原件的替代品,文献检索基本只能达到基于字符匹配的全文检索层次,不能对古籍文献进行深度挖掘利用,利用率较低。近年来,数字人文逐渐兴起,给古籍数字化深度发展提供了全新的理论根据和实际操作方法,使古籍的文本挖掘、语义分析、智能标点、文本可视化、语料库建设等成为可能。
数字人文是将现代计算机及互联网科技深度运用到传统人文学科的探究和教学当中的全新领域。它将现代计算机及通信技术运用到文献学、统计学、历史学、艺术学等传统人文学科中,为人文学科研究提供了新的研究方法与范式。其主要目标是促成现代信息技术同人文科学之间的渗透和交融,进而转变知识的获取、注释、对比、取样、阐述及呈现形式,实现人文研究的升级和创新发展。
利用数字技术辅助和促进人文研究,在西方国家已然成为一种潮流。以“digital humanities”为名的科研组织、交流圈等在全世界已经达到185个以上,其中有八成以上均处于欧美境内。在我国,相关方面的研究也正在兴起,一是陆续组建了相关组织,如北京大学数字人文小组(2016年成立)、南京大学数字人文研究中心(2017 年成立)等;二是国家社科基金重大项目对数据库建设的关注度逐渐提高,单在2017 年此类项目所占的比例便已达到10%左右;三是开展数字人文相关学术活动,一种是举办学术会议,如2014 年6 月上海图书馆举办的“数字人文与语义技术”学术会议,2015 年12 月的“北、清、台数字人文新动向——中国历代人物传记资料数据库CBDB 暨Digging into Data 工作坊”学术会议,2016年5月的“北京大学数字人文论坛”(首届),2016 年5 月的“数字人文与清史研究”学术会议,2017年5月的“北京大学数字人文论坛”(第二届),2017年7月的南京大学“数字人文:大数据时代学术前沿与探索”学术会议等;另一种是开设工作坊,如2016 年南京大学历史学院王涛副教授开设的“数字工具与世界史研究”课程,2017 年3 月哈佛大学访问学者徐力恒博士在北京大学开设的“数字人文研究技能与方法”读书会,2017年4月北京大学图书馆数字人文工作坊等。[3]
数字人文涉及的范畴极广,而古籍数字化作为古籍整理系列工程之一,同样涵盖了文献学、历史学、计算机技术等学科。其跨学科的特点可以借鉴数字人文研究的方法。
我国从上世纪80年代开始进行古籍数字化建设,在发展过程中,国家推出了有关的政策法规,古籍索引数据库、古籍全文数据库、古籍书目数据库等产品相继诞生,积累了一定经验。[4]
3.1.1 政策支持
2007 年1 月,国家发布了《国务院办公厅关于进一步加强古籍保护工作的意见》,启动了“中华古籍保护计划”。中央对古籍保护工作做出了详细指示,包括确定操作流程和规范,构建相关数据库;重新配置已有资源,开发对公众开放的古籍网站,为公众提供古籍资源,实现古籍价值最大化。[5]
2017 年国家相关部委发布的《“十三五”时期全国古籍保护工作规划》提出,采取激励措施,推动广大古籍收藏单位加快古籍数字化步伐,发挥国家和省级珍贵古籍数字化工作的带头作用,以互联网、大数据等新技术为依托,优先对特色馆藏和古籍善本开展数字化,加速建设“中华古籍数字资源库”及相应的信息数据管理平台,按照边建设、边服务的原则,及时对外公布古籍影像资源,促进资源共享。[6]
3.1.2 技术支持
计算机和信息技术的介入,能够在保护古籍原貌的基础上,对古籍内容进行数字存储、传输,以提升古籍的利用率,促进古籍文献在更大范围内传播。
2012年8月,国家古籍保护中心对珍贵古籍展开了数字化试点工作,编制了《古籍数字化工作手册》(试用本)作为工作标准。该手册明确了古籍数字化的具体范畴、规范性引用文件、术语定义、操作程序、加工准备、元数据著录、图像数字化以及数据的命名、提交、检验、接受、发布、使用等,是整项工作的重要依据。[7]
3.1.3 用户需求
古籍文献有着特殊的历史背景,属于不可再生资源,具有重要的史料研究价值。从古籍保护的角度出发,基本上每一家图书馆均对古籍的查阅对象、方式等设定了限制规定,重视收藏而忽视利用的情况十分常见,这在很大程度上给古籍资源的开发利用带来了阻碍,古籍的保护和利用这对矛盾也由此凸显。古籍数字化一方面实现了对古籍原件的保护,另一方面为古籍文献的开发利用提供了便捷服务。
云南省图书馆根据国家关于建设古籍数字资源库的要求,积极进行古籍数字化实践。以国家古籍保护中心编制的《古籍数字化工作手册》(试用本)为依据,对馆藏珍贵古籍进行数字化处理,建设古籍数据库并进行发布。从设备选取、元数据著录、图像采集、加工到最后对外发布,各个步骤、各项操作均进行了充分调研。2014年以来,已将馆藏2000 余部4600 余册地方文献,636 部2589册馆藏善本古籍,1522 种6157 页拓片进行数字化加工。这些文献中有不少被收录到《国家珍贵古籍名录》,是云南省图书馆馆藏中最具地方特色的古籍。
按照边建设、边服务的原则,云南省图书馆分批对这些古籍数据进行发布。于2017 年2 月28日、2018年9月28日、2019年11月12日,先后三次参加国家图书馆“中华古籍数字资源库”联合在线发布活动,对外公布古籍数字资源480部、2103册,并通过云南省图书馆官方网站“云南古籍数字图书馆”平台免费为社会公众提供服务。
“云南古籍数字图书馆”是云南省图书馆自建的古籍数据库,经过对文本的完整扫描,建立图像资源库,并对有关项目进行元数据著录,最终建成以元数据为基础的全文数据库。数据库在B/S 模式下运行,改善了多客户端的缺陷,将系统功能实现的核心部分集中于服务器端,精简了系统运作流程。其最突出的优势在于,用户免受空间限制,且无需安装专门的程序,只需一台可以联网的电脑便能进行操作。用户只需进行注册即可进行全文浏览。检索项设置全面、简洁,用户可通过索书号、题名、责任者、版本等字段进行文献检索,并具有智能查询同类古籍、生僻字显示及检索等功能。在阅览界面,可对图像进行缩放、翻页、目录、指定页面跳转、评论、批注等。在首页设计有古籍布局图,且处于动态完善中,按照历朝历代的先后顺序,呈现各个时期在线古籍的数量情况,使数据库呈现出可视化。[8]后台管理方面,具有统计管理(包括用户总量统计、书籍总量统计、新闻统计、PV浏览量统计)、后台角色管理(注册用户、VIP用户、系统管理员、测试员、编目员、图书管理员)、浏览记录管理、收藏记录管理、图片上传管理、书籍管理、操作记录管理等强大功能。所有完成数字化的古籍都附注相应的编目信息,具体包含:题名项、责任者项、索书号、四部分类、版本项、存卷次、册数、馆藏单位。用户不仅能取得所需古籍的完整数字影像,还能够使用相应的编目成果,帮助其开展相关研究。
3.3.1 工作缺乏宏观统筹
长期以来,各单位都是根据自身发展需要来开展古籍数字化工作,缺乏国家层面的宏观统筹,导致项目重复建设,一些珍贵古籍还未进行数字化,没有在资源共享和建设方面形成有效的合力。另外,还缺乏统一的资源发布平台,大多数资源仅仅通过局域网传播,在使用便捷性上有待提高。
3.3.2 建设标准不统一
因为数字化建设的主体众多,且没有制定全国性的古籍数字化标准,现有的标准内容又不够全面、缺少细节规范,各单位在古籍数字化的加工工序、底本选取原则、影像采集、数据格式、元数据制作、古籍著录、古籍标引、检索语言等技术参数上存在差异,开发出的古籍数字化产品质量不统一,这给古籍资源整合和数据兼容带来了障碍。
3.3.3 数字资源利用率低
知识、信息共享是古籍文献资源数字化开发的一大重要目的。数据库的建设在古籍文献资源分享知识、信息方面优于纸质文献,云南省图书馆古籍文献资源虽然实现了数据库资源的建设,但由于无法实现跨库检索,所以存在从知识、信息层面进行检索难以全面系统等问题,直接影响到古籍文献资源的共享。
现阶段已建成的古籍数据库,其功能通常限于对古籍的数字化转换、保存和简单检索,只是对古籍进行了浅层次的描述和揭示,并没有从资源组织或便于用户使用的角度对文献进行深入挖掘。提供给用户的服务通常只是以关键词为基础的全文检索或是以主题为基础的文本浏览,尚不能进行统计分析等操作,用户无法按照自身的需求去重组资源,也无法深入发掘其知识内涵,导致了较高开发投入和较低利用率之间的不平衡。
3.3.4 数字资源建设经费不足
数字化目标的达成,离不开资金支持。据相关估算,若将国内剩余的40 万个版本的古籍全部完成数字化处理,总支出将达到60 亿元。而国家古籍保护中心各个年度可以划拨的古籍数字化专用款项仅1000万元,很多地方图书馆,可以使用的资金更是少之又少。[9]
云南省图书馆每年由政府划拨50万元作为古籍保护专项经费,用于古籍普查、古籍修复、古籍数字化等内容,但古籍数字化开支较大,经费并没有单独分开,而是和古籍保护经费捆绑在一起。这对于云南省图书馆20 万册古籍藏量来说,无疑是杯水车薪。因为经费缺乏,给古籍数字化规划带来了困难,阻碍了古籍数字化进程。
应在数字人文的大框架下进一步加强标准化建设,加快古籍数字化相关标准的研制,整合现有标准,在保证古籍数字资源格式统一、数据规范、长期可读、便于共享的准则下,逐渐建成相应的标准体系,保证数字资源质量。
图书馆依托现有的资源、技术和存储优势,可牵头主导并参与建设的数字人文项目,从现在的古籍数字化建设进入到开展古籍数字人文项目研究和实践,形成从古籍数字化资源到数据化加工,再到智慧化呈现的递进式发展。应在充分调研学者研究需求的基础上,建立基于特色资源的数据平台,联合各领域人文学者和信息技术人员,提高研究与建设效率,促进学术交流与技术进步。开展特色资源建设中的数字人文应用项目是对特色资源的开发与共享,需要与不同国家、不同地区、不同机构的研究团队合作,以实现资源的多样性、开放性和兼容性。如人物传记类数字人文项目,不仅仅是数据规模巨大,并且对数据的处理以及发布使用模式也应当是结构化的、带地理方位信息的,这就要求图书馆认识到协作的重要性。
具体用来发布、共享及链接相关的数字资源,使以知识为基础的逻辑关联和以语义为基础的信息检索成为可能。关联数据主要采用资源描述框架(RDF)和统一资源标识(URI)进行资源描述与书目数据发布,通过这些技术,可以对已经抽取出来的知识进行知识表示、知识访问和知识推理,形成可视化的知识图谱。将难以理解的数据空间转化成具体的视觉空间,有助于用户利用自身的视觉识别数据空间当中隐藏的知识。进而在网络上发布资源、整合资源,使以语义为基础的信息检索得以实现。将现有的古籍数字资源展开深层次的组织,发掘数据之间的内在关联性,对相应的目录数据进行知识组织和关联化发布,以提高文献资源的查全率与查准率。在分散于书籍和文本中的人物、时间、地点等之间建立联系,构建覆盖全面的知识网,使资源得到更加有效的利用,尽可能满足用户的诉求。如上海图书馆的《华人家谱总目:上海图书馆家谱知识服务平台》数字人文项目,就是利用数据关联技术建立并发布家谱关联数据,数据之间能够进行交叉比对,将原本孤立的宗族分支联系起来。在纸本家谱上没关联的孤立的家谱,通过数字化技术,有望建立数据关联。[10]
GIS即地理信息系统,它将事物的空间数据和属性数据结合在一起,用于采集、加工、保存、组织、查阅及显示空间数据,为其他诸多学科的研究提供了一种基于空间方位的地理模型分析方法,可以把位置属性融入到外部相关属性中,然后利用地图使信息清楚地展现在用户面前,为传统的古籍信息分析方法提供全新的视角和成果展现方式。该技术使古籍数字化有了新的突破,创新了检索模式和检索入口,它把地图特有的可视化效果和位置解析功能同数字资源相结合,形成了兼具时间和空间特性的直观检索集,这是对传统检索模式的丰富和改进。[11]
GIS 技术在古籍数字化领域运用的成功事例很多,较有代表性的是《中国历代人物传记资料库(CBDB)》,它是由哈佛大学费正清中国研究中心、中国台湾“中央研究院”历史语言研究所、北京大学中国古代研究中心及中文在线联合推出的记录我国古典数据的数字人文资源平台。资料库将分布于历史资料中的与人物有关的非结构化文本数据展开结构化标引,如把人名、时间、地点、职官、入仕方式、著作、社会关系等重要信息的标引转换成结构化的信息,并进行著录,构建出相应的大数据集。研究者可以轻而易举地获取数据并开展地理空间、社会网络、群体特征等方面的探究。[12]
云南省图书馆开发的“云南古籍数字图书馆”平台首页的古籍分布动态图,引入了GIS 检索技术,为读者提供了时空检索,显示了各历史时期云南古籍上线数量,使检索结果清晰直观。
为适应更多人群的阅读需求,提高古籍文献数字资源的利用效率,图书馆可运用多种创意元素,根据古籍文献数字资源的类型和特点,通过微博、微信、QQ、直播、公益广告等新媒体工具,以及开展游戏式互动活动等读者喜爱的方式来宣传、推广古籍文献数字资源,增强用户体验效果,提高他们利用资源的积极性、主动性,进一步带动古籍文献的阅读推广,让更多的用户了解古籍文献资源的文化魅力。[13]
数字人文的兴起,对图书馆古籍数字化产生了极大的影响,使当前的古籍数字化工作暴露出了原有模式的不足。其借助数字人文理论与技术研究成果,为古籍文献深度开发与利用提供了新的方法、模式与技术手段。图书馆作为古籍存藏主要机构,应将数字人文思想融入到古籍保护中,参考较为成功的模式,同有关组织展开协作,全方位地整合现有古籍数字资源,使古籍数字化向专业化、精细化和智慧化发展。