■邓 逾
浩如烟海的纷繁古籍是中华民族的文化瑰宝,记载着我国悠久的连绵不断的文化。从不计其数的古籍中找寻最有价值的菁华部分,传承弘扬中华优秀的传统文化并服务当前社会,成为一批批人文学者毕生孜孜以求的目标。
通常,人文学者为了搜集更多资料支撑其研究,可能需要翻阅数以千计的多种古籍,跨越多个朝代,并随时根据阅读做大量的笔记摘录,再进一步整理研究并考证这些资料,往往耗时多年。
电子资源日益增多和网络的普及带来更为广泛的多元化信息,不同领域的研究人员在利用图书馆的行为上发生了显著的变化。从事自然科学的研究人员,更加关注追踪世界同行前沿的最新动态,充分利用网络带来的信息查询便捷性和高效性,越来越脱离实体图书馆。
人文学者,尤其是需要古籍藏书之类资料的人文学者,他们在电子资源使用上与自然科学的同行有着很大的差异,无论是使用目的、使用频率及使用方法上都有明显的不同①。一方面的原因在于古籍藏书之类的数据库的电子资源相对匮乏;另一方面人文学者在计算机的使用技巧和能力上还有差距,他们在对信息处理的方式上也与自然科学的学者有差异。目前,人文学者主要还是依赖图书馆的藏书来获取研究信息。因此,图书馆能否利用现代科技提供一种崭新的服务,让人文学者从艰苦、繁重、低效的文献搜索整理过程中解脱出来,是一个非常有价值的工作。
为了加大对古籍资料进行保护与利用的力度,2007年国家启动中华古籍保护计划工程②,对许多重要的古籍图书进行了数字化,从根本上解决古籍文献遭受虫噬鼠咬、水火侵害的问题。但是,大量古籍的数字化需要巨额的资金支持。据估算,如果将目前尚未数字化的古籍全部数字化,采集、组织、加工、存储、管理等费用大约需要60亿元。③只有国家图书馆等单位承担国家级的项目,才有能力对重要古籍资料进行全面的数字化。
很多地方和高校图书馆也藏有大量有特色的古籍资料,由于缺少专项经费,无法开展深入的数字化工作。因此,在没有足够专项经费支持的情况下,如何利用有限的经费开展部分或者分阶段的古籍资料数字化,是非常有意义的工作。
传统图书馆所提供的资源主要是服务大众化读者的,查阅古籍资料的人文学者相对来说是小众读者,他们的特点在于专业属性强,参考资料相对较少。普通图书馆如何在满足大众服务的情况下,兼顾特殊的小众读者,为他们尽可能地提供满意的服务是一个发展趋势。
尤其是各高校的图书馆,在服务主流学科研究人员和学生的同时,还要兼顾学校学科的均衡发展,为一些冷门学科,如古籍资料的研究和利用,提供足够的服务和需求保障。所以,图书馆馆藏建设越完善,就越能保障小众读者的需求。
以笔者工作的华中科技大学图书馆藏书为例,华中科技大学是一个多学科的以理工医为主的,包括人文经济类全面协同发展的大学。该校图书馆是学校的文献信息中心,是为教学和科学研究提供信息化服务的重要基地。与强势的理工医类学科相比,文史学科的研究相对弱小。为了适应学校多学科的教学科研需求,古籍文献也是该校图书馆的重要馆藏文献,保障了图书资料的完备性和多样性。利用图书馆的馆藏古籍的研究人员属于小众人员,但他们对图书馆的依赖性更强,去图书馆查阅资料的时间更多。
在古籍资料查阅过程中,人文学者付出的工作相当艰辛。图书馆有责任和义务来对这些古籍文献进行现代化处理,使得专业的人文学者能够充分利用现代信息技术为自己的科研与教学服务,利用数字资料库来完成对原始资料的收集与整理工作,把学者从繁重的“体力”工作中解脱出来,把更多精力放在资料的分析、比较和研究上。
随着文化教育事业的迅速发展,古籍文献的学术参考价值必将受到越来越多的人文专家学者的关注。不断增长的客观需求要求图书馆在做好古籍文献保护的同时,还要让馆藏古籍尽可能借助现代信息技术以崭新的形态呈现给读者,进而提高古籍文献的利用率。对于古籍数字化过程中的关键技术,即信息的获取、识别、分析以及归纳整理,高校在这些方面无疑具有得天独厚的优势。此外,高校在古籍数字化的应用和推广方面相对于普通地方图书馆来说在多方面具有优势,比如流通优势、融合优势④。如何在有限的经费条件下建设数字化古籍文献资料库,对大学图书馆来说是一个值得探讨的课题。
由于华中科技大学图书馆中文古籍资料库大多数是文史领域的,因此本研究的目标人群是中国文学以及历史领域的学者。了解他们在古籍资料室的查阅行为,对古籍资料的数字化如何更好地服务读者有着重要的意义。
人文学者利用古籍资料库主要是为社科类研究项目准备资料或者为课堂教学制作教材。查阅古籍资料主要希望获得以下信息:历史人物、事件的演化、确定已有资料的完整性和正确性等⑤。当研究关键历史人物在历史演变过程中的重要地位和作用时,通常需要搜索古籍资料库中的各个阶段关键事件及相关联的其他人物,由此可以得到整个历史过程中的复杂的人物关系图,有助于全面理解这个人物在历史发展过程中的作用。在制作教材时,为了丰富学生的知识面而要引用某段句子,老师需要确认资料的完整出处,以保证资料的准确性和完整性。这种资料的查阅及确认,人文学者往往需要阅读多种古籍,在整个古籍资料库内完整搜索,极其耗时。
对于人文学者来说,单一关键字检索是最常用的检索方式。最常用的检索关键词主要有人物、地点、年代、事件、时间等,对文学研究的检索,常用的有作品、作者、专有名词、专有概念等。
当古籍资料有多个不同时代的版本时,版本信息同样非常重要,可以使学者确定哪个时代的版本更为准确。古籍资料页面中的正文字体、序跋、注释、批注、评语等都是学者所关注的,是准确理解正文的重要信息来源。
准确理解人文学者对古籍的查阅方式是图书馆对古籍数字化的基础,有助于在数字化过程中为他们尽可能提供精准的服务。比如,古籍版面非常复杂,包括序跋、批注等各种信息,字体的大小、位置、字形都有显著的差异。但是,现在文字识别技术难以准确地重现图书页面的原貌,需要在数字化过程中,既注重文字的准确性与可检索性,又能为读者提供图书的图形化页面,兼顾搜索和阅读。
实现古籍文献资源数字化的完整呈现非常复杂,工程浩大,涉及到资源的数字釆集、数字处理、数字修复、数字保存、数字管理、数字传播等。作为地方和大学图书馆只能根据有限目标、优先程度,逐步完成。
数字技术为古籍资源的保存、整理与利用带来了崭新的方法,互联网的迅捷传播特性也为数字化古籍资源的广泛共享奠定了坚实的基础,加速了人文研究的电子信息广泛应用的进程。在此背景下,人文学者对古籍藏书资源的利用也提出了新的需求。随着人文学术研究的多样化和深入化,学者不仅仅大量阅读古籍藏书的文本内容,更希望古籍内容有灵活搜索、关键信息的统计、分析等功能。因此在有限的经费条件下,尽可能满足人文学者的使用需求,主要包括关键词搜索功能以及古籍资料原貌的在线阅读。
古籍文献数字化的本质是将其中的文字或图形转化成能被计算机识别的信息,如何完整地重现古籍文献信息是核心和基础,从而实现古籍的完整保存和准确利用。由于古籍文献资料年代久远,字体模糊,并且有很多复杂的繁体字或者异体字,为计算机的识别系统带来一定困难。如果对无法识别的文字简单地只提供古籍文本扫描影像,仅能提供在线阅读的视觉呈现,则无法满足学者的专业研究需要。所以需要投入大量的人力物力,对计算机识别的文字进行精准的文字校对,这对地方或者大学图书馆来说是难以承受的。
古籍数字化是利用专业的古籍扫描仪来扫描古籍文献,然后再进行信息的处理。由于古籍文献很珍贵,数字化过程需要精心保护古籍文献,进行无损操作。
1.分阶段实施
为了后续更好地管理和利用,古籍数字化分为书目和全文的数字化两个阶段。第一阶段是建设书目库的信息资源,为开展多种途径检索奠定基础⑥,初步满足学者科研与教学的需求。书目信息可包括题名、创建者、主题词、关键词等标准信息。读者通过目录检索可迅速发现所需的图书资料,从而提高工作效率。第二阶段是建设全文数据库。早期的古籍全文数据库是通过人工录入的文本格式,其最大优势是可实现全文检索等操作⑦。但是古籍文献的文字非常复杂,有篆、隶、楷等字体差异,还有繁、简、异等文字差别,人工输入不仅工作量大而且难度高,此外还不能保持古籍原貌。在有限的经费下,可以采用计算机识别的文本与扫描图形相结合的方式,建立全文数据库。首先对古籍正文进行扫描,然后利用识别软件把扫描的繁体、篆体等不同字体变成繁、简体字的文本文件,辅以人工初步检测提高识别准确度。这样,初步简洁的全文数据库可建立,而这样的简易文本数据库虽然阅读不便,但满足了初步信息搜索的要求。
2.主要功能优先
大学图书馆古籍数字化的服务对象首先是人文学者,人文学者最关心的是资料的检索功能和全文材料阅读功能。检索功能可以依据计算机文字识别所产生的繁体文本和简体版本,利用现有的成熟检索技术。其中简体文本为青年学者的使用提供了便捷。
由于条件所限,计算机识别产生的文本古籍数据与古籍的原始面貌截然不同,且有一定的误差,不适合直接阅读,只提供检索信息。根据检索结果,再直接调用全文的图像数据库阅读原貌的古籍资料。为了让研究者能查阅古籍原文的正文、批注、印章等信息,数字图像处理技术是古籍文献全文信息资源数字化的关键。在保证古籍全文信息准确的条件下,通过对采集古籍全文图像特征提取、图像校正、图像拼接、图像压缩等技术⑧,把信息量尽可能压缩,方便保存,提高读取速度。这样兼顾了学者快速检索与准确原文的要求。
3.逐步深化
随着对古籍数字化支持力度的加大和计算机技术水平的不断提高,其数字化程度不断加深。主要包括在以下方面:(1)文本资料的准确性、完备性进一步增强,不断优化组合搜索功能提升准确性,实现跨资料库的精准快速定位搜索,并且完善后续智能处理,为读者提供更深入的服务。(2)利用现代计算机图像技术,再现古籍原始风貌,实现图像与文本完美结合,阅读古籍的同时还有摘抄、搜索、处理文字等功能。在此基础上,结合虚拟现实等现代数字技术,让古籍资料以图像、文本、声频、视频等形式全方位传播我国文化。(3)进一步对外开放,并且和其他图书馆资源联网,实现资源共享。
古籍文献的数字化为其再生复现提供了重要手段,不但易于存储保护,更利于传播与利用。随着数字化理论与技术的不断发展,计算机、网络与智能手机的不断普及,为我国优秀历史文化创新保护、开发、传承奠定了基础。历史文化资源数字化是提高我国文化软实力、弘扬我国悠久历史文化的重要举措,地方及大学图书馆在推进古籍文献数字化潮流中将发挥越来越重要的作用。
注释:
①吴明德、黄文琪、陈世娟:《人文学者使用中文古籍全文资料库之研究》,《图书资讯学刊》1995年第4卷第1/2期。
②赵文友、林世田:《“中华古籍保护计划”成果——以“中华古籍资源库”建设为中心的古籍数字化工作》,《新世纪图书馆》2018年第3期。
③杜羽:《数字化古籍:走出深闺待人识》,《光明日报》2019年10月30日。
④张爽:《高校图书馆与古籍数字化》,《黑龙江教育学院学报》2012年第6期。
⑤吕姿玲:《创新古籍数位应用——以“通用型古籍数位人文研究平台”为例》,《新世纪图书馆》2019年第2期。
⑥毛建军:《国内公共图书馆古籍书目数据库的建设与思考》,《公共图书馆》2007年第2期。
⑦刘聪明:《古籍全文数据库的建设》,《图书馆学刊》2011年第7期。
⑧赵东:《数字化生存下的历史文化资源保护与开发研究——以陕西为中心》,山东大学博士论文,2014年4月。