韩超南
我国的古籍数字化自上世纪80年代机读目录始,至今已有40年左右的发展历程。目前,各大图书馆的古籍数字化主要是古籍原本的数字影像化,近年来又在工具数据库、知识发现系统等建设中取得了一定的成绩。但从古籍再生性保护与研究利用来看,古籍的数字影像化、数字化影像集成数据库建设以及数字影像的远程访问仍是当前及未来较长一段时间内的中心任务。
南京图书馆较为系统地开展古籍扫描约在2007年左右,并且从2011年开始向公众开放扫描件的在馆阅览服务。截至目前,南京图书馆已完成约8000部古籍的扫描工作,总计形成了约500万拍的数字化影像文件。应该说,南京图书馆古籍数字化影像的总量在全国是名列前茅的。在数字化工作中,南图实行“一个原则,两条路径”的工作方式。一个原则就是以保护古籍为原则,图书馆的数字化工作不仅是为了阅览服务,更重要的是为了古籍保护。如果因扫描而使古籍受损严重,那么这样的扫描工作是不值得开展的。两条路径:一是在日常工作中长期有计划地进行古籍数字化工作,其原则就是以古籍等级为标准,依次进行扫描;二是以阅览服务和古籍整理项目带动数字化扫描。原则上(即没有研究古籍物质性的需求),南图藏明代以上善本古籍一般是不出库的,需要扫描后在馆阅览电子件。但是,读者需要阅览的古籍与已扫描的古籍必然不可能完全重合。因此,当读者所需善本尚未扫描时,读者可以通过电话预约扫描,南图会提前安排阅览古籍的扫描。如此则解决了扫描进度与读者阅览需求的矛盾问题。
2017年起,南京图书馆历史文献部又成立了“数字资源开发组”,对扫描文件进行深加工——文献的一、二级类目标引工作。这一规划是为今后更好地在全网发布古籍影像埋下的伏笔。众所周知,古籍目录没有现代目录的页码索引功能,见篇目而不知在哪一页是常有的事。若直接上手翻阅,在篇目明确的情况下倒也能较为快速地找到相应内容,但转换成电子件后便无法实现。标引的作用就是在电子件中建立篇目与相应图像位置的联系,读者仅欲查阅某几个篇目就无需逐页翻检。为此,南图古籍部数字资源开发组制定了详细的《古籍数字化元数据著录规则》,其宗旨就是建立古籍文本与电子文件间的“图-目”联系,《规则》总纲云:“古籍的数字化文本在排版上和原书一样,结构一般有以下几个层次:封面、封二、题名叶、序跋、目录、正文、封底,读者可以依据图书的叶码顺序翻叶阅读,也可以点击标引链接到所需阅读叶面。”目前,南图主要完成一、二级类目的标引,个别古籍还会深入到三级标引。这一工作很快就在南图全新的阅览系统中得到了应用,并取得了一定的实用价值。
为了提升馆内数字化影像阅览服务,南图于2019年底开始建设新的电子阅览系统,并在2020年开馆后投入更多的电子阅读设备以适应日益增长的数字影像阅览需求。新的电子阅读设备整合了古籍查询和阅览的双重功能,检索、阅读更为方便,系统的功能也较原来单纯图片式阅读更为丰富,而标引工作在新系统中也正式发挥了它的作用。新系统的主体界面就是阅览区与标引区的组合界面。读者可以在阅览区逐页浏览古籍,同时也可以通过标引区直接链接到自己需要的某小类,提升了阅读体验。更为重要的是,阅读系统和标引实现了结合,为进一步在全网发布古籍积累了经验。
2017年,国家古籍保护中心先后联合首都图书馆、上海图书馆、天津图书馆、辽宁省图书馆、山西省图书馆、云南省图书馆、浙江大学图书馆、复旦大学图书馆、中山大学图书馆等在线发布古籍数字资源过万部,得到了社会各界的热烈反响和好评。可见,古籍数字化影像的远程访问是大势所趋,也是国家古籍保护战略的重要组成。于是,在国家古籍保护中心的牵头下,南图于2018年发布了首个远程访问的自建古籍全文影像资源库——《稀见方志全文影像数据库》。2019年、2020年两年,南图又陆续发布了《南京图书馆藏清人文集全文影像数据库》,共计发布文集200部,其版本及作者的年代跨度贯穿清朝历代。“十四五”期间,南图仍将以增加古籍数字化影像的数量为核心,不断提升古籍阅览服务水平。另一重心就是打造全新的古籍影像数据库发布平台,其古籍收入数量及操作模式将会有一个新的跨越。
纵观南图及全國古籍数字化建设情况,应该说我国的古籍数字化建设在近几年取得了不小的成绩,基本满足了一般研究的需求,也为大众认识古籍开辟了一个新的窗口。但仍有一些问题可供商榷,笔者在此略阐鄙见,以就教方家。
首先,数据库建设仍当以量为优先。公共图书馆的最大优势是收藏量丰富,研究者对图书馆资源的期待也多在此。平台打造得再好,没有一定数量的古籍资源支撑,也不过是徒有其表,难以真正满足研究者对资源的渴求。专业数据库、知识发现系统的建设也都是建立在丰富的资源之上的,我们不能离开资源的量而侈谈资源的质。
其次,数字化影像的精度有待提高。出于版权及存储设备负荷的考虑,能够远程访问的数字化影像精度一般较低。虽然基本能够满足研究者对文献内容的需求,但很难满足版本形式研究的需要。特别是有些数据库仍以灰度图,甚至是黑白影像为主,其在除正文文字以外的内容利用方面必然存在一定的局限性。
再次,发布版本的选择需有新的思考。目前,善本占古籍数字化发布比重较高,这是无可厚非的,也是数字化影像建设之初最为亟需的。但是,随着善本发布达到一定数量后,对于发布版本的选择则需要重新进行思考。比如某些仅具有艺术欣赏价值的古籍,是否有必要大量以数字化的形式进行发布。又如某些乾隆六十年以后产生的精校精刻之本,虽然从国家定级的角度来说不能寓于善本之列,但其重要性则下亚于某些善本,是否应该加大这类书的发布,等等。
第四,丛书的书目标引需进一步加强。古籍被数字影像化之后就丧失了部分物质形态,因此原附着其上的某些实用信息被抹杀,这需要以新的方式使研究者利用到。以丛书为例,一部百种以上的丛书,研究者需利用的可能仅是其中的某一种。未被数字化之前,某些丛书会利用签条、书根题名等方式方便检索,但数字化之后这些信息就没有了。如果在发布数字影像时能一一标明某册为某书某卷,笔者认为对于研究者来说是较为便利的。
这些仅是就古籍数字化影像本身所作的一些思考,至于服务器的承受力、阅读的流畅程度、阅读模式的兼容及标准统一、检索字段的丰富化等技术层面的问题,则有待技术工作者与文史工作者共同努力。