黄河
中文古籍数字化工作已经在国内开展了30多年,各种形式的数字化古籍已经在市场上纷纷涌现。同时,有关古籍数字化的方案、技术和理论,学界也取得了丰硕的研究成果。尤其是数字化古籍的优缺点、古籍数字化的成果总结、古籍数字化的技术实现、古籍数字化工作的重难点以及对于古籍数字化工作的反思等,都是学者关心的话题。笔者主要从事中文古籍的整理和研究工作,不可避免地要接触到数字化古籍,因此对古籍数字化工作的现状也曾略有留意。目前笔者正在参与国家社科基金重大项目《荆楚全书》的编撰工作,并负责宜昌地区古文献的点校,对数字化古籍的利用情况又有了切身的体会。因此,笔者从一名使用者的角度,结合实际工作中使用数字化古籍的感受,谈谈目前古籍数字化工作的几点问题。
古籍的版本对于其学术价值有着决定性的影响,学术研究所采用的古籍版本也是学者专业水平的体现。当前的古籍数字化工程大多注重题材的选取,而忽视古籍版本的价值。就以香港迪志文化出版公司与上海人民出版社合作出版的“文渊阁《四库全书》”电子版为例,这的确是一个很有吸引力的题材,但精心制作而成的数字版本却很少被学术论著所引用。主要是因为《四库全书》在编撰过程当中,清廷有意删改原书,使其版本价值大打折扣。实际工作中,文史研究者往往会选择其它精校本,而不是《四库全书》本作为参考文献。如要引用正史材料,学者一般会采用中华书局点校本《二十四史》;如需引用诸子,学者也多会选择中华书局点校本《新编诸子集成》。哪怕是专门的文献整理和研究者,在选择底本或者参校本时,《四库全书》本往往也不是最佳的选择。比如刘韶军先生点校《太玄集注》,是以明抄本为底本,“以道藏本、大典本、张士镐本及胡注残卷对校前六卷”[1],以五柳居本为参考点校后四卷。《四库全书》本《太玄经》出自明朝本,其版本价值不及明抄本,故而不用。再如王利器先生撰《新语校注》,所用《新语》以浮溪精舍刻宋翔凤校本为底本,校以明李廷梧刻本、子汇本、程荣刻《汉魏丛书》本、《两京遗编》本等[2],尽管四库本也有可取之处,仍然弃而不用。而对于古籍数字化来说,耗费极大的人力和物力,完成一项浩繁的工程,成果却不能很好地应用于学术研究,这其实是造成了严重的资源浪费,也有违古籍整理工作的宗旨。
从事古籍整理与研究的学者对古籍文字的要求是相当苛刻的,因此数字化古籍的校勘质量是其版本价值的重要指标。值得肯定的是,香港迪志文化出版公司的“文渊阁《四库全书》”电子版校勘精细,是目前校勘较好的古籍电子化产品之一,其它产品均难达到这一境界。有学者指出古籍电子化产品的学术水准应以进入专业研究者的参考文献为最高目标,这是很有道理的。但目前的数字化古籍产品普遍存在校勘不精的问题,使之与参考文献的标准相去甚远。以中国国际图书贸易总公司《中国历代典籍总目分析系统》中的《二十五史研习系统》为例,其校勘欠精之处甚多。如《史记·武帝本纪》:“太史公曰:学称五帝,尚矣。”“学”后脱一“者”字、一“多”字。又《后汉书·光武本纪》开篇就是“东观记林作临字yydd按”,文本及格式错乱不堪,不知所云。且于“赵缪王子林说光武”之前连正文带注阙数千字,殊为草率。一般的数字化古籍电子都达不到《四库全书》的校勘精度,以上所举仅见一斑。也许是因为高精度的全文检索系统制作成本太高,超出了一般企业或研究单位所能承受的限度。这样的数字化古籍当然无法满足学术研究的文献需求,更不能成为专业研究者的参考文献。版本质量将会成为古籍数字化产品向高端迈进的瓶颈。
检索快捷这也是数字化古籍的一大优势,有学者乐观地认为:“与传统学术研究的辛苦查找、梳理资料相比,当代的文史研究工作者可以轻轻一点鼠标而资料就会呈现在眼前,省去了寻找资料的辛苦。”[3]于是,当前的古籍数字化工程大多追求全文检索功能的实现,具体的做法就是将数字图像转换成电子文本,以便于全文检索。这对于现代文献和外国文献来说是很容易实现的技术,但是对于我国的古代文献来说却是一项非常复杂和困难的工作。
首先是汉字处理问题,也是古籍数字化工作最早遇到的问题。中国的古文字至为复杂,为了保持古文字的原貌以客观再现古籍内容,目前业界大多采用Unicode作为文字处理的标准,Unicode已经定义了7万多汉字,而且还在不断扩充,仍然不能完全满足古籍文本的转换需要。这已经是一项不小的工程,但如何处理古籍在传抄、刊刻过程中所产生的异形字、避讳字、通假字等问题,在技术上仍然存在不小的难度。哪怕是“文渊阁《四库全书》”电子版也有处理不了的文字问题,多处有“字位过密无法显示”字样,比如史部地理类《陕西通志》。既然汉字处理的问题不能完全解决,全文检索功能必然要打折扣。
其实,就算能够完全实现古籍文本的数字化,全文检索的命中率依然不会很高,因为还有中国特有的语言文化的问题。对于西方或者现代文献来说,在大多数情况下,字面所反映的基本上就是事物的真实意义;而对于中国古代文献来说,字面所反映的并不一定是事物的全部内容,如果要了解事物的全部内容,则必须从字里行间去寻找“言外之意”或者“微言大义”。因此,一些用于现代文献、外国文献的数字技术和方法可能对于中文古籍来说并不十分适用。即使数字化工作能将古籍文字以数字方式再现,对于学术研究来说仍然显得不够。这应该是数字化古籍在实际学术研究中利用率不高的一个重要原因。
易于储存和携带这是数字图书的优势,但阅读舒适性低也是数字化图书的通病,数字化古籍尤其如此。有研究者指出:“无论是利用电脑还是借助于掌上阅读器,数字化图书阅读的舒适性与方便性都远远不及纸质图书。无论界面设计如何完善,总会有光强度、分辨率、运行速度等各种技术因素的影响,无法达到传统图书的舒适与方便,直接干扰了读者的思绪。”[4]这是因为传统的纸质文献,尤其是古籍,作为人类数千年文化的积淀和人类积累文化的主导方式,对于人们的阅读习惯也产生了根深蒂固的影响。因此我们更加习惯于直接面对书籍,尤其是直接去感受古代典籍带给我们的历史文化气息。
虽然随着图书数字化工作的普及和深入,阅读习惯也正在发生着改变,但这种改变是不可能在短时期内完全实现的。所以现在很多古籍虽然已经有了数字版本,很多读者还有将数字本打印下来进行阅读的习惯。而专门从事古籍整理和研究的学者,更是坚持要将数字图像本古籍一页页打印成纸本,然后进行阅读、点校和研究,最后又将成果重新转化为电子文档。在一些特别的古籍整理与研究工作中,比如古籍修复、版本鉴定,原版的纸质古籍更是数字化古籍无法取代的。因为古籍不仅仅是用单纯的文字符号给我们传达知识,其中的每一个细节都是我们了解历史文化知识的重要信息源。
但出于古籍保护工作的需要,研究者和整理者又要尽量避免对古籍原本的直接操作。因此在实际工作中,笔者和同事都是先将古籍逐页扫描成图片,再将图片打印出来作为工作本进行阅读和点校。只有高仿真的古籍复制品才可以代替原本称为研究者和整理者的工作对象,因此古籍影像远比电子文本更有学术价值。
鉴于数字化古籍存在的种种问题,很多学者对古籍数字化工作也进行了反思,提出了一些修正意见,尤其强调在古籍数字化工作中要坚守保真原则,“有效保全古籍中的原生态信息”[5]。古籍整理的主要任务就是要促进古籍的保护和利用,古籍数字化工作的任务当然也是这样,既要使古籍所承载的知识能够有效地服务于学术和研究,又要让古籍本身不至于受到损坏。两者之间存在矛盾,只有以保真为原则对古籍进行电子化,使数字古籍能够替代古籍原本成为阅读和研究的对象,才可以将两者统一起来。
国内的古籍数字化工程大多注重全文检索功能的实现和完善,目的在于使研究者能够方便快捷地从文献中检索出符合条件的材料。就笔者从事古籍整理与研究工作的经验来看,有观点、思想乃至思想体系才是最难的,这是人脑的工作,也是电脑无法取代的,收集资料则次之。为了完成特定的科研任务,难度又在广泛收集相关的文献上,而从已有的文献资料中剥离出可用的材料则又次之。目前的数字化古籍最大的长处无非就是能迅速从文献中检索出符合条件的材料,但对于专业的研究人员来说,这其实无需花费太多的时间和精力。暂且不说数字化古籍全文检索功能的命中率,我们要将一大堆貌合神离的材料加以仔细的分析、整理和研究,才能形成高质量的科研成果,这也是电脑无能为力的地方。
从国外的中文古籍数字化成果来看,大多注重影像数据库的建设。美国国会图书馆《American-Memory Pilot Project计划》将该馆21万件馆藏予以数字化处理,转化成数字化图像;英国图书馆《British Library Images Online计划》将馆藏珍罕文献影像数字化;日本国立国会图书馆制定《国立国会图书馆数字图书馆计划》,至2003年已建有500余件中文古籍图像数据库。中文古籍的数字影像虽然不具备全文检索功能,但显然比全文文档具有更高的保真性,提供的数据也更具有完整性和准确性,其学术价值显然也远胜于全文文档。因此,迪志的“文渊阁《四库全书》”电子版还同时配备了图像光盘,这才是该产品的最大价值所在。
数字化古籍的确具有显著优点,比如便于复制和传播、易于储存和携带、检索快捷等。但古籍数字化工作能否提供具有最大限度保真性的产品,可以代替古籍原本用于阅读和工作,这对于学术研究和古籍保护的意义更为重要。但数据的完整性和准确性却是目前的数字化古籍最为欠缺的。当前的古籍数字化工作片面注重全文检索功能,保真效果不佳,致使数字化古籍利用率不高,无疑造成了大量资源的浪费。而且用于古籍整理基础工作的人力、财力本来就非常有限,我们不能仅仅站在数据库商的角度对数字化的优点进行炒作和放大。市场上的数字化产品虽然品类繁多,但大多很难满足学术研究的需要,这也说明古籍数字化工作还实实在在地存在着缺陷。当然,这也主要是由于中文古籍的特殊性所决定的。在笔者看来,要想使数字化古籍能够有效服务于学术研究,数字化工作最能发挥作用的地方应该是优化获取古籍资源的环节。对于古籍数字化工作而言,能够让研究者方便快捷地获取古籍资源,同时还能保证数据的完整性和准确性,无疑是给研究人员提供的最有效的帮助。为了节约资源、提高古籍数字化工作质量、保护和利用历史文化遗产,我们更应该站在使用者的角度,理性认识数字化古籍的优缺点和古籍数字化工作中存在的问题,适时调整古籍数字化工作的重心,采用合理的古籍数字化建设模式。
[1]刘韶军.太玄集注点校[M].北京:中华书局2008:前言7.
[2]王利器.新语校注[M].北京:中华书局.1986:前言16.
[3] 毛建军.江苏省馆藏古籍数字化的建设与意义[J].新世纪图书馆,2006(5):58~59,62.
[4] 丁蔚,李红奎.数字时代:请不要与纸质图书作别[J].发展,2005(8):70.
[5] 郑云彩.古籍数字化的保真原则[J].武陵学刊,2010(7):142-143.