文献整理学术传统对古籍数字化的参照价值(之二)
——以“述而不作”为例*

2020-01-08 15:34李明杰宋时雨
图书馆论坛 2020年7期
关键词:古籍数字化

李明杰,方 正,宋时雨

中国古代文献整理以其悠久的历史形成了一系列优良的学术传统,笔者将其归纳为五个方面:一是在底本选择时“广勘异本,择善而从”的传统;二是在文字校注时“述而不作,信而好古”的传统;三是在版本源流考订时“万流同归,百虑一致”的传统;四是在书目编制时“辨章学术,考镜源流”的传统;五是在文献编纂时“会通”的传统[1]。这些优良的学术传统是文献整理长期实践经验的总结和理论升华,对当今的古籍整理及古籍数字化工作仍具有重要的借鉴意义。之前笔者曾撰文[2]探讨“会通观”对古籍数字化的认识论和方法论价值,今接续前文,探讨“述而不作”的涵义及其对古籍数字化的参照意义。

1 “述而不作”涵义考辨

1.1 本义:作为政治理想的“述而不作”

“述而不作”语自《论语·述而》:“述而不作,信而好古,窃比我于老彭。”[3]74对这句话的本义,后世有不同的解读,歧义主要体现在对“述”和“作”的理解。对于“述”,一说“循旧”,以清刘宝楠《论语正义》为代表;一说“阐述旧章经典”,以皇侃《论语集解义疏》和朱熹《论语集注》为代表。事实上,循旧是“述”的本义,如许慎《说文解字》的解释:“述,循也。”而从《礼记》《诗经》《左传》《尚书》等先秦典籍使用“述”字的义项来看,亦都作“循”解。

对于“作”,一说为“新制礼乐”,以皇侃《论语集解义疏》为代表;一说“创作”,以朱熹《论语集注》和今人杨伯峻《论语译注》为代表。然而,战国之前并无私人著述,如章学诚《文史通义·诗教》指出:“至战国而官守师传之道废,通其学者,述旧闻而著于竹帛焉……不知古初无著述,而战国始以竹帛代口耳。”[4]63因此,将“作”解释为创作,是行不通的。但是否就是“新制礼乐”呢?据《中庸》第二十七章载:“非天子,不议礼,不制度,不考文。”[5]95可见制定礼乐是天子之事,对信守周礼的孔子来说,不可能僭越为之。既然以上两种说法都不准确,那孔子所谓的“作”是什么意思呢?周远斌[6]从《中庸》第十章“索隐行怪”这段话得到启示:“子曰:索隐行怪,后世有述焉,吾弗为之矣。君子遵道而行,半涂而废,吾弗能已矣。”[5]57“作”就是舍弃王道而别立他道之义。反之,“不作”就是“遵道而行”,即遵循、继承先王的事业。笔者赞同周远斌说,“述而不作”的本义是孔子政治理想的表达,而非专指对典籍的因循守旧。

1.2 引申义:作为文献整理传统的“述而不作”

“述而不作”的本义是继承往圣、不改“王道之业”。孔子为了推行他一生奉为至道的周礼,广收门徒,讲学杏坛,编订教材,相传曾删《诗》《书》,定《礼》《乐》,赞《周易》,修《春秋》。如何看待孔子整理文献典籍与继承“王道之业”的关系?章学诚认为:“故夫子述而不作,而表章六艺,以存周公之旧典也,不敢舍器而言道也。”[4]133也就是说,孔子以保存周公的旧典作为“器”,通过六经的“述而不作”来实现恢复周制的“道”,两者是“道器合一”、不可分割的关系。正因为如此,随着历史的车轮滚滚向前,周礼虽一去不复返,但“述而不作”的理念却被引申为文献整理的圭臬,成为后人所理解的孔子治学精神的精髓。

何谓文献学意义上的“述而不作”?结合“信而好古”来理解,就是遵从历史的本来面目,表现在文献整理程序和方法上,就是尊重文献原文,不臆测和妄改文字,以求文献原本之真;在阐释文义时,不以己意强加作者,以求作者原说之真。最能体现孔子这种治学思想的例子已为大家所熟知:《春秋·昭公十二年》记“齐高偃帅师纳北燕伯于阳”,孔子明知“伯于阳”为“公子阳生”之误,但为了慎重,没有径改。东汉何休《解诂》曰:“此夫子欲为后人法,不欲令人妄臆错。”[7]孔子在不同场合多次强调治学要信守原文的原则,这在《论语》中亦有记载,如《为政》篇云:“多闻阙疑,慎言其余。”[3]20《子罕》篇又云:“子绝四:毋意,毋必,毋固,毋我。”[3]100

强调“不作”并不代表孔子没有自己的思想主张,只是他认为,与其空讲道理,不如摆事实,于是将自己要表达的观点隐藏在文字和史实后面,让读者自己去体会。所谓春秋笔法、微言大义,讲的就是这个意思。因此朱熹说:“然当是时,作者略备,夫子盖集群圣之大成而折衷之。其事虽述,而功则倍于作矣,此又不可不知也。”[5]221而且,在孔子所处的时代,他是不可能主张“作”而不“述”的,正如《中庸》所云:“虽有其位,苟无其德,不敢作礼乐焉。虽有其德,苟无其位,亦不敢作礼乐焉。”[5]95孔子就属于有德无位的情况,自然不具备大张旗鼓地“作”的条件。何况《礼记》又说:“作者之谓圣,述者之谓明。明圣者,述作之谓也。”[8]可见,能做到“祖述尧舜,宪章文武”(《礼记·中庸》)就已经很了不起了。如果以“作者”自居,岂非自诩为圣人?这在当时是绝无可能的。因此,后世有学者将“述”与“作”对立起来,认为孔子只提倡“述”而否定“作”,进而认为孔子思想守旧、抵制创新,这种看法是有失偏颇的。

2 “述而不作”对中国传统学术的影响

自孔子提出“述而不作”以后,后世学者莫不以之为标榜。“述而不作”几乎成为一种学术话语方式,深深植入了中国文化的土壤,对传统学术的发展产生了深刻的影响。

“述而不作”引入史学领域,开创了秉笔直书的“实录”派风格,如司马迁作《史记》,上大夫壶遂将他与孔子修《春秋》相提并论,但司马迁却在《太史公自序》里郑重其事地说:“余所谓述故事,整齐其世传,非所谓作也。而君比之于《春秋》,谬矣。”[9]可见,司马迁认为自己的工作性质只是“整齐其世传”的“述”,而非创作意义的“作”。这决非司马迁的自谦之词,反倒是“其文直,其事核,不虚美,不隐恶”[10]的“实录”精神的体现。

“述而不作”引入文学领域,产生了文学评论“推源溯流”的崇古情节,如钟嵘《诗品》评论前人,常用“其源出于某某”“颇似”“祖袭”“宪章”之类的语言,如评李陵“其源出于楚辞”,评沈约“宪章鲍明远”,故章学诚认为钟嵘《诗品》堪称文学评论“推源溯流”的典范:“《诗品》之于论诗,视《文心雕龙》之于论文,皆专门名家,勒为成书之初祖也。《文心》体大而虑周,《诗品》思深而意远。盖《文心》笼罩群言,而《诗品》深从六艺溯流别也。”[4]559钟嵘的方法与孔子提倡“祖述尧舜,宪章文武”、对圣人之道采取“述而不作”的思想是一脉相承的。另外,“述而不作”在对儒学、释学、道学的阐发和发展过程中,也都产生过重要影响,此不一一赘述。

“述而不作”引入文献学领域,在编纂、校勘、注释等学术活动中发展出了尊重历史原貌、信守典籍原文、遵从作者原义的文献整理基本原则,并为历代学者所尊崇。

在文献编纂领域,东汉的许慎编《说文解字》,信守孔子的阙疑之法,必遵旧文而不穿凿;西晋时对发掘出土的《汲冢竹书》的整理,遇到的首要问题就是将战国时的文字改译成今文隶书,荀勖等人对原文意义把握不定的则留其真,遇有夺文,便在译本相同的位置用方括号代替。为保持原书格式,“谨以二尺黄纸写上”,目的是仿照战国竹简古式;南梁释僧祐在整理佛经时,对难以择取的同书异本,不以一己之意断版本之是非,而以存疑之法“新旧两存”。

在文献校勘领域,郑玄校《三礼》,如无确凿证据,绝不轻改原文,遇有今古之异文,则存古字而不改;南宋彭叔夏年少时,手抄《宋太祖实录》,“其间云:‘兴衰治□之源。’阙一字,意谓必是‘治乱’。后得善本,乃作‘治忽’。三折肱为良医,信知书不可以意轻改”[11]。清乾嘉时期的顾广圻、黄丕烈,校书时主张“据此本以校彼本,一行几字,钩乙如其画,一点一画,照录而不改。虽有误字,必存原本”[12],由此形成校勘流派中的“死校”一派。尽管历史上曾发生过段(玉裁)、顾(广圻)之争,但也正是通过“理校”和“死校”的学术论辩,促进了校勘学理论的发展,如段玉裁提出了“以孔还孔”“以贾还贾”的著名观点,而顾广圻则发展了“以不校校之”的理论,两者虽然在路径上有所不同,但归途都是“述而不作”。

在文献注释领域,以儒家经典为例,从最初的六经、五经,发展到后来的九经、十二经、十三经,再到清乾隆时修《四库全书总目》(含存目)著录的1,773种经书,儒家文献体系的演变和发展壮大,差不多都是“祖述六经”的结果。期间虽然也发生过“我注六经”与“六经注我”的方法之争,但最终都要以先贤典籍为根本,故清人戴震在阐释注经的方法时说:“然寻求而获,有十分之见,有未至十分之见。所谓十分之见,必征之古而靡不条贯,合诸道而不留余议,巨细毕究,本末兼察。”[13]注重对古代经典本义的阐发,就是“述而不作”原则在注释领域的体现。

3 “述而不作”对古籍数字化的学术定位

文献整理发展到今天,文献记录符号、文献载体、文献整理方法都已经发生了巨大变化,特别是古籍数字化的概念提出来以后,不断有新的信息技术应用到古籍数字化领域,用户从古籍数字化中不仅能获得古籍的文献信息、文本内容,甚至还能获得加工好的古籍知识产品和成熟的研究工具。那么,“述而不作”的文献整理原则是否还适用于今天的古籍数字化实践?数字环境下古籍整理(“述”)与古籍学术研究(“作”)的边界在哪?

人们对古籍数字化的认识是一个随着信息技术进步而不断深化的过程,这个过程大致经历了3个阶段。

第一阶段为“存储介质转换说”。最初人们认为,古籍数字化是出于保护古籍内容的目的,对古籍内容的存储介质进行数码转换,如李运富称:“所谓古籍电子化(笔者注:早期‘数字化’与‘电子化’是混用的),是指利用现代信息技术,将历来以抄写本、刻铸本、雕版、活字本、套版及铅字印刷等方式所呈现的古代文献,转化为电子媒体的形式。”[14]这个定义,实际上是从保护古籍文本的角度对古籍的版本类别进行了扩展。从数字版本与纸质版本的古籍的对照来看,前者的文本内容要求与后者必须保持一致。而事实上,除了扫描成图像格式外,经过文本转换后的内容或多或少都会因为简繁字体、俗体字、异体字、避讳字,甚至额外加入的标点符号等复杂的原因产生与原文语义上的偏差。但从整体要求上来说,古籍存储介质的转换与许慎《说文解字》对“述”的定义“循也”是完全吻合的,即“述而不作”。

第二阶段为“信息资源揭示说”。机读目录编制技术和计算机检索技术引入古籍数字化之后,经过存储介质转换的古籍数字文本,相比传统的纸质文本更便于进行有序化的组织和检索,不但能实现传统书目索引的检索功能(如书名检索、作者名检索、分类检索、关键词检索等),还能提供便捷高效的全文检索服务。因此,有学者认为,古籍数字化在实现存储介质转换的同时,还应深入揭示古籍的内容资源,按用户的需求提供信息检索和原文呈现的功能。如毛建军认为:“古籍数字化就是从利用和保护古籍的目的出发,采用计算机技术,将常见的语文文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作。”[15]因此,该阶段对古籍数字化的定义可称为“信息资源揭示说”,即古籍保护不再是古籍数字化的唯一目的,揭示古籍的信息资源是同样重要的任务。此阶段对古籍数字化的学术定位仍是清晰的,即为读者揭示古籍信息或提供古籍原文。即便是计算机自动标点、自动校勘、自动编纂等新的古籍文本加工形式的出现,也只是加工工具和手段的不同而已,其对象都是对古籍原文的加工,亦即“述而不作”。

第三阶段为“数据深度加工说”。古籍在完成了文本内容的转换、信息资源的组织之后,形成了海量的数据,而这些数据还可以成为下一步加工整理的对象。随着新型数字人文技术,如社会网络分析、文本挖掘与聚类、地理信息系统(GIS)、知识可视化、机器学习等技术在古籍数字化中的应用,古籍数字化又向前迈进了一大步,进入了以数据加工为手段的知识深度开发阶段,如范佳提出,“古籍数字化应充分占有数字人文研究成果,从文本挖掘、GIS技术、文本可视化和古籍语料库四个方面进行古籍数字化的深度开发”[16]。数字技术与人文科学研究的融合,在带来人文科学研究方法变革的同时,也加深了学界对古籍数字化技术功能的迷信,模糊了“述”与“作”的边界。

“述而不作”对古籍数字化学术定位的价值就在于,无论数字化技术如何发展,其技术功能如何强大,古籍数字化都属于古籍整理(即“述”)的范畴,而不可能取代利用古籍从事具有独创性的学术研究(即“作”)。在纸质文献环境下,学界对古籍整理与利用古籍从事学术研究有着十分严格的界限,如已故著名史学家黄永年教授称:“古籍整理,是对原有的古籍作种种加工,而这些加工的目的是使古籍更便于今人以及后人阅读利用,这就是古籍整理的涵义,或者可以说是古籍整理的领域。超越这个领域,如撰写讲述某种古籍的论文,以及撰写对某种古籍的研究专著,尽管学术价值很高,也不算古籍整理而只能算古籍研究。”[17]进入数字环境以后,古籍数字化进入了数据加工层次,通过数据挖掘和知识加工,虽可生成更多知识性的研究工具,如社会网络、知识图谱、地理信息系统等,但只是将隐性的历史事实和数据显性化,其本身并不具备独立的价值理性,终归是辅助学术研究的工具。因此,在笔者看来,无论是古籍存储介质的转换、古籍信息资源的揭示,还是古籍知识的深度开发,都只不过是古籍整理在信息技术发展的不同阶段的不同表现形式而已,是传统的古籍整理范式在数字环境下的传承与拓展[18]。数字环境下古籍整理(“述”)与古籍学术研究(“作”)的边界依然没有改变,即古籍整理是对古籍原文(数字环境下的古籍原文变成了文本数据)所作的种种加工,它是为学术研究服务的,而不是取代学术研究。

4 “述而不作”对构建古籍数字化学术规范的意义

古籍数字化是一种学术活动,为保证其学术品质,必然要以相应的学术规范约束之。古籍数字化学术规范是包括操作程序、技术标准、内容质量、管理制度等在内的一个体系。古籍数字化属于古籍整理范畴的学术属性,决定了其学术规范的建立必然要以“述而不作”为原则,这就要求古籍数字化产品必须从学术品质上做到尊重历史原貌、信守典籍原文、遵从作者原义。古籍数字化管理制度规范,主要是解决古籍数字化不同主体之间的协作和资源共享问题,笔者曾撰文提出建立古籍数字产品信息发布平台、古籍数字化项目招标制度、古籍底本使用补偿机制等建议[19],此不赘述。“述而不作”对构建古籍数字化学术规范的意义,主要体现在操作程序、技术标准和内容质量三个方面。

4.1 古籍数字化操作程序规范

(1)版本遴选规范。古籍在传写、翻刻过程中,通常都形成了复杂的版本系统,各版本与祖本的关系亲疏不同,质量参差不齐。古籍整理的第一步就是要选择与祖本尽可能接近的存本作为校勘的底本。对古籍数字化而言,如果没有现成的整理本,那么选择底本就要格外慎重,因为一旦选用了劣本,不仅使善本因无法入选数据库而被湮没,还会将劣本的错讹放大和扩散,导致贻误后学。然而目前的古籍数字化实践中,往往是哪个版本更容易获取就选用哪个版本,如唐张鷟《朝野佥载》有宝颜堂秘笈本,宋魏庆之《诗人玉屑》有古松堂本,清刘宝楠《论语正义》有清同治五年刊本,版本都要优于四库本,“鼎秀古籍库”却选用了四库本,原因就在于《四库全书》经数字化之后更容易获得。而对很多古籍而言,因内容经过四库馆臣的篡改和抽换,四库本并不是最好的版本。因此,在数字化之前非常有必要建立版本遴选程序,通过对古籍版本源流的考订和梳理,从众多存本中选择与祖本最接近的版本作为数字化的底本。

(2)信息登记规范。选定版本之后的古籍,在数字化之前还应登记古籍信息,登记的内容包括书名、卷数、责任者、版本、装订形式、册数、页数、幅面开本、馆藏地址、保存状况等。这样做的目的:一是为古籍数字化建立底本档案,方便日后查核底本;二是可以据此决定古籍数字化的优先顺序。现行古籍定级有善本之一、二、三级和普本的四级,其中善本、孤本和濒危版本是数字化的优先对象。此外,对有特殊情况的古籍应当予以备注,以便选取合适的数字化手段。如书叶有轻度破损、字迹漫漶的,在数字化之前还需进行必要的修复。

(3)底本保护规范。数字化扫描过程中应遵循古籍底本保护的规范。首先在程序上,古籍的交付应依照清单登记书名、编号、责任人、出入库时间等项,需由馆方负责人签名许可方能允许古籍出入书库。出入库前后应进行相应的检查,保证古籍完好无损。其次在方法上,古籍数字化过程中要求操作人员全程戴手套或使用指套,以避免汗渍污染古籍。古籍图像的采集应尽量采用冷光源、无接触、零边距的专用扫描仪,以减少对书叶的损伤。有缩微胶片的可优先尝试将缩微胶片转换成高清图像,不行的话再考虑扫描古籍原本。古籍的扫描应遵循一次加工完成的准则,对中缝夹字等难以扫描的情况,要慎重对待拆书这一选项。若万不得已一定要拆书,必须要求按原装订形式重装。

(4)学术质量审查规范。每种古籍在数字化完成后,都应对其学术质量进行审查。一是对内容的完整性进行审查,除核对正文卷数、页码外,应特别注意序跋、牌记、藏印、批注、刻工等副文本信息是否有遗漏。若原书缺页,需在数据库内予以标明。二是对其内容的准确性进行审查。应将数字文本、图像版本与纸质底本进行仔细核对,检查并纠正脱漏、错讹、衍文、颠倒、中缝不全等情况。古籍数字文本的错误率评估,可采取抽样检查的方法,每卷书随机连续抽取10,000字,参照《图书质量管理规定(2015修订版)》的规定,差错率应当不超过万分之一。图像应与页面同比例放大或缩小,字迹清晰可辨,页面内没有扭曲的现象。

4.2 古籍数字化技术标准规范

首先是字符集的规范问题。古籍用字数量远超当今通行汉字规模,现有的编码字符集包括GB2312、BIG5、Unicode、GBK等,都存在收字不全、字迹关系不清的问题。如Unicode 12.0版2019年3月发布,字符总数达137,929个,但仍有不少古籍用字没有纳入。古籍数字化过程中遇到字符集之外无法录入的生僻字、异体字、俗体字时,通行的做法是利用Unicode私用区码位新造汉字。这在一定程度上解决了单个古籍数字化项目缺字的问题,但由于缺乏统一规划,各个古籍数字化系统之间的码位和字形关系无法一一对应。如果要对古籍数字资源进行后期整合,会造成很多汉字无法显示和检索。为了降低字符集外造字的成本,还有一种做法是将集外汉字认同为集内汉字,但这样做的结果必然改变古籍原来的文字面貌,从而丢失许多有价值的历史信息。这显然有违“述而不作”的原则,是不可接受的。为建立古籍用字的字符集规范,《国家“十一五”时期文化发展规划纲要》提出实施“中华字库工程”,目标是建立收录和兼容全部汉字及少数民族文字的编码字符集。

其次是古籍数字化格式的规范问题。由于我国在古籍数字产品知识产权保护方面的滞后,各大古籍数字化主体出于保护自己权利的目的,都倾向于开发专属于自己产品的古籍数字图书阅览器,这样既可以扩大自己的市场份额,也能在古籍数字出版物市场上拥有更大的话语权,但也造成了数据格式各异、古籍数字资源不能互通共享的局面。数字古籍常见的格式有TXT、DOC、HTML、PDF, 此外还 有 EXE、 EBK、 EDB、WDL、PDG等多种格式,如天安亿友公司开发的《二十五史》和《资治通鉴》采用的是EXE格式,“书格”提供的古籍是PDF格式,超星公司开发的电子图书使用的是PDG格式,“国学大师网”则是PDF与DJVU两种格式并存。这种混乱的局面给古籍数字化带来的负面影响有两个方面:一是不同格式的古籍数字资源被分隔成一个个“信息孤岛”,彼此之间难以共享;二是强行对不同格式的古籍数据进行转换时,极容易发生差错,导致古籍信息失真。因此,在加强古籍数字产品知识产权保护的同时,还需要建立古籍数据存储格式的规范。

再次是古籍数字资源的组织和检索规范问题。古籍文本在完成数字化转录之后,也面临和纸质古籍同样的组织和检索问题。自2002 年始,中国科学院文献情报中心、中国科学技术信息研究所、国家图书馆、CALIS管理中心等多家单位联合研制了普通古籍、拓片、家谱、舆图、地方志的相关著录规则和元数据规范。至2012年,逐渐形成了CALIS所采用的CDLS元数据标准,CADAL项目的元数据标准、国家图书馆的元数据标准三大主流著录标准。但由于很多图书馆将古籍元数据标引工作外包给第三方,导致元数据质量难以控制,有的杂糅了三家不同的元数据格式。而在进行检索时,由于标引的不规范,导致对同一对象的繁简字体、同一事物的不同名称、相同名称的不同事物的漏检或误检。例如,笔者利用“鼎秀古籍库”检索“瀛寰志略”,得55 条记录,而检索“瀛環志畧”只得15 条记录;检索“論語註疏”得63条记录,检索“论语注疏”则有133条。太平天国领袖洪秀全,其名字在清代实录的谕旨中常记为“洪秀泉”,利用“中国基本古籍库”检索关键词“洪秀全”,得527条记录,而检索“洪秀泉”,只得99条记录。魏何晏《论语注疏》又名《论语正义》,利用“鼎秀古籍库”分别检索这两个书名,得到的结果也不相同。上海图书馆古籍联合目录及循证平台检索“论语校勘记”,清阮元《论语校勘记》之异名《论语注疏校勘记》备注于括号中,但“论语注疏”与其异名“论语正义”的检索结果各不相关。古籍中的名物存在大量同名异物、同物异名的情况,漏检和误检都会给读者带去不全或错误的原始文本信息,这就要求在标引和检索时能在同一名物之间建立语义关联。

4.3 古籍数字化内容质量规范

古籍数字化最终是以文本或图像呈现,若不能做到尊重古籍的原貌,就违背了再生性保护的本意。就笔者对古籍数字化学术质量的调查所见,古籍数字化内容规范应从以下几方面着手:

第一,加强校勘数字文本。采用OCR(光学字符识别)技术,文字识别错误不可避免。最常见的是讹文,如“鼎秀古籍库”收录的《出三藏记集》,卷一“出三藏记集序”中“铨名录”,“铨”误作“铃”;“缘记撰则原始之本克昭”,“昭”误作“月召”。再就是出现脱文,如“中国基本古籍库”收录的《周易注疏》,卷三观卦底本原文为:“陈荐笾豆之事,其礼卑也。今所观宗庙之祭,但观其盥礼,不观在后笾豆之事故云观盥而不荐也。”而数字版本的文字“陈荐笾豆之事”与“故云观盥而不荐也”之间脱文24字。“鼎秀古籍库”收录的《诗人玉屑》以四库本为底本,原目录页中“诗法”右下方有小字“第二”,数字版脱去。其他衍文、倒文、错简等情况也都存在,兹不一一举例。如果能依照底本对数字文本进行逐页逐行的比对,即可发现此类错误。可见,在提高OCR识别率的同时,还应加强古籍数字化之后的校勘工作。

第二,保留底本的各种字体。对古籍原文的繁体字,有学者主张一律转换成简体字,其本意是为读者着想,但这样做有时会带来歧义,甚至是混乱。比如,沈括《梦溪笔谈》卷十八记有发明活字印刷术的“毕昇”,卷二十记有老锻工(即铁匠)“毕升”,这是名字音同而形异的两个人,但因为数字化之后“毕昇”也简化成了“毕升”,结果使读者误以为是同一人,甚至还有人据此提出毕昇继发明泥活字之后又发明了铜活字,简直荒谬之极。反之,如果古籍原文中就有简化字,也不可转换成繁体字。比如,《礼记·月令》原文为:“修宫室,坏墙垣,补城郭。”此处“坏”读为péi,意为“用泥土封塞空隙”,如果转换为“壞”,就是破坏墙垣,文意正好相反。古籍中避讳字、俗体字、假借字及不规范的简体字都是特定历史时期的产物,有其特定的历史涵义,对鉴别和研究古籍版本源流极有价值,如果一律简单粗暴地转换成现今通行的简体字,势必会造成历史信息的遗失。规范的做法是,在正文中悉数保留这些字体,然后用加注的方式说明其本字。

第三,保持古籍原有的体式结构。古籍数字化中肆意删除原书的序跋、目录或校记,或将原书的正文与注文、批点文字混在一起,不加形式上的区分,都有违“述而不作”基本原则。例如,“鼎秀古籍库”收录的梁释僧祐《出三藏记集》,全书十五卷的所有内容都编辑在卷一目录之下。《海国图志》的数字版本删去了魏源原序。清人叶奕苞的《金石录续跋》,左侧目录栏无书籍目录,而其他书籍目录完备;北京书同文公司开发的“明清两朝边塞海疆地理文献汇编全文检索系统”收录的《海国图志》,删去了总目录;“中国基本古籍库”收录的《周易注疏》,采用的是清嘉庆二十年江西南昌府学刻本《重刊宋本周易注疏附校勘记》,但数字版删去了原书卷末的校勘记。这些做法都应予以纠正。

第四,留存古籍的副文本信息。古籍正文之外的序言、题跋、注文、牌记、刻工等,以及传读过程中前人留下的批注、评点、藏印等,称为副文本信息。这些信息虽不属正文的内容,但对研究古籍的相关内涵及其传播史具有非常重要的价值,因而也要原样保存。然而,有的古籍数字化项目对此没有足够的重视,如“鼎秀古籍库”收录的《春秋左传正义》,序文天头处的眉批就没有转录至数字版的文本中。《海国图志》原书底本卷三首页有一枚藏书印,而在数字版和图像版中均无此印。这可能是因为藏书印的位置在边栏之外,而数据库采集图像的范围仅限于边栏内,造成了边栏外信息的丢失。

第五,图文对照应合乎规范。早期开发的古籍数字化系统,大多只有文字版而没有图像版,如天津永川公司开发的“二十五史全文阅读检索系统”以及国学时代公司开发的“国学宝典”即是如此;有的古籍数据库只提供底本图像的样页,如北京爱如生公司开发的“中国古籍基本库”只附卷一首页的图像,其他页码则没有对应的图像;还有的古籍原版是图文对照的,但数字化之后却把插图删除了,如明人王圻、王思义父子编纂的《三才图会》,原书“宫室”“器用”“身体”“衣服”“人事”“珍宝”“鸟兽”“草木”等各卷配有大量插图,“鼎秀古籍库”将之数字化后,所有的插图都没保留,只是在原插图的位置留有一个相应的空位。

5 结语

孔子的“述而不作”最初是作为政治理想提出的,本义是继承往圣、不改“王道之业”。为推行该政治主张,孔子做了大量整理“先王旧典”的工作,并将“述而不作”的理念渗透其中,使之与中国传统学术紧密结合起来,反映到文献整理层面,就是尊重历史原貌、信守典籍原文、遵从作者原义。我国古籍数字化虽经历了“存储介质转换说”“信息资源揭示说”“数据深度加工说”等不同阶段的演变,但其古籍整理的本质属性并没有发生变化。古籍数字化无论如何发展,都是为学术研究服务的,而不是取代学术研究。“述而不作”的文献整理传统对古籍数字化的现实意义就在于,古籍数字化必须以不破坏古籍原貌、原文、原义为基本准则,这就要求在古籍数字化的操作程序、技术标准、内容质量等各方面建立起相应的学术规范。惟有如此,数字化之后的古籍才可能在被征引时取得与传统古籍一样的学术地位,赢得专业研究者的信任。

猜你喜欢
古籍数字化
数字化赋能农业提质增效
中医古籍“疒”部俗字考辨举隅
“华龙一号”数字化转型的实践与探索
家纺业亟待数字化赋能
西藏大批珍贵藏文古籍实现“云阅读”
古籍修复师的巧手与匠心
论经济学数字化的必要性
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
我是古籍修复师