钱锺书与中国社科院古代典籍数字化工程③

2019-02-11 08:58郑永晓
山东社会科学 2019年6期
关键词:钱锺书计算机文献

郑永晓

(中国社会科学院 文学研究所,北京 100732)

近年来,大数据技术的发展风起云涌、日新月异,已经逐步渗透到日常生活和各行各业的方方面面。在古籍整理和文史研究领域,将大数据技术引入传统学科的呼声也时有所闻。基于数字文本和数据分析的学术方法已经成为古代文学研究的重要方法之一。新的理念和新的方法必将对古代文学研究这门历史悠久的学科带来革命性的创新。同时我们也需要清醒地意识到,由于古代文史研究这门学科本身的特点、汉字的特殊性、古籍数字化的进程、汉字检索查询技术的发展等因素的影响和制约,将大数据技术应用于传统学术的过程中,还将面临多方面的挑战,还有许多问题需要发展和完善,因此,回顾这一领域过去的历史,总结其发展经验和不足之处,就显得十分必要。这其中,作为20世纪重要学者之一的钱锺书先生在中国古籍数字化问题上所表现出的远见卓识,及在他指导下,以栾贵明教授为首的研究团队所作的艰苦卓绝的努力和取得的丰硕成果,尤为值得总结和探索。鉴于学界对此研究尚有不足,故笔者不揣浅陋,对此略作梳理如下。

一、钱锺书关注古籍数字化的缘起及其与社科院计算机室之关系

众所周知,钱锺书先生治学以旁征博引、纵贯古今中西著称。吴宓诗:“才情学识谁兼具,新旧中西子竟通。”[注]吴宓:《赋赠钱锺书即题其中书君诗初刊》,《清华校友通讯》1935年第2卷第3期。可谓知人之言。但是,以钱锺书先生超强的记忆力和渊博的学识,面对浩如烟海的中外文献尤其是我国古籍文献,却仍有力不从心之感。《管锥编》1981年再版《序》云:“《管锥编》问世以还,数承读者贻书启益。余重阅一过,亦见树义之蕴蓄未宣、举证之援据不中者,往往而有。”[注]钱锺书:《管锥编》(补订重排本)第一册,三联书店2001年版,第1页。可见文献援据引证之难即使学识渊博如钱先生也偶会遗阙。《谈艺录》《管锥编》出版后,钱锺书先生曾不断修订。即使对于《宋诗选注》这部篇幅相对较小的作品,他也多次增补。大概在1959年他曾将此书寄赠日本学者小川环树,并亲笔改动90余处、3000多字。[注]参见王水照:《〈正气歌〉所本与〈宋诗选注〉“钱氏手校增注本”》,《文学遗产》2006 年第4期。这其中除了热心读者提供了若干文献正误方面的线索等因素外,也缘于他本人在日积月累的读书过程中不断发现新文献、新问题。

很显然,如果能有某种工具将研究所需要的相关文献一网打尽,协助学者在查询文献时起到事半功倍的效果,显然是钱锺书先生所乐意见到的。而发明于20世纪中叶的电子计算机技术,其功能效用恰恰符合他这一预期。从钱锺书先生的治学方式来看,其善于博闻强记和排比文献之异同等的确与计算机处理文献时的工作方式有某种内在的类似之处。钱先生谈及自己的著述时往往自称是罗列文献、拼补连缀而成,如《七缀集》“这本书是拼拆缀补而成,内容有新旧七篇文章。我想起古代‘五缀衣’、‘七缀钵’等名目,题为《七缀集》”[注]钱锺书:《七缀集》,三联书店2002年版,第1页。。之所以有这样的说法很大程度上是因为他的谦逊,但也确实透露出他读书、治学的基本路数,即在大量读书的基础上,发现相关文献之间的内在联系进而抽绎出问题,并以大量例证予以解析。这显然是一种抽丝剥茧、披沙拣金的过程。发现大量的材料是前提,深厚的学养、敏锐的眼光和判断力是关键。而在大量书籍中找寻材料与计算机的模式识别(Pattern Recognition)和数据挖掘(Data Mining)显然具有某种程度上的相似性,只是计算机效率更高、速度更快。

钱锺书先生确实不懂计算机具体操作,但不等于他对计算机的理念没有精深的理解。恰恰相反,他常年阅读外文文献,对社会变革进程中出现的各种新事物具有高度敏感性,其小说《围城》中有关电视、电话、电报、冰箱等词汇的使用足可证明。他对计算机与人的关系、计算机必将对社会进步起到巨大推动作用等有十分清醒且前瞻性的把握。于是在他的鼓励和指导下,以其学术助手栾贵明为首的计算机室得以在文学研究所组建,并在后续数十年不懈的努力工作中,取得了一系列重要的成果。

长期就职于中国社科院外国文学研究所的著名翻译家高莽(1926—2017)曾经回忆说:“记得改革开放初期,钱、杨二老谈及钱瑗访问英国回来后,向父母介绍了国外使用电脑的情况,说英国用电脑储存莎士比亚资料与查阅资料的各种功能。钱先生立刻意识到这一新鲜事物的意义,便建议文学研究所成立计算机组,即后来的社科院直属下的计算机室,希望其走向世界。”[注]高莽:《怀念钱锺书老先生》,载丁伟志主编:《钱锺书先生百年诞辰纪念文集》,三联书店2010年版,第114-127页。在文学研究所古代室任职的胡小伟(1945—2014)也曾说道:“20世纪80年代初叶,钱锺书的女儿钱瑗教授有机会到英国进修,回来后偶尔谈起英国学者用计算机研究莎士比亚戏剧,取得显著成果,钱先生立刻受到启发,从1984年便开始倡导把计算机技术引入中国古典文献的搜集、疏证和整理中来,那时还在1981年9月中央发布《关于整理我国古籍的指示》以后不久。”[注]胡小伟:《钱锺书与电脑时代》,载丁伟志主编:《钱锺书先生百年诞辰纪念文集》,三联书店2010年版,第237-244页。

钱瑗为钱锺书、杨绛唯一爱女,1978年至1980年间由所在单位北京师范大学公派至英国兰开斯托大学(Lancaster University)进修英语及语言学。钱瑗教授提供的这一信息弥足珍贵,而钱锺书先生若把这一设想付诸实施就需要一个合适的领军人物,于是这一重任就自然落到了长期兼任钱先生学术助手的栾贵明身上。

栾贵明,1940年生,1964年毕业于北京大学中文系古典文献专业,被分配至中国科学院哲学社会科学部文学研究所(即今之中国社会科学院文学研究所)所长办公室工作,做时任所长何其芳的秘书。栾贵明在接受记者采访时曾透露,他在读大学时读过《谈艺录》《围城》《写在人生边上》等著作,觉得钱先生是非常了不起的人。到文学所后发现钱先生对图书的需求量非常大,于是就自觉承担起帮助钱先生借阅图书的任务。“逐渐交往越来越深,我在文学所工作36年,追随钱先生34年,直到钱先生最后的时光。”[注]李怀宇:《栾贵明谈钱锺书:他的一生充满侠肝义胆》,《时代周报》2010年12月16日第C08版。

栾贵明在结束干校生活返京后应该是转入文学研究所古代组(即今之古代文学研究室)工作。钱先生此前曾向栾贵明建议研究《永乐大典》,于是栾贵明首先完成了《四库辑本别集拾遗》。其后钱先生就指导他将主要精力转移到利用计算机处理古籍文献上来。中国社会科学院时任副秘书长杨润时后来在接受记者采访时回忆说:“栾贵明在这方面原来是一张白纸,他过去从来没有接触过这个领域,计算机这种技术传入中国时间又很短。当时社会科学研究领域已经开始有‘三论热’,就是信息论、控制论和系统论。但是,钱先生却很明确地提出了运用计算机技术来保存、整理和运用中国古典文献的问题,应该说这是非常有远见的。”[注]李怀宇:《钱锺书力撑栾贵明》,《时代周报》2010年12月16日第C08版。钱锺书先生之所以选择栾贵明来承担这一艰巨的任务,除了二人长期形成的密切关系外,也因为栾贵明本身所具有的品性,例如受过古典文献专业系统训练、喜钻研、个人动手能力强等。栾贵明本人在2017年接受记者采访时的说法是:“1984年钱先生提到数据库想法的时候,我连电脑是什么都不知道。(记者问:‘他的这个想法是从哪里来的?’)是从钱瑗那儿。钱瑗到英国做访问学者,写信时就向钱先生介绍了英国的莎士比亚系统,回国后说得更详细,说英国那边要查莎士比亚,用电脑检索,查什么有什么。这是钱瑗带回来的第一号新闻,一下就把钱先生迷住了。”[注]王勉:《他想做的,是开拓万古之心胸——社科院文学所研究员栾贵明回忆恩师钱锺书》,《北京青年报》2017年3月24日第B01版。迷住钱先生的电脑同样迷住了栾贵明。笔者1984年8月被分配至文学研究所工作,在古代室忝陪末座,偶尔与栾先生闲谈,中心话题便是他正四处奔波研究电脑,其兴致勃勃之状,至今犹历历在目。

1985年在钱锺书先生支持下,文学研究所设立计算机室。在当时经费匮乏、人才奇缺的环境中,计算机室开始了堪称艰苦卓绝的对未知领域的探索进程。对这段时光杨润时有极简洁形象的描述:“栾贵明拿出工资积蓄,变卖一些家当,钱锺书先生又支援一些稿费,终于买来一台苹果机。他就一头扎了进去。”[注]杨润时:《一份沉重的嘱托——钱锺书、栾贵明与中国古典数字工程》,《时代周报》2010年12月16日第C08版。“现在看来,钱先生不但在一个学科的设立上提出了富有远见的创意,而且在具体进展过程中不断地给予了财力上的支持。可以说,如果没有钱先生,就没有中国社会科学院古典文献计算机处理技术这个学科,没有后来那么大的成就。这是钱先生对中国文化建设一个具有创意性的贡献,同时也对栾贵明后半生具有决定性影响。”[注]李怀宇:《钱锺书力撑栾贵明》,《时代周报》2010年12月16日第C08版。关于钱锺书先生以薪资和稿费资助文学所计算机室工作,胡小伟的记述是:“在有限几次去社科院的机会中,钱先生每次都亲临研究小组,并多次用自己的稿费津贴资助研究小组的起步创业。”[注]胡小伟:《钱锺书与电脑时代》,载丁伟志主编:《钱锺书先生百年诞辰纪念文集》,三联书店2010年出版,第237-244页。栾贵明助手田奕也讲过这件事。[注]参见田奕:《电脑里的唐诗》,《文学遗产》1992年第5期。因此,钱锺书先生在20世纪80年代以个人薪资和稿费资助了这一新兴的事业,是毫无疑义的。

资助生活困难的年轻学者是钱锺书、杨绛先生的传统。著名外国文学研究专家柳鸣九、朱虹夫妇20世纪70年代因额外开支经济上一时告急,即获得过钱、杨二老的资助。柳鸣九《君子之泽,润物无声——心目中的钱锺书、杨绛》[注]柳鸣九:《君子之泽,润物无声——心目中的钱锺书、杨绛》,《传记文学》2007年第4期。《钱锺书先生的精神遗产》[注]柳鸣九:《钱锺书先生的精神遗产》,载丁伟志主编:《钱锺书先生百年诞辰纪念文集》,三联书店2010年出版,第21-25页。二文有详细的记述。文艺理论家何西来也曾谈到在其父逝世、家庭困难之际,钱、杨二老有意帮他纾解经济困窘之举。[注]何西来:《追念钱锺书先生》,载丁伟志主编:《钱锺书先生百年诞辰纪念文集》,三联书店2010年出版,第212-216页。如此说来,经常帮助年轻学者纾困的钱锺书、杨绛先生对使用计算机处理古代文献这样一个充满希望的事业倾囊相助实在顺理成章。

事实证明,钱锺书先生选定栾贵明从事此项事业,可谓颇有眼光之举,栾贵明果然不负厚望。前引栾贵明接受记者访问时还说:“钱先生的嘱咐,我都一五一十落实,钱先生教我做《中国古典文献数据库》的事,确实是一件累活,但我得认真办,我必须遵命。”这一承诺已经履行了30余年,栾贵明也已年近八旬。

二、钱锺书关于古代典籍数字化的指导思想

钱锺书先生不仅在经济上资助当时的计算机室,还对这项工作以口头和书面形式提出了一系列具体的指导思想。根据张世林、田奕的《漫谈中国古典数字工程》(问答),钱锺书先生为将计算机技术引入文史研究领域,以书面或口头方式提出过很多极富创见的目标和原则,归纳起来约有10条:1.逐步实施,长期奋斗。2.采用仓颉输入法[注]仓颉:原始象形文字的创造者。按“仓颉”西汉以前文献均作“苍颉”。故本文除“仓颉输入法”“仓颉码”遵从习俗外,均写作“苍颉”。和华康正体字库。3.以作品为基本单位,用作者统绾作品。4.对有民族偏执的政治文化色彩的《四库全书》的使用,必须慎重,更不宜直接采取经史子集分类方法及旧编辑方式。5.重视版本版权,选用优良底本,但不能侵权,必要时自己重新编辑。6.实现准确全面针对作者、作品之标题和字句检索。慎用汉语现代标点。7.正文和他人注释不得混淆。8.电脑只能作为工具推进文史研究科学化。9.你是裁缝,只能是量体裁衣,不能做外科医生。10.划清研究工作和商业的界限等。[注]参见张世林、田奕:《漫谈中国古典数字工程》(问答),《国学新视野》2012年春季号(总第五期)。

这十条原则,或者彰显了钱锺书先生一贯的治学理念,或者显示出他对利用计算机处理古籍文献的远见卓识。有些原则在今天看来仍具有重要价值和启示意义。其中第1条“逐步实施,长期奋斗”,其含义毋庸赘言,也是今天和以后在古籍数字化、数字人文研究方面仍然需要长期坚持的原则,其他几条笔者根据个人理解稍作疏解。

计算机硬件和操作系统都是西方人的发明,利用这一先进科技处理中国古代典籍首先面临的一个最重要的问题就是汉字编码和汉字字库的问题。这个问题目前在普通报刊排版和日常写作中早已解决,也不再为人所关注,但若将计算机应用于古籍整理,由于中国汉字历史悠久、字体众多,一字多形的现象在古籍中比比皆是,汉字的实际数量很难有准确的说法,计算机如何处理汉字的问题实际上迄今仍未完全解决,那么在30多年前,文学所计算机室所面临的巨大困难可想而知。当然,利用计算机处理中文,面临汉字编码和字库问题的困扰并非栾贵明团队一家,而是一个具有普遍性的问题。中国国家标准总局1980年发布、1981年5月1日开始实施的国家标准《信息交换用汉字编码字符集》(GB2312—1980),即旨在着手解决这一问题。该字符集收录6763个汉字,其中一级汉字3755个、二级汉字3008个。但是这6763个汉字用于日常文字的处理尚嫌不足,遑论用于整理古籍?

被誉为“中文电脑之父”的朱邦复于1976年在台湾发明中文形意检字法,后命名为“仓颉输入法”,用以解决电脑终端汉字的输入输出问题,1980年代初期,朱邦复在宏碁电脑公司创始人施振荣技术支持下于个人电脑上设计中文系统,能够输入数万汉字,1982年朱邦复登报声明放弃“仓颉输入法”专利权。栾贵明团队在工作伊始,即在钱锺书先生参酌下,以《中华大字典》为依据,在“仓颉码”的基础上,采用字根部首组合技术和固化ROM技术,建立了一套达45000汉字的高容量字库。[注]参见《社科院文学所“古典文献计算机处理技术”取得初步成果》,《文学遗产》1988年第2期。田奕在接受采访时也说:“为在电脑上准确地反映古籍原貌,必须有一个稳定可靠的汉字平台。从1985年伊始,经钱先生认定,即选择了繁体汉字库。……其中的每个造字,均以文献为基础,不笼统地根据字书造字,其字形采取文献通用的字体,既不强行归并统一,更不随便借用。”[注]张世林、田奕:《漫谈中国古典数字工程》(问答),《国学新视野》2012年春季号(总第五期)。将计算机技术移植于古籍整理,字库问题是重中之重,也是绕不开的难点所在。显然,当年的计算机室抓住了问题的关键所在,在1988年左右基本解决了整理古籍所需要的字库问题。当年笔者也数次听栾贵明先生提起建设“全汉字字库”的设想,尽管汉字求“全”几乎是一项永远不可能完成的任务,但是这一努力方向显然是正确的,也逐步取得了可观的成果。

钱锺书先生选定以“仓颉码”作为建立字库的基础,也可能与其苍颉情结有关。20世纪90年代初,计算机室拟召开一次学术研讨会,代表们可以携带自己的作品参会。钱先生提议设立“苍颉奖”。他帮助高莽修改其作为会议奖品的苍颉画像题词,其修改后的文字为:“苍颉造字,历史传说由来久矣。虽属神话,而其实质盖因蕴含开拓与创造之旨。所谓苍颉其人者,观日月山川之形状,察鸟兽虫豸之痕迹,触类启悟,获得表达思维之记号或方式。于是汉字萌生,混沌转为清晰。人之知力征服自然,能使‘天雨粟,鬼夜哭’,人类文明于是乎始。伟哉苍颉!”[注]高莽《怀念钱锺书老先生》,载丁伟志主编:《钱锺书先生百年诞辰纪念文集》,三联书店2010年版,第114-127页。显然,他在对祖先造字予以高度评价的同时,也对利用计算机处理古代文献这一像苍颉造字一样推动文明进步的事业寄予了极大的期望。

第3条和第4条,涉及如何对待《四库全书》、传统目录学分类法以及数据库中如何排列数据等问题。成于清乾隆时的《四库全书》是在大兴文字狱的背景下纂修的,销毁、抽毁之书甚多,即使收录于《四库全书》者,也多有肆意删削、篡改之处。相关文献甚多,兹举乾隆四十一年(公元1776年)十一月十七日所谓上谕为例便可窥见一斑。乾隆此谕云:“第其中有明季诸人书集词意抵触本朝者,自当在销毁之例。节经各督抚呈进,并饬馆臣详晰检阅,朕复于进到时亲加批览,觉有不可不为区别甄核者,如钱谦益在明已居大位,又复身事本朝;而金堡、屈大均则又循迹缁流,均以不能死节,靦颜苟活,乃托名胜国,妄肆狂狺。其人实不足齿,其书岂可复存!自应逐细查明,概行毁弃,以励臣节,而正人心。”[注][清]永瑢等撰:《四库全书总目》卷首,中华书局1983年版,第3页。所谓“以励臣节,而正人心”云云表面上冠冕堂皇,其本质在于维护其统治和帝王尊严。钱锺书先生将其定性为“有民族偏执的政治文化色彩”,实是一针见血。因此对于《四库全书》的使用,严谨的学者向来多持慎重态度。钱先生特别教导计算机室的年轻工作人员在科学研究和古籍文献数字化过程中,慎用《四库全书》,实为明智之举。

钱先生主张慎用《四库全书》,除了因其“偏执的政治文化色彩之外”,也因对经、史、子、集这种图书分类法不甚满意,故言“更不宜直接采取经史子集分类方法及旧编辑方式”。这与钱先生的治学理念有关。张隆溪指出:“(《谈艺录》《管锥编》)在形式上与现代学术著作的写法很不相同。这些评论文字完全随思想的路径自然发展,行于所当行,止于不可不止,举凡文学、历史、哲学、心理学、语言学及其他领域,无所不包,无所分隔,完全不顾及学科分类。”[注]张隆溪:《中西交汇与钱锺书的治学方法》,《书城》2010年第3期。换言之,如果不涉及其涉于西学部分,钱先生的方法就是打通四部。

比如《管锥编》围绕十部古籍《周易正义》《毛诗正义》《左传正义》《史记会注考证》《老子王弼注》《列子张湛注》《焦氏易林》《楚辞洪兴祖补注》《太平广记》《全上古三代秦汉六朝文》进行阐释。在传统目录学分类中,《周易》《毛诗正义》《左传》属于经部,但钱先生无视这种分类,他经常将经部典籍与子部、集部的问题放在一起论述。如对于《左传·昭公元年》“楚公子围设服离卫”一节,他说:“叔孙穆子、子皮、子家辈十人指点议论,伯州犁穷于酬对,后世白话小说及院本宾白写七嘴八舌情景,庶有足嗣响者。”又言,“盖吾国古人于心性之学说,仅标‘六情’‘七情’之目,千载未尝有所增损(参观黄式三《儆居集·经说》卷三《七情、六情说》),而其于心性之体会,致曲钩幽,谈言微中,经、史、子、集、小说、戏曲中历历可征,断非《礼记》之《礼运》《中庸》或《白虎通》之《性情》所能包举。”[注]钱锺书:《管锥编》第一册,中华书局1979年版,第226-227页。其打通四部、打通经学与文学之藩篱的用意甚明。

关于史部,他认为史家著述与小说、院本在人物塑造、虚构情境等方面具有相通之处:

明、清评点章回小说者,动以盲左、腐迁笔法相许,学士哂之。哂之诚是也,因其欲增稗史声价而攀援正史也。然其颇悟正史稗史之意匠经营,同贯共规,泯町畦而通骑驿,则亦何可厚非哉。史家追叙真人实事,每须遥体人情,悬想事势,设身局中,潜心腔内,忖之度之,以揣以摩,庶几入情合理。盖与小说、院本之臆造人物,虚构境地,不尽同而可相通。[注]钱锺书:《管锥编》第一册,中华书局1979年版,第166页。

“稗史”本为史学概念,至鲁迅、钱基博等用以指称小说。在上文语境中,“稗史”与正史对举,可以说既指史学意义上的遗闻琐事,也可以指文学意义上的小说作品,可见钱先生也把史部文献作为文学来处理。与陈寅恪先生的以诗证史、立足于史学本位不同;钱先生的以史证小说,是立足于文学本位,是他打破四部分类界限的又一例证。

传统视为子部的《易林》是西汉后期出现的一部以《易》之六十四卦为纲而演绎的占卜书,有占卜辞4097首,除偶见三言外,皆为统一的四言格式。在钱先生看来,这些占卜用辞“主旨虽示吉凶,而亦借以刻意为文,流露所谓‘造艺意愿’,已越‘经部韵言’之境而‘涉于诗’域,诗家只有愕叹不虞君之涉吾地也,岂能痛诘何故而坚拒之哉!”“盖《易林》几与《三百篇》并为四言诗矩矱焉。”[注]钱锺书:《管锥编》第二册,中华书局1979年版,第536-539页。对于《易林》的文学价值,给予极高的评价。

在上述几个例证中,或者以为经部文献影响于小说院本,或者视史部文献类同于小说,或者将子部文献等同于诗文,无一不是打破传统目录学界限,从不同类别文献中汲取为我所用的资料,以融通的眼光抉破尘藩、熔铸群言,而出以新意。因此,他对拘泥于四部分类法而不能洞察文献本质属性的做法给予了不同程度的批评。

基于这样的学术理念,他在数据库建设中提倡以作品为基本单位,用作者统绾作品就不难理解了。换言之,他是以人为本位,以作品从属于作者,而不论其属于何种部类的文献。这对于计算机辅助科研显然大有裨益。因为我们无论研究作家的哪类作品,都必须尽可能穷尽该作家的所有文献,如此才能全面系统地了解该作家的方方面面,而避免管中窥豹、以偏概全。在这种思想指导下,栾贵明团队重新编订完成了《老子集》《列子集》《庄子集》《孙子集》《鬼谷子集》《皇甫谧集》等。这些作品集除了出自作者本人者外,也包括后人引用的零篇断简,虽然这部分作品的著作权往往存有疑问,但是由机器把它们汇辑在一起,可供学者进一步研究辨析,无疑也是很有意义的。当然在数据库中,所谓以作者统绾作品实际上是一种逻辑结构或虚拟排列,而与它们在计算机系统中的物理位置无关。

其他几条内容中,有些看似属于很具体的枝节问题,实际上对文史研究极为重要。比如版本问题,不同版本文献所提供的信息可能差异很大。又比如慎用汉语现代标点,很多标点本由于整理者本身的学养不足导致的错误甚多,反而可能引发读者错误理解文献。再如第6条,实现准确全面针对作者、作品之标题和字句检索。以数据库的强大功能而言,实现这样简单的功能似乎轻而易举,但实际上由于汉字的复杂性,这个问题至今尚未能很好地解决。第7和第9两条是古籍整理中特别需要注意的问题。古籍版式繁多,有些注释性作品又包括眉批、夹注、侧批、圈点等内容,古人排版刻书将注释混淆于正文者并不鲜见。那么在利用数字化技术整理古籍的今天,切实解决这一问题的要求并不过分。至于裁缝和外科医生的比喻,显示出钱先生为人幽默风趣的一面,所谓量体裁衣,是说可以对文献进行剪裁缝补的工作,类似于学者过去根据研究需要抄录卡片、汇集文献;但不可以像外科医生那样,将自己认为发生病变的部分切除,亦即必须保证文献的完整性。

尤为值得注意的是他对科研与商业追求之间的区分与隔离。钱先生显然是预见到古籍文献的数字化及相关数据库的建设是一个需要人才和经费的高投入,也有可能会高产出的项目。但是如果对科学研究和经济效益之间的度把握不好,就极有可能会偏离科学研究的正确轨道,而滑向追求金钱利益的错误方向。为此,钱锺书先生极为严肃地谆谆告诫这个年轻人占多数的群体,应提高觉悟,树立崇高理想,保持节操,以献身科学事业作为自身的追求。1992年,计算机室曾办有一份内部刊物《人文电脑》,由杨绛先生题写刊名,钱锺书先生以特约评论员名义写了一篇“社论”——《纠正“市侩化”的短视和浅见》:

崇高的理想、凝重的节操和博大精深的科学、超凡脱俗的艺术,均具有非商业化的特质。强求人类的文化精粹,去符合某种市场价值价格规则,那只会使科学和文艺都“市侩化”,丧失去真正进步的可能和希望。历史上和现代的这类事例难道还少吗?我们必须提高觉悟,纠正“市侩化”的短视和浅见。[注]参见陈肩:《行藏托付赖心传》,《时代周报》2010年12月16日第C08版。

作为一名学者,钱先生对科学和艺术的挚爱,对“市侩化”的反感,对商业化有可能导致的丧失进步和希望的警觉,均跃然纸上。90年代后期,商品经济的大潮席卷中国。国内古籍数字化产品因为版权、利益等因素导致纷争、诉讼的现象时有耳闻,极大地干扰了相关领域正常科研工作的开展。可见,钱先生在商品经济之潮尚未兴起之时就提早为这一团队打下预防针,显示出他对世事的发展有敏锐的洞察力。

前述钱先生重视版本版权、选用优良底本、避免侵权、必要时要自己重新编辑等思想也与保持科研工作的纯洁性、避免陷入商业纠纷的泥潭有关。在后续工作中,栾贵明团队谨遵这一教诲,一方面在建设数据库的过程中,选用无版权争议的优良版本为底本,比如“《全唐诗》速检系统”采用了清康熙间扬州书局本,《二十四史》选用百衲本。另一方面其产出的成果,全部以公开出版物的形式呈现。在保护自身版权的同时,也有效避免了陷入版权纷争的被动局面。根据国家版权局官网提供的信息,我国《著作权法》于1990年9月7日由第七届全国人民代表大会常务委员会第十五次会议通过,其后又经数次修订。钱锺书先生注重保护版权、避免侵权等思想在当年显然也具有超前意识,对于这个团队健康稳定的发展具有重要意义。

钱锺书先生对这项事业倾注了大量心血,除陆续提出一些建设原则外,还在很多具体事情方面给予了多方面的支持。他从不应允担任任何单位、协会的顾问,但唯独对计算机室例外,他不仅慨然应允做了计算机室的顾问,而且每次到院部开会,总要抽出时间到位于社科院科研大楼1层西段的计算机室去“看看孩子们”,了解一下具体工作。他提出把《全唐诗》全部录入电脑,利用这一先进工具解决如何查询和有效利用唐诗的问题。“《全唐诗》速检系统”建成后,院科研局于1988年底组织了两次院内外专家进行评估。来自社科院文学所、语言所、历史所、文献情报中心等单位的学者观看了现场演示后,提出了很多具体问题。其中一位红学家请求当场检索,看一看《全唐诗》中有没有出现过“红楼梦”一词,出现过几次。两分钟后,计算机给出答案:在包括3276位作者、总计53035首作品、总字数达到3432869字的《全唐诗》中,“红楼梦”一词共出现过两次,一次是472卷蔡京的《咏子规》,另一次是《补遗》卷11属名冯衮的《子规》,这两位作者都是唐末人,诗的字句相同,都有“凝成紫塞风前泪,惊破红楼梦里心”。从而证明了曹雪芹的确从浩瀚的传统文化宝库中汲取了丰富营养,《红楼梦》并非无源之水、无本之木。[注]参见杨润时:《一份沉重的嘱托——钱锺书、栾贵明与中国古典数字工程》,《时代周报》2010年12月16日第C08版。

1989年5月,时任中国社科院院长胡绳先生在率团访问苏联之前的一次会议上,初步议定把当时属于文学研究所的计算机室改建为院计算机室,同时把古典文献计算机处理确立为院重点科研项目,从经费、人事等方面采取一系列措施给予支持和保障。1990年,计算机室划归社科院直接领导。

自1985年计算机室成立,短短10余年间,便取得了一系列令人瞩目的成果。如《论语数据库》(35万字,人民日报出版社1987年版)、《全唐诗索引》(30种,2600万字,中华书局、现代出版社等,1992年起陆续出版)、《永乐大典索引》(300万字,作家出版社1997年版)、《全唐文新编》(1600万字,吉林文史出版社2001年版)、《十三经索引》(900万字,中国社会科学出版社2004年版)、《永乐大典本水经注》(40万字,万卷出版公司2004年版)、《乾隆大藏经》(7200万字,中国书店2009年版)等。据前引张世林、田奕的《漫谈中国古典数字工程》,截至2012年之前,该团队共出版古典文献整理相关书籍176册,计1.3亿字。这些公开出版的成果都是建立在“古典文学的计算机处理系统”基础之上的。其中《论语数据库》是国内第一部使用微型计算机编制的古文献索引的公开出版物,为有关《论语》的深入研究提供了大量准确的量化依据。其后,该团队又相继完成了总人数36万、辅名15万的人名库,历法天数总计为519万天的历史日历库,以地名及古代地图为核心、制作数据已超800万条的地名库和以作品为核心、收录重要珍稀图形文件100余万幅、字数超过8亿字的事件库。这些数据库与通行的以作品总集为基础的数据库颇为不同,是人工参与程度很高的知识库,在数字人文基础建设和研究方面处于领先地位。

以“《全唐诗》速检系统”为中心的这一古籍文献处理系统荣获1990年“国家科技进步奖”三等奖、中国社会科学院科研成果一等奖。人文社科领域的成果获得国家科技进步奖似乎极为鲜见,其在当时国内相关领域的领先水平不难窥见一斑。据前引张世林、田奕的《问答》显示,在这一系统的评审过程中,钱锺书先生参与上报国务院、国家科委评审材料的修订和审阅,多次与院领导和院科研局负责人谈到该项目是他本人建议立项及立项理由。此后为培养这一新兴学科的复合型人才,中国社科院研究生院依项目所需设置相关专业,招收硕士研究生等项措施,亦经钱先生同意。

三、钱锺书关于计算机的工具属性定位及对人工智能的阐述

1987年12月由人民日报出版社出版的《论语数据库》,作者署名“中国社会科学院文学研究所计算机室”,卷首有钱锺书撰写的序言:

从理论上来说,计算机和人类使用过的其它工具没有甚么性质的不同。它在还未被人广泛使用的时候,除自身尚待完善以外,总会遭到一些抵拒。惯用旧家什的人依然偏爱着他们熟悉的工具。有了纸墨笔砚“文房四宝”,准还有人用刀笔和竹简;有了汽车、飞机、电报电话,也还有不惜体力和时间的保守者。对新事物的抗拒是历史上常有的现象,抗拒新事物到头来的失败也是历史常给人的教训。

钱先生用他习惯的幽默笔调对抗拒新事物的现象进行了批评,显示出他对计算机这一新事物必将大行其道持有高度信心,同时也定义了计算机的工具属性,亦即无论计算机功能多么强大、多么聪明,都不可能超越人的智力水平。计算机是为人服务的,它只能是一种工具。田奕曾发表《电脑里的唐诗》一文,结尾一段这样写道:“电脑可以帮助人脑,但还不能代替人脑。像意境雷同的查检,尽管有汉字象形、会意、形声的优越性,但电脑的距离尚遥远。……实践证明,能帮助人的电脑需要人的更多帮助。”[注]田奕:《电脑里的唐诗》,《文学遗产》1992年第5期。

此文曾经钱锺书先生亲自审阅修订,最后一句话“实践证明,能帮助人的电脑需要人的更多帮助”,是钱锺书先生审改此稿时所加,这句话显然是画龙点睛之笔,极简要又深刻地阐述了人脑与电脑的辩证关系。杨绛《〈宋诗纪事补正〉序》:“八十年代后期,锺书见到电子计算机对文献工作的功用,嘱栾君用计算机再查核某书、某书。计算机所查获的资料,果然比人力更为详尽。但计算机只能罗列事物,不能判别真伪、选择精要。锺书嘱栾君把计算机所提供的资料,连同原书一并搬来,对照研究,指点如何判断、选择;如有不能定夺的疑难处,就把不同的资料全部录下,供后人抉择。”[注]杨绛:《杨绛全集·散文卷》,人民文学出版社2014年版,第320页。“辨别真伪、选择精要”这样的工作并非依靠运算所能解决,故需要人的帮助。现在的计算机无论是其运算速度还是数据存储容量均非20世纪80年代的水平所能望其项背。但即使如此,似也未能改变其工具属性。人工智能的发展是否最终能超越人的大脑尚存疑问。机器的确在围棋对弈中能战胜棋坛高手,但那凭借的仍是其运算能力,而在人文领域,比如对古代作品的鉴赏,是人通过作品与古代作家心灵之间的对话。这种对话涉及鉴赏者的个人阅历、修养、审美、心理、情感等多方面的因素。在可预见的将来,人工智能都很难掌握这样的能力。

谈及人工智能,钱先生对“人工智能”一词有其独到的阐释。栾贵明所著《小说逸语》云:

“人工智能”词一出现,钱先生问我,为什么用“智”字,那是人所独有的呀,机械发展,有时能力过人,完全可能,但万不会达到使用“智”的水平。……先生在评价推介“中国古典数字工程”时就用“知”字,后来别人误会,还特意让我写文替先生澄清。[注]栾贵明:《小说逸语》,新世界出版社2018年版,第11-12页。

栾贵明所言“人工知能”一词确实出自钱锺书。1989年5月,就《全唐诗》数据库的发布钱先生致函院新闻发言人杨润时:

润时同志:得您来信,十分感愧。我因老病,承院领导关注,久未参预活动,没有机会和您晤面,也是憾事。文学所栾贵明同志等关于《全唐诗》速检系统的工作获得可喜的成果,当然由于他们的努力,主要原因还是汝信同志和您们的大力支持和鼓励。作为一个对《全唐诗》有兴趣的人,我经常感到寻检词句的困难,对于这个成果提供的绝大便利,更有由衷的欣悦。这是人工知能在中国古典文学研究上的重要贡献。我因健康原因,不克身与盛会,特此书面祝贺。即致 敬礼!钱锺书 五月廿三日[注]杨润时:《一份沉重的嘱托——钱锺书、栾贵明与中国古典数字工程》,《时代周报》2010年12月16日C08版。

今按“知能”一词,古人使用颇多。《说苑》卷八:“今人有不忠信重厚,而多知能,如此人者,譬犹豺狼与,不可以身近也。”[注][汉]刘向撰,向宗鲁校证:《说苑校证》,中华书局1987年版,第186页。《汉书·张冯汲郑传》:“故李牧乃得尽其知能,选车千三百乘。”[注][汉]班固:《汉书》卷五十,中华书局1983年版,第2314页。《论衡·量知篇》:“人之学问,知能成就,犹骨象玉石,切瑳琢磨也。”[注]黄晖:《论衡校释》卷第十二,中华书局1990年版,第550页。笔者以为其含义实与“智能”相近,均指智慧才能。《管子·制分》:“道术知能,不为爱官职。”唐尹知章注:“有道术智能,则以官职加之。”[注]黎翔凤撰、梁运华整理:《管子校注》卷十,中华书局2004年版,第540页。视“知能”等同于“智能”。《康熙字典》“矢”部“知”字:“又《集韵》《韵会》‘知义切’。《正韵》‘知义切,并与智同’。”[注]《康熙字典》,中华书局1984年版,第824页。可见在表示智慧这一含义时,“知”可以通假为“智”。“知能”一词近人也有使用,鲁迅《热风·随感录四十三》:“我们所要求的美术品,是表记中国民族知能最高点的标本,不是水平线以下的思想的平均分数。”[注]鲁迅先生纪念委员会:《鲁迅全集》第二卷,人民文学出版社1973年版,第49页。所言“知能”,也是才智、能力之意。

但“知能”与“智能”虽含义相近而实有小异。《礼记·中庸》:“子曰:好学近乎知,力行近乎仁,知耻近乎勇。”[注]黄侃校点:《黄侃手批白文十三经·礼记》,上海古籍出版社1983年版,第200页。“知”从学习而得,而“智”更偏重于悟性,近似于佛家所言慧根。近年来,与人工智能相关联的一个学科——认知计算发展迅速。认知计算包括计算机视觉、自然语言处理、语音识别技术等,其目标是让计算机系统像人的大脑一样学习、思考并做出正确的决策,能够收集并管理结构化和非结构化的数据,进行感知、学习和调整。认知计算的关键之一在于学习、模仿人脑。钱锺书先生将模仿人学习人的“人工知能”与人类所独有的“智能”区别开来并非没有道理。计算机技术的发展一日千里,今天人工智能的发展水平与20世纪相比,相去不啻霄壤。因此,钱锺书先生20世纪命名的“人工知能”和现今流行的“人工智能”,结合不同时期的技术发展水平而言,其实各有千秋。就20世纪相关技术的发展水平和汉语词汇的准确性讲,钱先生将当时的相关技术视为“人工知能”,显然是颇具慧眼的。

实际上,钱锺书先生本人堪称验证人脑与电脑、人工智能与人类智能的绝佳例证。近年来时有论者将钱锺书的学问与电脑相类比。比如李泽厚先生在与刘再复先生的对谈中,曾言:“钱锺书才可以算大知识、大学问。他的学问甚至可以说‘前无古人,后无来者’,但也无需来者了。”[注]李泽厚、刘再复:《“五四”五说(代序)》,载刘再复:《共鉴五四——与李泽厚、李欧梵等共论“五四”》,三联书店(香港)有限公司2009年版。此处所言“但也无需来者了”云云大概是感觉现在已经进入信息时代,计算机的文献处理能力远非人力可比,钱锺书的治学既然类似于电脑,那么现今电脑计算能力日趋强大,自然就无需第二个钱锺书,即“无需来者了”。李泽厚表达这样的意思非止一次。比如在2005年接受记者采访时就曾言:“70年代,我说电脑出现后,钱锺书的学问(意义)就减半了。比如说一个杯子,钱锺书能从古罗马时期一直讲到现在,但现在上网可以搜索到更多的‘杯子’。当然钱锺书说的,好些也不能找到。”[注]李泽厚:《哲学家只提供视角》,载《李泽厚对话集·廿一世纪(一)》,中华书局2014年版,第203页。

钱锺书和李泽厚两位先生都是笔者所十分景仰的前辈学者,但是李泽厚先生此论笔者却不敢苟同。以目前IT技术和人工智能的发展水平,检索、查询功能固然已经十分成熟,但还远不能对作家为文之用心和艺术奥秘进行深刻的把握和洞察。刘勰论文学创作与欣赏之关系云:“夫缀文者情动而辞发,观文者披文以入情,沿波讨源,虽幽必显。世远莫见其面,觇文辄见其心。”[注]郭晋稀:《文心雕龙注译·知音》,甘肃人民出版社1982年版,第560页。依笔者浅见,在可预见的将来,机器还不能达到“披文以入情”的境界,而这正是高明的批评与鉴赏家的特长。钱锺书先生在《宋诗选注》中选录王安石名作《泊船瓜洲》,在分析“春风又绿江南岸”之“绿”字时,列举数个唐人使用“绿”字的先例,并做了富有启发性的分析:“王安石的反复修改是忘记了唐人的诗句而白费心力呢?还是明知道这些诗句而有心立异呢?他的选定‘绿’字是跟唐人暗合呢?是最后想起了唐人诗句而欣然沿用呢?还是自觉不能出奇制胜,终于向唐人认输呢?”[注]钱锺书:《宋诗选注》,人民文学出版社1982年版,第57页。对此王水照先生指出:

在电脑检索大为盛行的今天,我们可能找到比钱先生更多的唐诗用例(包括前唐之诗),但恐很难达到他对艺术创作奥秘的深刻把握。[注]王水照:《〈容安馆札记〉论宋诗初学记》,《文汇报》2004年7月11日第7版。

前引胡小伟文章也指出:“如果单指记忆力,钱锺书先生兴之所至,打通中外,信手拈来的功夫,的确给人‘电脑数据库’的感慨。但是数据库毕竟只能罗列资料,显示异同,却不能分析辨证,触类旁通。……所以直到今天,我们也没有读到电脑版的《管锥编》。”笔者臆测,在可预见的将来,电脑也不可能写出《管锥编》。认为计算机可以代替钱锺书的说法,是既不懂计算机,也不懂钱锺书。钱先生对电脑工具属性的定义以及电脑需要人更多帮助的阐释仍具有重要启示意义,至少在人文领域,在文学作品的辨析、鉴赏方面,人工智能达到或超越人类智能还有很长的路要走。

当然,在人工智能和大数据技术突飞猛进的今天,“需要人的更多的帮助”的电脑已经远非80年代配备80286芯片的电脑可比,人的参与度也更广更深,机器所提供的服务实际上包含着人的更多智慧。就计算机参与文学包括古代文学研究而言,21世纪以来相继引入的西学概念“人文计算”和“数字人文”正在引起学界的高度重视,研究范围、研究范式和知识生产的方式都在发生变化。我们在评价钱锺书先生关于人脑与电脑的关系、关于在文史领域尤其是古籍整理领域引入计算机科学的各项见解时,一定不能脱离当时的时代和文化背景等因素。我们既要充分肯定、高度评价在20世纪80年代钱锺书先生所具有的超前意识和敏锐学术眼光,高度评价他提出的一系列关于利用计算机整理古籍文献的思想。同时也需要注意到,钱锺书先生毕竟是20世纪的学者,受时代的局限性所制约,他不可能预见到今天人工智能发展的高度和水平。

据说美国麻省理工学院(MIT)的帕特里克·温斯顿(Patrick Winston)教授对人工智能有一个简单易懂的定义:人工智能就是研究如何使计算机做只有人才能做的智能工作,即人工智能就是研究人类智能活动的规律,然后构造一个可以模拟这个规律的系统,让这个程序去完成以往只有人类的智力才能胜任的工作。这个定义彰显出人工智能研究领域的雄心壮志和发展前景。人工智能被视为21世纪三大尖端技术(另两个是基因工程和纳米科学)之一,近30年来得到了快速发展。

比如,人工智能的一个分支——自然语言处理(Natural Language Processing),是指计算机拥有识别、理解人类文本语言的能力。包括语法语义分析、信息抽取、文本挖掘、信息检索、机器翻译等若干研究方向。其中的文本蕴含识别((Textual Entailment )技术研究两个文本之间的语义推理关系,这种推理关系基于逻辑推演、基于相似度或文本转换,或基于深度学习等算法,相关研究正在取得长足进步。目前,汉语语义知识库已有足够大的规模,通过深度学习技术,词向量(Word Embedding)、全卷积神经网络(Full Convolutional Neural Networks)等模型等都已经被用于文本相似度的计算中,借此可以挖掘文本的潜在语义特征,过去知识库建设过程中需要人工构建特征的方式将逐步被机器所取代。伴随语义知识库规模的进一步扩充和相关特征的趋于完备,可以极大地提高语义比较和检索的精确度,语义分析的实用性、可靠性将得到快速发展。在此基础上,机器所作的文本分析,有可能产生某些人工所难以达到的效果。

由于古汉语的特殊性和古代文学文本的复杂性,将自然语言分析技术应用于古代文学作品的分析和鉴赏也许仍将面临若干困难。但是计算机专家和人文学者合作的步伐在加快,技术发展的内在动力和发展趋势不以人的意志为转移,数字人文研究前途可待、未来可期。

为便于理解,我们可以举一个简单的例子。前引钱锺书先生《宋诗选注》关于“绿”字的分析。我们有计算机的辅助,如王水照先生所言,当能找出更多前人使用“绿”字的诗句,但远不能达到钱先生对艺术奥秘的把握。诚然如此,而亦不尽然。问题不在于我们找出了多少使用“绿”字的诗词,而是在大数据环境中,借助语义分析技术,可以对“绿”字在不同语境、不同例句中的位置、词性、情感特征、前后影响承继关系等进行分类统计。不仅可以统计唐诗中的例证,还可以对整部中国文学史上的所有诗、词、曲、赋、铭、箴、赞、颂、歌、谣、变文、弹词、鼓词、宝卷等各种文体中使用“绿”字的情况进行统计分析。我们也可以对有文献记载以来所有使用色彩的字词进行统计分析,看看那些表示色彩的字词如赤、橙、黄、绿、青、蓝、紫,唐人运用得如何,宋人运用得如何,以及它们对于创作缤纷灿烂的唐诗或是深折瘦劲的宋诗究竟起到了什么作用。这些都是传统人工研究方法所不能实现的。人工智能和人类智能在可预期的将来,未必不会如双峰并峙,各显身手。

因此,我们在正确评价钱锺书先生在20世纪80年代对计算机的认识、对人工智能的理解等方面所具的卓越思想之外,也应认识到,由于时代本身的局限性,造成钱锺书先生关于人工智能的理解在今天看来显示出某种偏颇或不足。我们必须把这个问题还原到当时的历史语境中去正确看待。此外,栾贵明团队开发的数据库,按照钱先生建议,都是以公开出版物的形式即纸质版向社会公布,固然有利于知识产权保护,但是庞大的数据库本身除个别时段曾被少量学者试用外,其庐山真面目学界一直未能得见。纸质出版物其实是这种庞大数据库的副产品,在网络带宽已经不是问题、数据库网络保护技术比较成熟的今天,该数字工程的主体产品——那些建设多年的数据库,一直未能为广大学界和社会所使用,着实可惜。

今年是建国70周年,总结70年来尤其是改革开放以来的学科发展历史和经验教训是我们需要认真面对的重要工作。笔者不揣浅陋,撰写此篇小文,旨在从一个侧面回顾20世纪以来信息技术对人文学科的巨大影响。在这个过程中,钱锺书先生以敏锐而富有前瞻性的眼光,推动指导了栾贵明等所从事的古典文献数字化工程,其相关思想和建设经验,对于我们今天从事古籍数字化建设和数字人文研究仍具有重要启示意义。

猜你喜欢
钱锺书计算机文献
钱锺书的幽默
Hostile takeovers in China and Japan
计算机操作系统
最短的情书
最短的情书
基于计算机自然语言处理的机器翻译技术应用与简介
计算机多媒体技术应用初探
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
信息系统审计中计算机审计的应用
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges