基于学术研究与深度整理的古籍数据化问题浅说*

2023-03-22 14:53赵建成
文学与文化 2023年4期
关键词:学术研究

内容提要:立足于当下古籍数字化资源发展的现状,本文探讨基于学术研究与深度整理的古籍数据化问题。这一工作的基本思路是,以经典文献的基础文本为骨干,以版本校勘、经典注释、历代评点、当代注释、资料补充、研究考证为枝叶,形成树状结构,从而形成集成性的数字文献资源,其本身也是文献整理与研究的综合成果。对于版本问题复杂的文献,可以采取“版本并置”的模式,即分别就主要版本进行此类工作,版本之间可以自由切换。同时,需要加强数据化文献资源的阅读功能,注重其准确性、权威性、经典性,使其达到可供引证的标准,具有与纸书同样的文献地位。

关键词:古籍数据化 学术研究 深度整理 阅读与引证功能

我们正处在一个信息化、网络化的时代,体现在中国古代文学、古典文献学研究领域,古籍数字化资源与相关信息技术平台为学术研究带来了极大的便利。虽然目前学术界对于这一问题的认识仍然存在歧异,但不可否认的是古籍数字化资源的使用越来越广泛,我们对它的依赖也越来越大。甚至也可以说,数字人文在一定程度上改变了我们的学术范式,深刻地影响了传统的学术研究,古籍数据化已成为当代文史研究的基础与重要出路之一①。当然,当下的数字化资源也存在不少问题,如文字识别的错误、检索的技术障碍、一些算法所据样本的全面性与可靠性有所不足等,不过这些问题不属于数字化资源本身,而且可以得到很好的解决。本文的撰写,意在探讨学者在古籍数字化技术及资源飞速发展的背景下参与这场媒介与技术革命的前景与路径。

一 古籍数据化的层次、类型与未来发展趋势

目前的古籍数字化资源,主要有以下三种层次与类型:

(一)原书图像扫描

这方面的资源代表性的有国家图书馆中华古籍资源库(图1)、浙江省历史文献数字资源总库、天津图书馆历史文献数字资源库、南京图书馆清人文集全文影像数据库、四川省图书馆特藏资源平台、中国金石总录数据库等,还有日本国立公文书馆,当然也包括各种古籍的PDF版,其优势在于在呈现古籍版本的原貌,免去读者的奔波查阅之苦,但不可检索、复制与编辑。

(二)全文本录入

这方面的资源非常丰富。除较早的《四库全书》《四部丛刊》《全唐诗》电子版外,现在比较普遍使用的是中国基本古籍库(图2)、鼎秀古籍全文检索平台、雕龙中日古籍全文资料库、中华经典古籍库等,这些资源可供阅读、检索与复制,亦多有原文图像,为学者带来极大方便,但文字录入识别偶有错误,需要认真校对。

(三)基于一定研究与整理的数据库

此类数据资源近年来发展迅速,代表性的有中国历代人物传记资料库(CBDB)、中国历史地理信息平台(CHGIS)、学术地图发布平台、知识图谱数据库、智慧古籍平台等,其本身的生成是基于学术研究与相关信息的整理、分析,同时又可进一步服务于学术研究,提供新的思路与方法,极具价值与发展空间。如哈佛燕京学社中国历代人物传记资料库,输入人名,即可获取其相关资料,包括生卒年,籍贯、郡望,别名(字、号、谥等),入仕(途径),任官情况,亲属与亲属关系,社会身份与社会关系,著述情况等,并交代主要资料来源。此外,也可以从不同的角度或专题出发,如科举、职官、学术交往等,根据需要设定检索条件,得到相关的信息资料。

前两种数据库类型自然是古籍数字化的基础,但随着这一工作的开展,尤其是近年来古籍的OCR技术(对文本资料的图像文件进行分析识别处理,从而获取文字及版面信息)越来越智能,基本文献的录入工作越来越普遍和充分,第三种类型的数据库建设将成为重要的趋势。尤其对学者而言,着力建设这样的数据库,本身就是学术研究的拓展。浙江大学徐永明教授先后主持了浙江文献网、学术地图发布平台、智慧古籍平台的研发和实践。截至目前,学术地图发布平台已有700余人的行迹图和1200余幅分布图,智慧古籍平台已有数百人的世系图、社会关系图及上百种标引后的古籍。①王兆鹏教授等研发的知识图谱数据库,致力于集成相关文献资源,可分别按时间、地点、人物、作品、官职、名物等来查询资料和数据。任一查询要素均与其他相关要素关联。如查询时间“正月五日”,可以关联到历史上作于此日的诗词164首,发生于此日之事3309件次,唐宋时期32人次此日有创作活动。查询地名“成都”,可见历史上有1791人曾在成都活动或与成都相关,唐宋时期1344人次在成都有文学活动,历代与成都有关的诗词9104首。时、地、人、文、事,形成相互关联的立体数据网络,可不断适应大数据时代学术研究的数据需求。①

二 基于学术研究与深度整理的古籍数据化

古籍文献数据库与相关数据信息平台既是学术研究的有效工具与手段,也应该成为学术研究的重要内容,二者相辅相成。我们上文提到的前两个类型的数字化资源,其核心主要在技术,其研发实际上和学者关系不大。而第三种,其根本则主要在于学者的整理与研究。笔者在撰写硕士学位论文(《刘孝标á 世说注? 考略》,黑龙江大学,2003年)的时候,导师给了我一份材料,是他以刘峻、刘孝标为检索词,检索《四库全书》得到的所有相关文献目录,不过这些文献不能直接利用,因为数量太多,而且很多是重复的或者价值不大的材料,需要一一加以考察,找出有价值的内容。但对一般读者与研究者而言,这一工作是费时费力并且比较困难的。整理这些文献,删汰无效信息,得到古籍中有关刘孝标的文献资料,这是专业研究者的工作内容,是很有学术价值的。但这也仅是初步的整理,如果能够进一步对这些文献进行分类、考证乃至综合研究,如我们将有关刘孝标的资料分成四个层级:第一级,刘孝标本人之作品;第二级,刘孝标友人所作与其有关之文字资料(仅存刘之遴《与刘孝标书》一篇);第三级,后人所撰刘孝标之传记资料,如唐姚思廉《梁书·刘峻传》,北齐魏收《魏书·刘休宾传》,唐李延寿《南史·刘峻传》《北史·刘休宾传》以及相关史籍中的有关史料等;第四级,后人对刘孝标作品所作之注释,如唐李善、五臣之《文选注》等。在此基礎上,我们对这些文献进行考证与综合研究,并吸收现当代学者的优秀成果,就能得到一份较为系统的刘孝标研究资料。我们可以将这些材料数据化,结合刘孝标同时代的政治、军事、历史、文化与主要人物及其创作和活动,以不同的层次或类别呈现出来。这样的工作可以在很多领域,以很多专题开展,基于学术研究与深度整理的古籍数据化工作应该成为未来古籍数字资源发展的重要趋势,其学术含量和实用价值也更高。

徐永明认为,理想的数字化资源应该让“文本中的每一个字符、词语、段落,都蕴藏文本以外的丰富信息,并展示出庞大的知识谱系”。譬如,打开一篇古文,点击其中的人名,就会出现这个人物的生卒年月、社会关系以及他生前的行迹图;点击其中的地名,就会显示其现在的准确定位;点击一个传统的时间短语,就会自动换算成公历。①然而这一工作实际上非常复杂,同时也不是任何研究领域与研究对象都有这样开展的必要。不过一些重要的经典文献如《诗经》《左传》《论语》《庄子》《史记》《汉书》《世说新语》《文选》《红楼梦》等,都有必要在学术研究与深度整理的基础上进行数据化工作。

我们的基本思路是,以经典文献的基础文本为骨干,以版本校勘、经典注释、历代评点、当代注释、资料补充、研究考证为枝叶,形成树状结构(图5),从而产生集成性的数字文献资源,其本身也是文献整理与研究的综合成果。对于版本问题复杂的文献,如《孝经》有今文系统与古文系统,《文选》有李善注本系统、五臣注本系统、六家及六臣本系统、白文本系统等,可以采取“版本并置”的模式,即分别就主要版本进行此类工作,版本之间可以自由切换。而随着技术的进步,我们还可以通过“人机互动”的模式,让更多的学者参与进来,最大程度地完善数据库建设。

我们举两个例子来进行说明。一是《世说新语·贤媛第十九》第一条:

陈婴者,东阳人。少修德行,著称乡党。秦末大乱,东阳人欲奉婴为主,母曰:“不可!自我为汝家妇,少见贫贱,一旦富贵,不祥!不如以兵属人:事成,少受其利;不成,祸有所归。”

【刘孝标注】《史记》曰:婴故东阳令史,居县素信,为长者。东阳人欲立长,乃请婴。婴母谏之。乃以兵属项梁,梁以婴为上柱国。②

我们直接呈现的是《世说新语》原文与刘孝标注,但这是远远不够的。研读这一文本,还应涉及以下几个方面的内容:一是文本的校勘,二是人名、地名、官名的注释,三是相关材料的补充,四是相关问题的考证。我们可以通过设置一定的体例,如文字颜色、文字背景、字体变化等,将上述内容以超链接的方法内嵌到以上文本中,读者可以随时点击查看。就《世说新语》本则文本而言,需要嵌入的有以下内容:

【校勘】

刘孝标注“婴母谏之”,南宋湘中刻本(据沈宝砚校记)同,明袁褧嘉趣堂刻本(翻刻陆游刊本)、清周心如纷欣阁本(重雕袁本)、王先谦思贤讲舍刻本(重雕纷欣阁本)“谏”作“见”。

【注释】

《史记正义》引《括地志》云:“东阳故城,在楚州盱眙县东七十里,秦东阳县城也,在淮水南。”

《史记集解》引张晏曰:“陈婴母,潘旌人。墓在潘旌。”《索隐》曰:“潘旌是邑聚之名,后为县,属临淮。”(以上注释用余嘉锡《世说新语笺疏》)①

令史,县令之属吏。掌文书律令颁发诸事宜。裴骃《史记集解》引晋灼曰:“《汉仪注》云:‘令吏曰令史,丞吏曰丞史。”

上柱国,即柱国,官名。战国时楚国置。本为保卫国都之官。柱国原意为国都。高诱《战国策注》:“柱国,都也。”后为楚国最高武官,位仅次令尹。②

【补充材料】

陈婴者,故东阳令史,居县中,素信谨,称为长者。东阳少年杀其令,相聚数千人,欲置长,无适用,乃请陈婴。婴谢不能,遂强立婴为长,县中从者得二万人。少年欲立婴便为王,异军苍头特起。陈婴母谓婴曰:“自我为汝家妇,未尝闻汝先古之有贵者。今暴得大名,不祥。不如有所属,事成尤得封侯,事败易以亡,非世所指名也。”婴乃不敢为王。谓其军吏曰:“项氏世世将家,有名于楚。今欲举大事,将非其人不可。我倚名族,亡秦必矣。”于是众从其言,以兵属项梁。……于是项梁然其(范增)言,乃求楚怀王孙心民间,为人牧羊,立以为楚怀王,从民所望也。陈婴为楚上柱国,封五县,与怀王都盱台。项梁自号为武信君。(《史记·项羽本纪》)③

汉棠邑侯陈婴之母也。始婴为东阳令史,居县素信,为长者。秦二世之时,东阳少年杀县令,相聚数千人,欲立长帅,未有所用,乃请陈婴。婴谢不能,遂强立之,县中从之得二万人。欲立婴为王,婴母曰:“我为子家妇,闻先故不甚贵,今暴得大名,不祥。不如以兵有所属,事成犹得封侯,败则易以亡,可无为人所指名也。”婴从其言,以兵属项梁,梁以为上柱国。后项氏败,婴归汉,以功封棠邑侯。君子曰:婴母知天命,又能守先故之业,流祚后世,谋虑深矣。《诗》曰:“贻厥孙谋,以燕翼子。”此之谓也。(《古列女传·陈婴母》)④

【考证】

刘孝标注此处引文处理有误。《史记》原文中陈婴母所谏者为东阳少年欲立陈婴为王之事,而引文则误为谏东阳人立婴为长事。余嘉锡案语云:“《史記》东阳人之请婴,乃请为东阳长耳,未尝请见婴母。婴母云云,自以告婴,非见东阳人而语之也。此注所引过求省略,遂失本意。”⑤此是就注中“婴母见之”之语而言(余嘉锡《世说新语笺疏》据王先谦思贤讲舍刻本,“谏”作“见”),但“见”当为“谏”之讹,余先生理解有误。不过余先生说“此注所引过求省略,遂失本意”,则准确指出了此处刘注存在的问题,这样的问题在刘注中也有一定的代表性。

二是《孝经·开宗明义章第一》“夫孝”句:

夫孝,始于事亲,中于事君,终于立身。

【唐玄宗注】言行孝以事亲为始,事君为中。忠孝道著,乃能扬名荣亲,故曰终于立身也。

【邢昺疏】夫为人子者,先能全身而后能行其道也。夫行道者,谓先能事亲而后能立其身。前言立身,末示其迹。其迹,始者在于内事其亲也;中者在于出事其主;忠孝皆备,扬名荣亲,是终于立身。

(注)云“言行孝以事亲为始,事君为中”者,此释始于事亲,中于事君也。云“忠孝道著,乃能扬名荣亲,故曰终于立身也”者,此释终于立身也。然能事亲事君,理兼士庶,则终于立身,此通贵贱焉。郑玄以为:“父母生之,是事亲为始。四十强而仕,是事君为中。七十致仕,是立身为终也者。”刘炫驳云:“若以始为在家,终为致仕,则兆庶皆能有始,人君所以无终。若以年七十者始为孝终,不致仕者皆为不立,则中寿之辈尽曰不终,颜子之流亦无所立矣。”①

【古文孝经孔传】言孝行之非一也。以事亲言之,其为孝也,非徒不毁伤父母之遗体而已,故略于上而详于此,互相备矣。《礼》:男初生则使人执桑弧、蓬矢射天地四方,示其有事。是故自生至于三十则以事父母、接兄弟、和亲戚、睦宗族、敬长老、信朋友为始也。四十以往,所谓中也,仕服官政,行其典谊,奉法无贰,事君之道也;七十,老,致仕,县其所仕之车,置诸庙,永使子孙鉴而则焉,立身之终,其要然也。②

以上我们呈现的是今文系统的《孝经》本文与唐玄宗注、邢昺疏以及《古文孝经》孔传,但仅止于此仍然是不够的,进一步的工作主要包括以下几个方面:一是文本的校勘,二是相关问题的注释,三是郑玄注的辑佚与考证。具体见下:

【校勘】

邢昺疏“末示其迹”,阮元校语云:“闽本、監本、毛本‘末作‘未,是也。”笔者案:日本东京大学东洋文化所藏《孝经义疏》作“未”。

邢昺疏“是终于立身”,阮元校语云:“《正误》‘身下补‘也字,是也。”

《古文孝经》孔传“详于此”,仁治本《古文孝经》作“详之于此”;“永使子孙鉴而则焉”,仁治本“鉴”作“监”。

【注释】

《礼记·射义》:“故男子生,桑弧蓬矢六,以射天地四方。天地四方者,男子之所有事也。”③

郑玄,字康成,北海高密人。《后汉书》有传。先于太学受业,师事京兆第五元先,始通《京氏易》《公羊春秋》《三统历》《九章算术》。又从东郡张恭祖受《周官》《礼记》《左氏春秋》《韩诗》《古文尚书》。以山东无足问者,乃西入关,因涿郡卢植,事扶风马融。中兴之后,范升、陈元、李育、贾逵之徒争论古今学,后马融答北地太守刘瓌及郑玄答何休,义据通深,由是古学遂明。注《周易》《尚书》《毛诗》《仪礼》《礼记》《论语》《孝经》《尚书大传》《中候》《乾象历》,又著《天文七政论》《鲁礼禘祫义》《六艺论》《毛诗谱》《驳许慎五经异义》《答临孝存周礼难》,凡百余万言。郑玄括囊大典,网罗众家,删裁繁诬,刊改漏失,自是学者略知所归。至于经传洽孰,称为纯儒,齐、鲁间宗之。建安五年(200)六月卒,年七十四。①

刘炫,字光伯,河间景城人。传见《隋书》卷七十五《儒林传》与《北史》卷八十二《儒林传下》。刘炫周建德末为州户曹从事,后署礼曹从事。隋开皇中,奉敕与著作郎王邵同修国史,俄直门下省,以待顾问。又诏诸术者修天文、律历,兼于内史省考定群言。除殿内将军,时牛弘奏请购求天下遗逸之书,炫遂伪造书百余卷,题为《连山易》《鲁史记》等,录上送官,取赏而去。后有人讼之,经赦免死,坐除名。归于家,以教授为务。后召至京师,与诸儒修定《五礼》,授旅骑尉。炀帝时除太学博士,岁余以品卑去任。归于河间。于时群盗蜂起,谷食踊贵,经籍道息,教授不行。炫为贼所将,未几,贼为官军所破,炫饥饿无所依,时夜冰寒,因此冻馁而死,时年六十八。其后门人谥曰宣德先生。著《论语述议》十卷、《春秋攻昧》十卷、《五经正名》十二卷、《孝经述议》五卷、《春秋述议》四十卷、《尚书述议》二十卷、《毛诗述议》四十卷,注《诗序》一卷、《算术》一卷,并行于世。

《隋书·经籍志》:“《古文孝经》一卷,孔安国传。梁末亡逸,今疑非古本。《孝经》一卷,郑氏注。”②其《孝经》类小序云:“……梁代,安国及郑氏二家,并立国学,而安国之本,亡于梁乱。陈及周、齐,唯传郑氏。至隋,秘书监王劭于京师访得《孔传》,送至河间刘炫。炫因序其得丧,述其议疏,讲于人间,渐闻朝廷,后遂著令,与郑氏并立。儒者喧喧,皆云炫自作之,非孔旧本,而秘府又先无其书。”③

【辑佚】(郑玄注)

《孝经》郑玄注,今已亡佚。就此节经文而言,其郑注主要存诸《经典释文》、邢昺正义等文献中,尤其是《文选钞》所引,之前一直未有学者注意,十分重要。今录之于下:

也者。廿廿强而仕。行步不逮,县车致仕。(《经典释文·孝经音义》)④

郑玄以为父母生之,是事亲为始。四十强而仕,是事君为中。七十致仕,是立身为终也者。(《孝经注疏》邢昺正义引)

郑玄曰:臣年七十,耳目不聪明,行步不及逮,退就田里,悬车致仕也。(《文选》卷一百一十六蔡伯喈《陈太丘碑文》“及文书赦宥,时年已七十,遂隐丘山,悬车告老”下《文选钞》引)⑤

皮锡瑞《孝经郑注疏》据《经典释文》与邢昺疏辑录此则郑注曰:“父母生之,是事亲为始。廿廿强而仕,是事君为中。七十行步不逮,县车致仕,是立身为终也。”⑥较为完整地恢复了郑注的内容。但很显然,《文选钞》所引可进一步补充《经典释文》与邢昺疏所保存之佚文,从而最大程度复原此则郑注的原貌:

父母生之,是事亲为始也者。廿廿强而仕,是事君为中。臣年七十,耳目不聪明,行步不及逮,退就田里,悬车致仕,是立身为终也者。

【补证】

皮锡瑞云:“郑君深于礼学,注《易》笺《诗》,必引礼为证。其注《孝经》,亦援古礼。”①就此则郑注而言,皮锡瑞疏云:

《曲礼》曰:“四十曰强而仕。”又曰:“大夫七十而致仕。”《内则》曰:“四十始仕,七十致仕。”郑君据此为说。致仕必县车者,《白虎通·致仕》篇曰:“臣年七十县车致仕者,臣以执事趋走为职,七十阳道极,耳目不聪明,跂踦之属,是以退老去,避贤者路,所以长廉远耻也。县车,示不用也。”《公羊疏》引《春秋纬》云:“日在悬舆,一日之暮。人年七十,亦一世之暮,而致其政事于君,故曰悬舆致仕。”《淮南子·天文训》:“至于悲泉,爰止其女,爰息其马,是谓悬舆。”二说以人年七十与日在悬舆同,故云“悬舆致仕”,与《白虎通》“悬车,示不用”异。郑义当同白虎通也。②

唐玄宗注云:“言行孝以事亲为始,事君为中。忠孝道著,乃能扬名荣亲,故曰终于立身也。”表面上看,唐玄宗注与郑注不同,但实际上二者是一致的,唐玄宗注是对郑注的概括。《孝经》本文之始、中、终,是逻辑上的而不是时间上的。郑注因有“父母生之”“廿廿强而仕”“臣年七十”之语,似从时间的角度进行解说,实则不然,这些与时间、年龄相关的语句,其着眼点并不在时间,而是在事理,因此仍是逻辑上的。这需要细心体会方可理解,否则就可能导致对郑注的误读。如刘炫驳之云:“若以始为在家,终为致仕,则兆庶皆能有始,人君所以无终。若以年七十者始为孝终,不致仕者皆为不立,则中寿之辈尽曰不终,颜子之流亦无所立矣。”刘炫即从时间的角度理解郑注,其解读过于僵化。故皮锡瑞驳之曰:“刘氏刻舟之见,疑非所疑,必若所云,天子尊无二上,无君可事,岂但无终?又有遁世者流,不事王侯,岂皆不孝?不惟郑注可驳,圣经亦可疑矣。经言常理,非为一人言。郑注亦言其常,何得以颜夭为难哉!”③皮氏之说极当。

要之,我们的想法是能够基于相关典籍(当然也可以以作家、文人集团或文学流派为中心),形成集成性文献资源,便于修订、完善、检索、复制,这本身既是学术研究的成果,也是学术研究的资源。这一工作的开展难度较大,可由相关科研机构或政府部门牵头,具体研究内容招标,进行重大项目研究。

三 加强古籍數据化文献的阅读与引证功能

古籍数据化资源的优势是显而易见的,一是方便高效,二是能够处理海量文献,三是降低了学术研究的成本。但这仍然没有充分发挥其价值。一般而言,古籍数据库的功用,主要包括以下几个方面:一是阅读,二是文献检索(含辑佚、校勘),三是提供经过深度整理与研究的学术资源。第二点无需赘言,第三点是上文特别强调的,这里我们想着重讨论一下第一点,即古籍数字文献的阅读功能与价值,这是目前数字化文献资源开发中比较薄弱的地方。

麦克卢汉说:“媒介即是讯息。”④确实,媒介不仅是形式,是载体,它对信息、知识、内容等有强烈的反作用,能够影响我们的学习习惯、方式与文化发展的走向。在人类历史上,文献载体的革命往往就意味着知识和文化的革命,而当下数字媒介的革命,其跳跃性更大,媒介不再是实体性的而是抽象的、虚拟的、数字性的,它对我们的文化发展到底有多大的影响,因为身处其中,还无法全面判断,但可以预知这是到目前为止最为深刻的一次。

虽然我们已经看到数字媒介对纸媒的冲击,但对于严肃的知识学习与经典阅读来说,纸书的权威性仍然不可替代。尤其在学术研究领域,引证电子文献资源往往被视为不够规范与严谨的表现(原文扫描的图像文献不在此列)。不过,随着数字技术的进一步发展与应用的深入,这种情况终将改变。数据化技术及其资源不会也不应该仅仅停留于作为文献检索的工具、学术研究的方法,它还应该成为日常阅读的重要资源与保存传承古代经典的重要手段。这就需要我们加强数据化文献资源的阅读功能,注重其准确性、权威性、经典性,包括在技术上提高阅读界面的操作便捷性与观感体验等。数据化文献应该达到可供引证的标准,具有与纸书同样的文献地位。可以引入相关评价体系、评审标准,将数据资源发行机关与出版社视为具有同等资质的机构。

数据化文献资源的推广与使用,能够进一步降低学习与研究的成本,便于普及,智能化的处理手段提高了文献信息处理的效率与速度,海量文献资源也能保证研究的全面性。当然,数据化文献资源也只是文献的一种存在形式与状态,包括文献处理与利用的数字化方式与手段,其在本质上不能代替学术研究,更不能将其神话化。

(赵建成,南开大学文学院副教授)

本文为国家社科基金重大项目“《全汉赋》新辑、汇校、汇注、汇评”(项目编号:22&ZD264)、国家社科基金冷门绝学研究专项学者个人项目“南北朝至唐古注引书与出土文献、域外汉籍互证研究”(项目编号:23VJXG017)之阶段性研究成果。

猜你喜欢
学术研究
努力推进“中国改革发展史”的学术研究工作
学术史是学术研究的第一道门槛——以《红楼梦》新近失范研究为例
学术研究
学术研究
学术研究
学术研究
浅析历史学术研究方法在高考备考中的实践与运用
2014年中国纪录片学术研究综述
外语学术研究应关注应用
浅谈侯外庐的学术研究方法