单志鹏
(北京语言大学 语言科学院,北京 100083)
柳建钰教授的《字书字料库的理论、实践与应用》一书由中华书局于2021 年5 月正式出版,该书是国内外第一部系统研究字料库的学术专著,它将字料库的理论探索、实体建设与应用研究三者有机结合起来,充分验证了字料库的实用价值和字料库汉字学的学科意义。不论是在理论上,还是在实践以及应用上,该书都充分说明了字料库建设与研究在大数据时代具有必要性和可行性。《字书字料库的理论、实践与应用》一书在字料库建设与字料库汉字学研究中的首创价值是值得肯定的。
随着认知水平的提高与知识储备的增加,跨学科的研究视角逐渐受到学界的普遍关注与重视。以往单一的研究视角、研究方法和研究理论对研究对象做到了日益“专、精”,但随着研究的逐渐深入,单纯的“专、精”很容易让研究走入瓶颈,同时也限制了研究思路,很难发掘出研究的极大值。而跨学科、多模式的交叉研究将拓宽研究思路,只有有效借鉴其他学科的研究方法与理论,多学科互动,才能促进对研究对象更深、更广的认知。孙磊认为,“现代科学技术突飞猛进的发展为新兴学科或交叉学科的产生提供直接动力;学术环境的日益改善为新兴学科的产生提供必要条件;生动的社会实践则推动着新认识的产生,催生新的学科门类的出现。”[1]基于这样一系列的原因,建立以目标导向为中心的关联性趋近的相互贯通的交叉研究领域成为当前学术研究的主要趋势。
“人文科学理论创新的一个重要机制在于转换视域,在语言学研究中开展交叉学科研究就是一种视域的转换。”[2]当前汉字学研究视域的转变就是要改变以往从“故纸堆”中人工翻阅文献、依靠学者自省或依靠个别数据来总结归纳汉字学规律的范式,转而借助信息科学及其他相关学科的理论与技术,将汉字现象、特点、理论同信息科学及其他相关学科深度结合,进行数理转化,数据分析,量化对比,走大数据、信息化、科学化的道路。王宁先生指出:“汉字学和信息科学技术结合的可能性,给两个学科都带来了新的增长点;而汉字学和信息科学技术结合的难度,对两个学科又都是一种挑战……在21 世纪,汉字学与信息科学技术的进一步结合,是可以预见的。”[3]为了满足全汉字数字化整理的迫切需求,经过长时间地探索,李国英、周晓文先生于2009 年率先阐发了字料库建设的必要性和可行性,分析了字料库的理论意义与现实价值,为当前字料库的研究与建设奠定了理论基础。《字书字料库的理论、实践与应用》则是柳建钰教授沿着李国英、周晓文先生所指明的主攻方向继续深入探索和积极实践后所取得的一份重要的字料库研究成果。
《字书字料库的理论、实践与应用》全书共计十四章,可以分为三大部分,分别是理论篇(包括绪论、字料库与字书字料库概说、字料库理论的提出及其价值、字料库汉字学概说)、实践篇(包括当前字料库与“类字料库”建设概况、字书字料库系统建设的主要原则与基本流程、字书字料库数据库及软件的设计、字书字料属性库的建设、字书字料的标注、字书字料的字际关系系联、字书字料库的日常维护管理)以及应用篇(包括字书字料库与字书疑难字考辨、基于字书字料库的字书汉字层积流变状况调查研究、基于字书字料库的通用规范汉字构形属性调查研究)。
“名正则言顺”,理论篇开篇明义,首先科学界定了“字料”“字料库”“字书”“字书字料库”四个核心概念。字料库是由语料库类推出来的概念,二者建设的基本思想一致,但对象、目的、原则等方面存在较大差异。字料库是以“字”为核心,以汉字学理论为主要指导,对历史上真实出现过的汉字字料的本体属性与字际关系属性进行全方面、综合性、立体式的标注、整理和研究的大型汉字字料信息库。从字料的存在形式、实现方式、书体风格、载体、时代、通行范围、应用层面、使用民族或国别、性质、加工程度等角度可以划分出不同类型的字料库。不同类型的字料库存在研究重点上的差异,可以称为子库,将业已建立起来的成熟的子库进行整合就可以形成一个大规模汉字字料库。
字书字料库“是与语篇字料库相对应的字料库两大类型之一,它专门收集和加工历代字书中的真实汉字字料,是在大规模历代字书文本基础上生成的真实的汉字刻写形态的有序集合,是利用计算机对字书汉字形体进行各种分类、统计、检索、综合和比较等研究的基础,它能为汉字学及其他相关学科研究提供高度结构化的字书汉字数据信息。”[4]36历代字书贮存的是经过专家学者系统整理过的社会用字,后世字书又往往求大、求全,重收集,轻整理,这就使得历时汉字在共时层面上不断地累积,可以说,字书文献中蕴含着丰富的汉字字料信息。作者认为,历代学者整理形成的大量字书文献、当代计算机的技术支持以及汉字学与语料库理论提供的指导,使得字书字料库的建立具有操作上的可行性。
字书字料库考察的是贮存状态下的字料,可以利用计算机数据库手段对汉字构形、字体演变、字际关系等汉字属性资源进一步开发,从而实现字书汉字属性价值的无限增值。所以,作者认为,“字书字料库的建设,是汉字整理研究信息化、大数据化的必然选择。通过以字书字料库中的大规模字料数据为中心和出发点,凭借科学的统计方法,对字料数据进行充分地观察、分析、描写和概括,从中归纳抽绎出科学的汉字学理论,这将推动当前的汉字研究工作发生根本性变化。”[4]49基于此理念建立的字书字料库具有强大的生命力,在汉字学研究过程中将发挥无可替代的作用。
该书还阐述了字料库理论提出的价值与背景。作者认为,交叉学科研究方法的推广应用、当前汉字整理的客观现实、语料库理论及语料库语言学的影响以及李国英、周晓文先生关于字料库理论的不懈探索都直接推动了字料库理论与实践的深入发展。
最后,该书论证了“字料库汉字学”的学科定位、性质、内容与方法等相关问题。作者明确指出,“字料库汉字学是以真实文本中出现的汉字字料为界定和描述汉字现象的起点,通过字料的采集、存储、标注、检索和统计分析,用来提出全新的汉字学理论或验证、修正已有汉字学理论,并对字料库如何应用于汉字教学与中文信息处理及其他相关学科进行研究的一门交叉学科。”[4]68字料库汉字学是人文社会科学与自然科学交叉接触的产物。相较于“数据库汉字学”或“数据库文字学”等名称,“字料库汉字学”更加名实相符。字料库汉字学将研究对象集中于本体理论研究、汉字整理与规范研究以及应用研究三个方面,是汉字学框架内的一门崭新的分支学科。
理论来源于实践,反作用于实践。实践篇主要是在字料库汉字学、语料库语言学理论的指导下进行字书字料库的实体建设研究。
该书对受汉字学与信息科学交叉需要而催生出的一些字料库及“类字料库”进行了介绍。如中国大陆的北京师范大学字料库(BNUZLK)、华东师范大学古今文字及历代字书资源库、魏晋南北朝碑刻用字数据库、汉字全息资源应用系统,等等;港台地区的台湾“中央研究院”“小学堂文字学数据库”、香港中文大学人文电算研究中心“汉语多功能字库”,等等;国外的日本东京大学“石刻拓本资料库”、字形维基(GlyphWiki),等等。通过借鉴上述字料库与“类字料库”建设的先进经验,取长补短,作者提出了建设字书字料库系统应当坚持科学性、真实性、代表性、规模化、前瞻性、先进性和共享性七个主要原则,建设阶段主要有规划、需求分析、设计、实现、字料采集、字料标注与使用及维护等七个方面。同时,认为C/S 架构的高安全性更适用于字书字料库的开发建设。
该书又具体介绍了字书字料库的建设情况。字书字料库数据库是关系型数据库[4]139。所以,在建设过程中注意各类关系属性的关联性。作者首先介绍了数据库与数据类型,依据类型将各类数表分为字头基本信息类、字头构形属性类、字头字际关系类、数据库操作类及其他类等五大类,并介绍其中二十二个主要数据表的基本情况以及工具插件、界面设计、查询功能和辅助功能为主的软件系统设计的基本情况。从软件设计的具体过程可以看出,字书字料库软件设计将汉字构形学、汉字字体学、语料库语言学等理论知识融会贯通,由此也充分说明字书字料库的建设是在科学理论指导下完成的,从而有力保障了字书字料库本身的科学性。
从2014 年建成“CCFD 字书字料库”系统V1.0版本开始,经过7 年的不断扩充、升级、调整和完善,目前该系统共收录字书、韵书、字形编等共计70 多部,在库已标注字头达到1 695 272 个,字头参证文献295 230 个,辞条总数达152 334 个。字料字体涵盖篆、隶、行、草、楷五种,既收录了甲骨文、金文、小篆等古文字字形,又收录了隶书、楷书、行书、草书等今文字字形。不仅收录官方权威正字字样,还收录社会通用层次字料和民间俗用层次字料。同时,全面吸纳学界关于疑难字考释成果,斧正以往大型字书的讹误。就规模而言,“CCFD字书字料库”系统已经跻身于成熟性高、数据量大的中大型字料库之列了。该字料库的基本信息(包括部首、笔画数等)、构形信息(包括构形模式、组合类型等)以及字际关系(包括异体、同形、繁简、本借等)三大界面基本标注信息完备。查询窗口分为字样信息查询、公用信息查询、基本信息查询、构形关系查询、字际关系查询,可以满足汉字学理论研究与应用研究的基本查询需求。就科研使用而言,“CCFD 字书字料库”系统也已经是一个实用性强、稳定性好的熟字料字料库。
“治其器必求其用。”该书的应用篇主要展示了字书字料库在应用上的优越性和重要性。字书字料库的现实应用主要体现在三个方面。
首先,字书字料库在疑难字考辨上能够发挥重要的作用。作者利用字书字料库分别对“、、、”“、、、”“、、瑱”“、、、”“、通”“、、穼、罙、、”等七组疑难字进行了考释沟通。学者可以从字书字料库中快速提取疑难字,提高考辨工作的完成速度,提升考释结论的科学水平,既可以复核时贤考辨结论,又可以修正学者考释不准确之处。
其次,字书字料库可以对字书汉字层积流变的研究提供助力。作者测查《说文》《原本玉篇》《类篇》等十五部字书中“糸部”收字的层积情况,剥离出共收、单见、歧出三种类型并进行系统描写。在进行充分的调查分析后,作者认为,“字书中数量众多的异写、异构字形是我国古代字书收字流变状况的真实反映。这些字形在字书中不断层积,最终形成了历代字书收字动辄三五八万的局面。”[4]336
最后,字书字料库还有助于对汉字构形属性进行全面测查。《通用规范汉字表》是目前汉字规范整理的最新权威成果,作者借助字书字料库对《通用规范汉字表》的构件组合动态特点、结构层级数、各级构件及其功能、构形模式和布局图式五个方面进行了更全面、更准确地构形属性测查研究,弥补了这一领域的若干空白。
《字书字料库的理论、实践与应用》是国内外第一部专门研究字料库的著作,首次对字料库进行了理论、实践与应用三方面的有益尝试,也是第一部开启字料库汉字学研究范式的重要专著。该书的意义与价值主要体现在以下三个方面。
首先,作者尝试建立“字料库汉字学”这一交叉学科。从1990 年王宁先生首次使用“字料”用语,到2009 年李国英、周晓文先生科学定义“字料库”概念,再到2014 年BNUZLK 字料库系统的建构与应用以及海内外各类字料库与“类字料库”的建立,字料库的发展历程充分证明了它在汉字学研究过程中的独特价值和巨大潜力。不论是在汉字多方面属性的量化研究中,还是在汉字共时形体关系整理与历史形体演变研究中,字料库能够发挥的作用都是非常明显的。在字书字料库建设中,作者指导硕士研究生对字书新收字整理、疑难字考释、字体对比描写、字头对比分析等方面的研究,都充分印证了字料库不单纯只是一个研究工具或检索工具,而是一个能在汉字学研究过程中发挥重要作用的具有理论创新价值的新事物,并从实践上验证了字料库的建设与研究符合当前汉字学研究需求,字料库汉字学的研究也是可以纳入汉字学整体框架体系中的。字料库汉字学有着自己的学科性质、研究内容、理论思维,理应成为汉字学框架内的一门新的分支学科。
其次,该书为当前及未来一段时期内字料库的建设提供了可资借鉴的科学操作范式。字书字料库是贮存字书汉字字料的资源库,需要解决好各类界面的显示、图片的储存与提取、各类属性标注以及代码转换等一系列相关问题。该书在实践篇中详细论述了软件设计的原则与流程、各类属性库的建构、字料属性系统的标注、字际关系的系联以及日常维护管理等相关问题,科学规划了字料库建设过程中遇到的大部分问题,为日后学界建设字料库软件提供了科学范式。
最后,该书将推动字料库、汉字学与字料库汉字学之间的和谐健康发展。第一,字书字料库将为汉字学研究提供一手数据来源。“从统计数据的来源来看,一般有两种渠道:一是来源于直接的调查和科学实验,我们称之为第一手或直接的统计数据;二是来源于别人调查或实验的数据,我们称之为第二手或间接的统计数据。”[5]字料库直接汇集真实文本中的字料,经过对字料的科学、系统、完善地标注,将各个参数关联成一个有机整体,在进行数理统计、对比、分析之后,将会得到科学的一手数据。第二,字料库在科研应用中将会量化数据,从而验证汉字学理论知识,同时,在汉字学研究中发现的新现象、新观点还会反哺字料库与字料库汉字学的建设与研究。所以,该书在理论探索与实践操作上具有重要的意义与价值。
理论的发展需要实践的检验,而实践又会促进新理论的发生和发展,《字书字料库的理论、实践与应用》就是很好的明证。
不过,该书也存在两点不足。首先,应用篇只对疑难字考释、字书层积流变探究、构形属性分析三个方面进行了展示,尚未体现出字书字料库具有广阔使用领域的特点。其实还有很多领域可以展示字书字料库的优越性。例如我们可以借助字书字料库进行字料通行范围的层次研究。依据字书字料库标注的字料身份信息,分出汉字字料的上层、中层、下层的层次归属,排列演变序列,从而可以描述不同层次汉字字料的相互影响。再如,我们可以借助字料库进行汉字识字教学以及汉字文化阐释等方面的研究。其次,该书对各种字料库与“类字料库”的分析还不够全面,只是简单介绍了基本信息、特点,没有对比各类字料库与“类字料库”的异同之处,使读者不能很清晰地了解其间的差异,这些问题希望以后该书修订时能予以考虑。
我们认为,柳建钰教授的《字书字料库的理论、实践与应用》具有较高的理论价值。该书系统论述了字料库的基本理论,探讨了字料库汉字学的学科性质、研究内容等相关问题,整体框架比较完整,理论阐发科学深入。字书字料库数据平台具体建设步骤的展示也为后续学界进一步研发类似字料库提供范式,其现实意义是非常明显的。字书字料库全面标注汉字字料的基本信息,系统展示字料字际关系属性,完整呈现字料的文化层次、社会使用以及字料的音义信息,是一个值得学界信赖的汉字字料数据资源平台。研究显示,在疑难字考释、汉字构形属性分析等应用研究上字料库呈现出了高效、便捷的特点。这些在该书中都进行了翔实的论证。
从整体上来看,当前的语料库研究成果系统、丰硕,研究人数与团队不断增加,语料库语言学的研究深度也已经达到了很高的水平,反观字料库的建设与研究却显得势单力薄,方兴未艾。我们有理由相信,在该书理论及实践的引导下,未来字料库的建设与字料库汉字学的研究会像语料库那样向着更深入、更系统、更完善的方向发展,会形成一批高水平的学术团队,发表一系列高质量的研究成果,建立起多个像BCC语料库那样开放共享的字料库平台,为科学的全汉字整理与汉字学研究提供数据支持。