字书字料库异体关系拓扑图的设计与实现

2022-06-18 02:45柳建钰
关键词:异体字字书字段

柳建钰,秦 冕

(渤海大学 文学院,辽宁 锦州 121013)

字料库(Chinese Character Form Database)是指以文字的整理和文字学的研究为目标,按照语言学和文字学的原则,收集实际使用中能够代表特定文字或文字变体的真实出现过的文字书写形态,运用计算机技术建成的具有一定规模的大型电子文字资源库[1]。字料库的出现为新时代的汉字学研究提供了崭新的研究方法与手段。字料库不仅可以存储和加工海量字料数据,而且可以在此基础上为汉字字际关系研究提供强有力的平台与数据支撑,是当前汉字字际关系研究不可或缺的有力工具。

异体关系是汉字字际关系典型类型之一,也是目前所有字际关系中最受学者关注、研究难度相当大的一种类型。在建设字书字料库的过程中,我们对学界汉字异体关系研究的理论与实践进行了深入考察,并对字料库异体关系标注问题进行了充分探讨[2]。随着研究的不断深入,我们对字料库异体关系整理的相关问题有了新的思考。比如对于异体关系层级系统的标注与图形化展示就是当前一个非常值得关注的问题。李国英先生根据异体字形成的方式,将异体字分为异构字和异写字两种类型,并认为整理异体字最好把异构、异写的层级关系描写清楚,排比出谱系[3]。周晓文等学者从汉字字形整理的角度将字形分为字种、字式、字样三级单位,通过选取字种代表字串联起整个异体关系层级系统,其中代表字下一级为字式组(异构关系),字式组下一级为字样组(异写关系),由此将一组异体字分成三个层级[4]。郭敬燕在此基础上在代表字下又分出一级异体字、二级异体字等层级,其中一级异体字只有异构字,二级(或以上)异体字主要为异写字[5]。孙建伟认为区分异写字、异构字的核心标准为构形理据,由此他进一步指出,异写字包括笔画层面的异体字和静态的构件层面的异体字两类,异构字指动态的构件层面的异体字。同时,他对古文隶定字与传承字、手写变异字与传承字、避讳字与传承字、讹字与正字、造意本不同但在使用中功能重合之字的异写、异构关系进行了讨论[6]。邱龙升认为同一异体字组的异体字产生有先有后,应该从异体字的动态演变顺序来构建异体关系层级系统。他认为异体字主要有三级,每一层级与本字之间的关系逐渐疏远[7]。这些学者的研究成果为我们进一步研究该问题打下了坚实基础。

本文将以渤海大学CCFD 字书字料库异体关系的标注为研究对象,介绍字料库异体关系界面现有标注系统,总结其优点与不足。在此基础上,提出增加“异体关系拓扑图”界面的优化意见,并详细阐述这一界面所包含的主要内容、标注流程、标注示例以及应用价值等相关问题。

一 字书字料库现有异体关系标注系统概说

本部分主要介绍字书字料库现有异体关系标注系统,包括九个基本字段以及三大标注层次,并归纳现有系统的优点与不足。

(一)现有异体关系标注系统简介

渤海大学CCFD 字书字料库是国内首个字书字料库系统,它以历代字书中真实出现过的字料为收录对象,对字料进行了包括字头基本信息、字头构形信息和字际关系信息在内的全方位标注。目前,字书字料库已收录历代字书近70 部,标注完成的字料信息达200 多万条。字书字料库将所需标注的汉字基本属性如“字体类别”“构形模式”“笔画数”“构件组合类型”等都设计成字段存放于不同的界面之中。现有异体关系界面标注系统所设计的基本属性字段如图1 所示。

图1 字书字料库现有异体关系标注界面

具体来说,包括字头列表、异体字头、狭义或部分、异体产生原因、异体产生途径、异体关系大类、异体关系中类、异体关系小类、相关参证文献等九种。基本标注框架可分为三个层次,每个层次之间相对独立,可以相互组配,以求最大限度地标注出每个异体字的区别性特征。

第一层次:将异体字分为“狭义异体字”与“部分异体字”。这组名称来源于裘锡圭先生,他将用法(音义)完全相同的字称为狭义异体字,将用法(音义)部分相同的字称为部分异体字,两者合在一起称为广义异体字[8]。设计这一字段的主要原因在于要兼顾汉字整理层面与学术研究层面两方面的需要。

第二层次:根据异体字的产生原因及途径对异体字进行划分,“汉字系统自身原因”下对应“造字方法不同”“字体演变”“使用流通”“其他原因”四种途径;“汉字系统外因”下对应“历史原因”“地域原因”“社会政治原因”“其他原因”四种途径(本部分主要参考了章琼先生《现代汉语通用字对应异体字整理》的研究成果)[9]。

第三层次:根据汉字构形学理论进行划分,首先将异体关系分为“异写字”“异构字”“复生异体字”三大类。“异构字”下可分为“构形方式相同”与“构形方式不同”两个中类。“异写字”下可分为“笔画异写字”与“构件异写字”两个中类。“复生异体字”下可分为“两种以上异写”与“异构且异写”两个中类。六个中类下又进一步作了切分,共分为47 个小类。大类、中类与小类之间可以在程序内实现关联互动。

(二)现有异体关系标注系统的优点与不足

字书字料库现有异体关系标注系统从三个层次六个小类对异体关系进行了全面分析,其优点在于:首先,将狭义异体字与部分异体字共同收录,再以字段属性选项的形式予以区分,有利于兼顾汉字整理层面与学术研究层面的不同需求;其次,从异体字产生的原因以及途径对异体字进行梳理,拓宽了异体关系分类与研究的视野,有助于从动态角度把握和研究异体关系;最后,对异写字与异构字进行了细致区分,尽可能全面地展现异写字与异构字内部的细微差别。三个层次从不同角度对异体关系进行了划分与整理,从而形成了一个多元立体的异体关系标注系统。

但现有标注系统也存在不足。首先,现有标注系统将异写与异构所判定的对象分为两类,一是字种正字,一是其他异体字。系统将所有异体字置于同一层面上进行异写、异构的判定。然而异写与异构并非位于同一层次,每一个异构字都可能产生异写字,异写字处于异构字的下位次[10]。若是将一组异体关系中的每一个异写字与异构字都直接同字种正字进行异体关系对比归类,势必会引发断链甚至判断失误的问题。如:“流”与“”,《汉语大字典》(第二版)中沟通了二者的异体关系,可他们在字形上相去较远,沟通起来比较困难。实际上,“流——”三字本是因简省笔画和形体混同而产生的一组异写字,“流”字异写为“”,之后“流”又异写作“”(详见下文)。若忽视这一演变过程中的关键链条而直接沟通“流”与“”的异体关系,便会引发无法沟通或牵强附会的问题。

不仅如此,异体关系还存在层级系统性,即父级与子级的关系,一组异体字中任意一个成员都有可能产生其异写或异构形体,此时这一成员相对于由它产生的异写或异构形体来说属于父级字,而由它产生的异体字属于子级字,如此层层推衍开来,便构成了异体关系的层级系统。描写和展示异体关系的层级系统有助于理清异体字组诸多字形的衍生顺序,对包括异体关系认同、字位主形的确定、字种正字的优选等在内的异体字整理工作具有重要价值。但这一层级系统在字书字料库异体关系现有标注系统中尚无法得到体现。

鉴于此,对异体关系属性库现有标注字段进行优化补充就显得非常必要,而要将异体关系的层级系统信息体现在现有异体关系属性库中,需要借助异体关系拓扑图来实现。

二 异体关系拓扑图的主要价值

拓扑图是从拓扑学引用的名称,又称拓扑结构图,它由多个节点和链路构成网络结构,是一种能够以简单化和规则化的图形来传递信息的量化图,也是当前大数据可视化技术采用的主要有效表现形式之一。所谓异体关系拓扑图,就是以拓扑图的形式来展现异体关系的层级系统信息。在字书字料库框架内设计并实现异体关系拓扑图具有多方面的重要价值。

首先,异体关系拓扑图可以清晰直观地展现异体字组内诸成员的父子、兄弟关系以及他们的动态衍生过程。只要理清了衍生过程,不论是位于哪一层级的异体成员,都能做到“身世清晰”。异体字的产生有一个积少成多的过程,一组异体字中,哪一个字是字种正字,哪一个(或几个)字是由字种正字演变而来的二级字,哪一个(或几个)字是由二级字演变而来的三级字……弄清楚这些问题,对于异体字整理工作至关重要。借助异体关系拓扑图来实现对异体字的分级整理,就可以使一组异体字的动态衍生过程清晰、简洁地展示出来。

其次,异体关系拓扑图可以将异写与异构之间的复杂关系清晰地展现出来。一般来说,异写是异构的下位层次,异写字是异构字形体书写变异而形成的。但实际上,每一个异构字或者异写字都有可能产生新的异写与异构形体,异写与异构的层级关系并不像我们想象的那样简单。通过异体关系拓扑图,我们可以将复杂的异写、异构关系清晰化,有利于进一步总结异写字、异构字产生与发展的具体规律。

再次,异体关系拓扑图可以与字书字料库现有的异体关系标注系统互为补充。字书字料库现有异体关系标注系统重在分析异体字的产生原因、产生途径以及异写与异构及其小类。而异体关系拓扑图重在展现异体关系内部的层级系统以及一组异体字的动态演变过程,二者相互补充、互为表里,不仅能够最大限度地将一组异体字所涉及的各种现象分析清楚,而且能够同时满足学术研究层面与汉字整理层面的双重需求,进一步扩大字书字料库异体关系界面的服务范围[11]。

三 字书字料库异体关系拓扑图的设计

前文说过,异体关系拓扑图是以拓扑图的形式来展现异体关系的层级系统信息。要实现如上功能,可以将“异体关系拓扑图”设计为一个独立界面补充在字书字料库现有异体关系标注系统中,标注完异体关系相关属性后,就可以在拓扑图界面显示出异体关系的层级系统信息。下面,本文将依次对异体关系拓扑图界面设计过程中涉及的层级单位、标注原则、所含字段、异体关系标注流程以及注意事项等五个方面的问题进行探讨。

(一)层级单位

构建异体关系层级系统的前提是要确定汉字的层级单位。王宁先生将汉字分为三个层面。(1)字样。在同一形制下,记录同一个词,构形、构意相同、写法也相同的字称为一个字样。字样是认同别异的基础单位。(2)字位。在同一体制下,记录同一个词,构形、构意相同,仅仅是写法不同的字样,称作异写字。异写字认同后归纳到一起,称为一个字位。(3)字种。形体结构不同而音义都相同、记录同一个词、在任何环境下都可以互相置换的字,称作异构字。异构字聚合在一起,称为一个字种[12]。本文采取王宁先生的单位名称与内涵,以字样、字位、字种三级单位来指称异体关系内部的层级关系。层级单位确定之后,便可以选取代表字了。异体关系中的代表字分别为字位主形与字种正字。字位主形是一组异写字中的代表字形。一般来说,一组异写字中,有一个字样为本字,其他字样均为本字的书写变体,选定字位主形时,优先选取这一字样。字种正字是一组异构字中的代表字。字种正字往往优先选取现代汉语通用字字形,有时这些字形并非本字,也并非构形理据最完整的字,但是它在使用中流通度最高,具有代表意义以及辨识度。由此异体关系层级系统便可以建立起来了。

(二)标注原则

1.开放性原则

一组异体字其内部成员的数量往往是不固定的,它会受到所选取字书不同、采集标准或手段不同、支撑材料的多寡等多种因素的影响。以“流”字为例,《汉语大字典》(第二版)中收录“流”的异体字为9 个,而台湾《异体字字典》(第六版)中收录“流”的异体字有21 个,多出来的大都是异写字形。收字数量的不固定直接导致了拓扑图层级数的不固定。字书字料库目前所收异体字以《汉语大字典》(第二版)为字料基础,随着入库字书字料的不断增加以及学界研究成果的不断丰富,字料库所收异体字的数量也会不断增加。因此,异体关系拓扑图标注必须遵循开放性原则,要随时准备迎接更多异体成员的加入。

2.共时性与历时性相统一原则

虽说异体关系的判定要在共时层面或同一形制下进行,但这并不妨碍我们从历时的角度来考察异体关系的动态演变过程。共时层面上的异体字随着时间的累积,有一部分会彻底“消亡”不再使用;有一部分功能发生变化,异体特征消失;有一部分固定下来,进入新的形制并一直保持其原有的异体关系;还有一部分是由原有字形产生的字形变体,这些字形变体经过使用流通后固定下来,源源不断地进入原有的异体关系中,历代字书收字数目的不断增加很大一部分是这些新增异体字的“贡献”。因此,我们现在所看到的楷书层面上的异体字,其内部实际上是具有动态层级系统的,层级之间具有父子关系。子级字由父级字产生,同时又可以作为父级字产生新的子级字。异体关系拓扑图既要在同一形制上沟通一组字的异体关系,同时又要通过层级关系来展现一组异体字的动态演变过程,要满足共时性与历时性相统一原则。

3.异写关系与异构关系区分原则

异写本是异构的下位层次,异体关系拓扑图的建立正是为了清晰地展现一组异体字中异写与异构的层级关系,因此必须将异写与异构进行明确区分。但若想仅通过层级来表现异写与异构的区别是不现实的,因为异写与异构并非绝对地分层而立。同一字样,既可以存在其异写字,同时又可以存在其异构字。例如通过调查字书字料库可知,“哲”字既有两个异构形体“悊”“嚞”,又存在“埑”“啠”“”“”四个异写形体,它们均与“哲”字直接相关,因此都应位于“哲”的下一级。此时层级已经不能区分异写与异构了,因此我们采取不同形式的连接线来区分异写与异构,异构字我们以粗线来连接,异写字以细线来连接,如此一来,便能清晰地显现同一层级中哪些字是异写字,哪些字是异构字。

4.狭义异体字与部分异体字兼收原则

学界对于异体字的界定存在广狭之分。从功能上说,音义全同的异体字为狭义异体字,音义部分相同的异体字为部分异体字,二者合在一起称为广义异体字。《汉语大字典》(第二版)、《通用规范汉字表》等权威性字书、字表均将狭义异体字与部分异体字共同收录。这是因为二者能够在不同层面上发挥作用。狭义异体字整理主要在学术层面发挥作用,广义异体字整理主要在应用层面发挥作用。一旦把部分异体字纳入异体字的整理范畴,许多音义部分相同的字形将会被取消,但实际上这些字形的记词职能并没有完全被保留下来的字取代[13],这就会影响表达的准确性,造成学术研究上的不便。汉字整理的任务是要告诉人们使用汉字时要用哪个字形或者不用哪个字形,将部分异体字作为整理对象是具有合理性的。异体关系拓扑图的建立既要满足学术研究的需要,又要在汉字整理层面发挥作用,因此必须将狭义异体字与部分异体字共同纳入拓扑图当中。

虽然要将狭义异体字与部分异体字共同纳入拓扑图中以便研究,但也不能将二者混淆,否则会造成使用者的混乱。为了在拓扑图中将二者清晰地区分开来,我们采取了不同的标注方式,狭义异体字用蓝色线条连接,部分异体字用红色线条连接。

(三)所含字段

字书字料库异体关系拓扑图界面除了拓扑图图形本身,还应包括“异体字头”“狭义或部分”“异写或异构”“所属层级”“父级异体”“子级异体”六个基本字段。每一组异体字的异体关系拓扑图,都是在这六个基本字段的标注过程中形成的。其基本界面如图2 所示。

图2 异体关系拓扑图界面

1.异体字头

此字段下设选项与字书字料库现有异体关系界面的“异体字头”字段下设选项保持一致,随着异体关系界面“异体字头”的变化而变化。设置此字段的意义在于存放异体字头,用于拓扑图的点选标注。

2.狭义或部分

此字段下设选项与字料库现有异体关系界面的“异体字头”字段下设选项保持一致,用于区分狭义异体字与部分异体字。这一字段的标注结果直接反映在拓扑图中所标注异体字的连接线颜色上,此字段选择狭义异体字,拓扑图中的异体字连接线颜色为蓝色;选择部分异体字,拓扑图当中的异体字连接线颜色为红色。

3.异写或异构

这一字段用于标注异体字的类别,某一异体字究竟属于异写字还是异构字是异体关系拓扑图标注的关键属性,也是标注难度最大的属性。对于这一属性的判定要参考字料库异体关系界面现有的标注成果以及其他参证文献,且判定结果需要经过专业人员校验审查。这一字段的标注结果直接反映在拓扑图中所标注异体字的连接线上,此字段选择异写,连接线为细线,此字段选择异构,连接线为粗线。

4.所属层级

虽然异体关系层级单位只有字种、字位、字样三级,但异体关系层级系统可以是多层的,层级数根据异体关系的复杂程度而定,因此这一字段下虽然设置了“一级”“二级”“三级”等选项,但级数可以自由增加,以保证层级系统的开放性与包容性。此字段与拓扑图自动关联,标注者通过为异体字头中的某一异体字标注层级数,来固定这一异体字在拓扑图中的位置;而用户可通过点击拓扑图当中的某一异体字,来观察这一异体字在此字段中显示的层级数。其中一级为字种正字,照此顺序向下排列字级。

5.父级异体

此字段包含的选项与异体字头内选项保持一致,可通过点选来标注某一异体字在拓扑图中的父级字也就是其来源字或上位字。通过这一字段可以展现某个异体字的来源。异体字的父级字只能有一个。

6.子级异体

此字段包含的选项与异体字头内选项保持一致,可通过点选来标注某一异体字在拓扑图当中的子级字(也就是变形字或下位字)。要注意的是,一个异体字只能有一个父级字,但可以有一个或多个子级字,故而此字段是多项选择字段,可以同时选择一个或多个异体字头。

(四)代表字的选取

前文提到,在异体关系拓扑图当中字位主形与字种正字发挥着系联与统领整个系统的重要作用,因此必须要按照一定的原则选取代表字。字位主形是一组异写字中的代表字形;字种正字即一组异构字中的代表字形。选取代表字是为了将字位与字种内的不同形体串联起来,使其层级关系清晰明确。

首先,代表字的选取因目的和适用范围的不同而不同。例如用于中国大陆地区现代社会用字规范的异体字整理,其代表字应该优先选取规范的简化字;而用于中国台湾地区社会用字规范的异体字整理,其代表字就应该优先选取台湾地区社会所通用的规范繁体字。其次,代表字的选取必须坚持一致性原则,要用新字形作代表字,层级系统内的所有代表字都应选取新字形。要用旧字形作代表字,那么层级系统内的所有代表字都应选取旧字形[14]。再次,代表字必须具有值得被优先选取的特性。王宁先生提出了字形优选的五项标准:“1.有利于形成和保持严密的文字系统。2.尽量保持和维护汉字的表意示源功能。3.最大限度地减少笔画。4.字符之间有足够的区别度。5.尽可能估计字符的社会流通度。”[15]根据这五条标准并结合异体字整理与标注的实际情况,我们认为,在选取字位主形与字种正字时,应该优先选取社会流通度高且具有辨识度与代表性的字形(这项工作需要首先建立基于大规模古今真实文本的汉字字料库,在此基础上生成古今文本用字字频统计数据,从而确定字符的社会流通度);在流通度差距较小的情况下,应该优先选取构形理据更为完整的字形。

(五)异体关系标注流程

异体关系拓扑图对异体关系的标注流程为:首先,进入字书字料库异体关系界面点击拓扑图按钮,进入当前字头的拓扑图标注界面,此时字种正字已经位于拓扑图中一级字的位置上了;其次,将界面现有标注系统内的字段与拓扑图内的字段进行系联对接,即将现有系统内“异体字头”字段中的内容对接到拓扑图中“异体字头”“父级异体”“子级异体”三个字段当中,将现有标注系统“狭义或部分”字段中的内容对接到拓扑图中“狭义或部分”字段,完成标注前的准备工作;再次,由专业人员对当前字头的异写异构、层级数、父级异体、子级异体等属性进行标注。随着标注工作的进行,异体关系拓扑图也会随之建立。等标注工作完成,异体关系拓扑图也建立完毕。最后,对照拓扑图的演示图示对异体层级系统标注内容进行校验审核,若有错误及时改正,若无错误,点击保存。

需要特别指出的是,拓扑图当中的每一层级都可能产生不同的“字位主形”或“字种正字”。作为子级字的上层代表字,父级字不是一组异写字的主形,便是一组异构字的正字。但是如此多的“字位主形”与“字种正字”放在一起势必会为异体层级系统的梳理与构建带来不便,而且这些“字位主形”与“字种正字”是同一系统中的不同层级的代表字。为了更好地串联一组异体字的所有成员,使其层级关系清晰明确,不论异体关系存在多少层级,一组异体字中的字种正字只指位于一级层次的那个字样,字位主形指的是优选出字种正字的那一组候选字形,其余层次的父级字均用代表字来指称即可。

四 拓扑图系统与字料库现有异体关系系统的对接

字料库中现有异体关系标注系统可以清晰展现异体字的产生原因、产生途径、异写或是异构以及异写与异构的具体类型,但是现有标注系统只能显示字种正字与其他每个异体字之间的单线联系,而不能显示该组异体字的层级系统信息。如此一来,与字种正字不直接相关的那些异体字的来源、关系以及整个异体字组的演变过程及规律都无法得到有效体现,由此产生了一些标注方面的问题。而异体关系拓扑图能很好地解决这一问题,通过拓扑图所展示的层级系统,我们可以清晰地看到异体字之间的关系,理清每个异体字的来源及演变过程,异体字组内诸成员的发展脉络便清晰可见。由此可见,异体关系拓扑图与字书字料库现有的异体关系标注系统互为补充,二者结合在一起,不仅能够把握异体字的整体分类,而且可以理清异体字的内部层级系统,真正达到科学、系统、大规模地整理异体字的目标。

异体关系拓扑系统是在字书字料库现有异体关系标注系统的基础上进一步发展起来的。拓扑系统标注的字料来源以及层级数、父级子级、异写异构的判定依据均以现有系统的标注成果为基础,这就要求拓扑系统在建设过程中必须要做好与现有系统的对接工作。想要做好这一工作,首先要找出二者的共同点。第一,拓扑系统中的异体字头、父级异体、子级异体、狭义或部分可以与现有系统的标注成果直接对接。第二,拓扑系统是按照异写和异构来进行层级划分的,而现有标注系统已经对一组异体字的异写与异构关系进行了初步整理,虽然只是字种正字与其他字形的直接对比结果,与拓扑系统存在本质区别,但我们仍能间接利用现有标注成果对其内在层级关系进行判断,使拓扑系统的标注工作“有理可依”。因此,在进行异体关系现有系统的标注工作时,要有意识地标注出异体字之间的父子关系,为拓扑系统的标注工作打好基础。

五 字书字料库异体关系拓扑图标注举例

下面以“流”字为例,对字书字料库异体关系拓扑图进行标注实验。

“流”字在《汉语大字典》(第二版)中的异体字有9 个,分别是“”“”“ ”“”“”“”“”“”“”。下面我们进行逐字分析。

5.

同“流”。《玉篇·水部》:“ ,古文流。”[20]

图3 “流”字异体关系拓扑图

六 结语

以上,我们以渤海大学CCFD 字书字料库异体关系的标注为研究对象,介绍了字料库异体关系界面现有标注系统,总结了其优点与不足,又提出了增加“异体关系拓扑图”界面的优化意见,并详细阐述了这一界面所包含的主要内容、标注流程、标注示例、应用价值等相关问题。

异体关系拓扑图将异体关系数据转化为视觉图像,能够帮助我们高效直观地获取数据中蕴含的异体关系层级信息,使我们有可能更容易发现数据背后隐藏的异体发生规律,是当前异体关系整理与展示模式的重要变革,将会成为当前异体关系深入整理的主要研究对象之一。与此同时,字料库这一数字化汉字整理新平台的问世为当前异体关系层级系统的建构提供了海量的字料基础和强大的技术支持,无疑会将异体字科学化、可视化整理工作推向一个新的高度。希望学界能够积极关注并投身于基于字料库的异体关系拓扑研究,共同推进汉字异体整理研究工作的顺利深入开展。

【责任编辑 王 涛】

猜你喜欢
异体字字书字段
东巴文字典异体字的整理与编纂规范
带钩或不带钩选择方框批量自动换
我国古代字书刍议
汉文佛典:谱写汉字研究新篇章
清代《崇儒尊释双龙告示碑》考释
简化字规范问题例说
雁字书
无正题名文献著录方法评述
无正题名文献著录方法评述
“无字书”