文 / 孙尊章 徐凌
《论语》中古注疏语料库的建设
文 / 孙尊章 徐凌
古代汉语语料库的研究,还有很大的发展空间。专题小型语料库的建设,能够为研究带来极大的便利。建设思路可包括:对电子文本进行校对;将语料进行分离,剥离不需要的语料,将需要的语料进行分类;对语料进行加工,包括分词和词性标注。
论语;中古;注疏;语料库
随着计算机的普及和信息技术的发展,科研工作中越来越多地使用到了语料库,这为我们的研究带来了极大的便利。语言的研究应基于语言事实来展开。因此,它需要占有尽可能详尽的语料。传统的语言学研究,靠人工来收集、分析语料,耗时太大,枯燥且易出现错误。汉语史研究中语料库的使用,能够使我们的研究建立在坚实的语料基础上,使我们的研究更有说服力。
但相对于现代汉语和外语而言,古代汉语语料库的建设还处于较弱的位置。我们在从事《论证》中古注疏研究时,建设了一个《论语》中古注疏的小型语料库,主要包括《论语》正文、何晏注及皇侃义疏。现将建设思路略作解析,以就正于方家。
首先,选用已有的电子版本进行校对。已有的电子版本大多较粗糙,不仅有大量的错别字,甚至存在大段缺失的情况。因此,我们先使用善本对它们进行了校对。
我们选取的底本是中华书局1998年出版的四部要籍注疏丛刊《论语》。此本选用的是清同治十二年粤东书局据《知不足斋丛书》本刻《古经解汇函本》。
参考的校本有以下两种:
其一,《儒藏》精华编104册经部四书类《论语义疏》。此本原为1923年日本大阪怀德堂的排印本,由武内义雄据日本国内多种古抄本合校而成,其特点是保持了抄本皇侃《义疏》的体式,而不像根本逊志刻本那样将皇侃《义疏》的体式完全比照中国习见的注疏体式作过改动。
其二,《儒藏》精华编281册出土文献类《唐写本论语集解》。20世纪初以来,敦煌及吐鲁番等地出土了唐人写何晏《集解》单行本60多件,同时还有白文《论语》、《论语郑氏注》和《论语皇侃义疏讲经提纲》。此本既以《集解》写本为底本和校本对校,并以白文《论语》、《论语郑氏注》及有关刊本为参校本,并参考《论语皇侃义疏讲经提纲》进行整理与研究,也有一定的参考价值。
在语料整理过程中,我们还参考了清吴骞撰《皇氏论语义疏参订十卷附录一卷》,《续修四库全书》第153册,经部·四书类等。
我们在将文本进行了多次校对之后,得到了一个错误尽可能少的《论语》中古注疏语料。在这个基础上,将语料进行分离。把语料中的四种类型分别用不同的颜色标上。黑色,包括注疏用语、注中全部引用《论语》原文的话、疏中全部引用《论语》原文或何注的话。这部分是不列入研究范围的、需要剥离的语料;橙色,属于《论语》正文;红色,属于何晏注;蓝色,属于皇侃疏;再利用POI技术对文档进行分享操作。POI技术中的HWPF介面的主要功能是读写Word,完成提取Word正文文本、批注、Word总页数、总页数等一系列操作,功能强大且易用。借助它,我们可以方便地将正文、何注和皇疏分别分离到三个word文档中。同时去除文档中的标点,得到了纯净的文本。方法如下:
POI下载解压后,首先将POI中操纵Word有关的包导入项目中,然后创建一Java类,在类中导入java.io包中的File、FileInputStream类,poi包中的Now、HWPFDocument、CharacterRun和Range等类。
我们分别将三个文档,用“MyTxtSegTag分词和词性标注工具”进行初步的分词及词性标注。不过,这个软件对繁体字无法识别,必须先将语料转化为简化字之后再操作。另外,这个软件对古代汉语语料的分词和词性标注错误较多。用它操作完毕后,还必须进行详细的人工校对。
完成分词和词性标注后,我们将得到的内容,转入excel表格中,何晏注和皇侃疏各建立一个excel表格。每一个词及其词性标注内容,都占用一个单元格,每一行只存放一个词。
在何晏注和皇侃疏这两个excel工作薄中,分别建立以下工作表:
(1)原文:这是直接从word中转换到excel表格中的内容。
(2)排序后:这个表里面的数据,是将所有数据按音序排列后的内容。
(3)去除重复后:将排序后的数据,通过excel表格“筛选”中的“高级筛选”功能,勾选“选择不重复的记录”,并设置“将筛选结果复制到其它位置”,在“复制到”里面选择B1单元格。由此去除重复的记录,即词形和词性都完全相同的记录,只保留一个。
(4)按音节排序:将去除重复记录后的数据,再一次按音节排序。
(5)去除被释词:在前面的词性标注中,已经将所有被释词等不需要列入统计的语料,用“bj”进行了标注。在此表中,删除所有带有“bj”字段的单元格。它的方法有许多,下面提供两种办法。其一,点击“编辑”菜单,选择“查找”功能,在“查找内容”框中输入“bj”,并点击“查找全部”,再在查找结果框中全选,然后在工作表上点右键,选择“删除”,在弹出的对话框中选择删除“整行”。其二,点击“编辑”菜单,选择“替换”功能,在“查找内容”框中输入“*bj”,“替换为”框中不输入任何数据,并点击“全部替换”。这样,所有带被释词的单元格,都变成了空白单元格。之后,我们再将所有空白单元格删除。它的方法是:选定需要去除空白单元格的列,再点击“编辑”菜单,选择“定位”功能,在“选择”下面的内容中,选择“空值”,(如图)然后右键点击工作表,在弹出的菜单中选择“删除”,并选择“下方单元格上移”。
说明:“*bj”,表示带有字符“bj”的单元格的所有内容。
(6)单音词:将“去除被释词”工作表中的数据导入到此表中,再在B1单元格里输入“=LEN(A1)”,填充至Bn单元格。在C1单元格输入“=MID(A1,2,1)”,填充至Cn单元格。
说明:“=LEN(A1)”的目标是,在B1单元格中返回A1单元格的字符数。
“=MID(A1,2,1)”的目标是,在C1单元格中返回A1单元格中的第2个字符的内容。
若B1单元格显示的是3,表明A1单元格的字符数是3个,那么A1单元格里面的词肯定是单音词。若B1单元格显示的是4,表明A1单元格的字符数是4个,那么A1单元格里面的词有可能是单音词,也有可能是复音词。因为在标注词性时,有些词的词性是用两个字母来标注的,如助动词,用的是vu,再如人名,用的是nh。这就需要第二步的判断。
若C1单元格显示的是“/”,表明A1单元格的第二个字符不是汉字,而是汉字和词性标注之间的符号“/”,那么A1单元格里面的词肯定是单音词。若C1单元格显示的不是“/”而是汉字,则表明A1单元格的第二个字符是汉字,说明A1单元格里的词是复音词。
以上数据得出后,再进行“排序”中的“自定义排序”操作,设置“主要关键字”为“列B”,“次要关键字”为“列C”,“第三关键字”为“列A”,都使用“升序”排列。这样,所有B列为3的,或B列为4同时C列为“/”的数据,都排在了前面。这些全部是单音词。保留这些数据,删除其它,就得到了单音词表。
(7)双音词:将“去除被释词”工作表中的数据导入到此表中,再在B1单元格里输入“=LEN(A1)”,填充至Bn单元格。在C1单元格输入“=MID(A1,3,3)”,填充至Cn单元格。得出数据后,再按前面的办法,继续进行“排序”中的“自定义排序”操作。所有B列为4同时C列为汉字而非“/”的数据,或B列为5同时C列为“/”的数据,都排在了前面。这些全部是双音词。保留这些数据,删除其它,就得到了双音词表。
(8)三音词:将“去除被释词”工作表中的数据导入到此表中,再在B1单元格里输入“=LEN(A1)”,填充至Bn单元格。在C1单元格输入“=MID(A1,3,3)”,填充至Cn单元格。
得出数据后,再按前面的办法,继续进行“排序”中的“自定义排序”操作,内容同上。所有B列为5同时C列为汉字而非“/”的数据,或B列为6同时C列为“/”的数据,都排在了前面。这些全部是三音词。保留这些数据,删除其它,就得到了双音词表。
(9)四音及以上词:除了刚才所列的“单音词”、“双音词”及“三音词”三类之外的所有其它“去除被释词”工作表中的数据,都归入此表。于是,我们得到了“四音及以上词”的数据。
(1 0)单音词词类统计:将“单音词”工作表中的数据导入此表。再在B1单元格里输入“=MID(A1,3,2)”,填充至Bn单元格。之后用“排序”里面的“自定义排序”功能,设置“主要关键字”为“列B”,“次要关键字”为“列A”,都使用“升序”排列。
(1 1)双音词词类统计:将“双音词”工作表中的数据导入此表。再在B 1单元格里输入“=MID(A1,4,2)”,填充至Bn单元格。之后用“排序”里面的“自定义排序”功能,设置“主要关键字”为“列B”,“次要关键字”为“列A”,都使用“升序”排列。
(12)双音词结构分析统计:将“双音词”工作表中的数据导入此表。按照对双音词结构判断的标准,对除专有名词在外的所有双音词进行结构分析。之后再将它们排序,分析统计双音词的结构。
(13)词语使用频率统计:将“原文”工作表中的数据导入此表。先去除被释词(方法同上),再在B1单元格里输入“=COUNTIF(A:A,A1)”,填充至Bn单元格。之后用“排序”里面的“自定义排序”功能,设置“主要关键字”为“列B”,“次要关键字”为“列A”,都使用“升序”排列。
通过以上步骤,建立起《论语》中古注疏语料库后,我们可以更好地统计分析《论语》中古注疏语言的情况,提高语言研究质量。在词汇研究中,这可以快捷地统计词汇的使用频率、单音词和复音词的基本信息,以及词语搭配的规律。在语法研究中有了这个语料库作为坚实的基础,可以高效地统计双音词的结构,对《论语》中古注疏语料的词类进行穷尽性研究。
[1]四部要籍注疏丛刊本.论语[M].北京:中华书局,1998.
[2]北京大学《儒藏》编纂中心.论语义疏[M].北京:北京大学出版社,2007.
[3]北京大学《儒藏》编纂中心.唐写本论语集解[M].北京:北京大学出版社,2007.
[4](梁)皇侃.论语义疏[M].北京:中华书局,2013.
[5](清)吴骞.皇氏论语义疏参订十卷附録一卷[M],上海:上海古籍出版社,1996.
[6]黄青云,裴冬菊.POI在Word文档不同颜色文本分离中的应用研究[J].南昌工程学院学报,2014(3).
江西省高校人文社科项目“《论语》汉魏六朝注疏词汇研究”(项目编号:YY1524)、国家社科基金重大项目“汉语词汇通史”(项目编号:14ZDB093)、江西省社会科学规划项目“六朝至宋《论语》四种注疏词汇比较研究”(项目编号:17YY07)的阶段性成果。
(责任编辑:虞志坚)
孙尊章(1979-),男,广东梅州人,博士,江西农业大学人文与公共管理学院教师,研究方向:汉语史。
徐凌(1977-),女,河南鹿邑人,四川大学文学与新闻学院博士研究生,江西农业大学人文与公共管理学院教师,研究方向:汉语史。
G256;H13
A
1005-9652(2017)05-0174-03