先秦文献信息处理的最新力作

2022-05-22 11:43匡海波谭昕
文教资料 2022年4期

匡海波 谭昕

摘 要:北京大学出版社出版的《基于注疏文献的〈孟子〉信息处理研究》一书是对《孟子》及其注疏进行信息处理的研究。本文从文献自身、横向比较、利用注疏三个层面来分析梁著的基本框架、研究思路和研究价值,并介绍该书如何创新地借用中文信息处理方法进行古文献信息处理。

关键词:注释文献 中文信息处理 古文献信息处理

古文献信息处理作为数字人文的重要研究领域之一,近年来尤为引人注目。古文献信息处理对于我国古代典籍整理传承和古代历史语言文化研究,其重要性不言而喻。如何利用现代化的计算机方法,拓宽古文献研究思路,则同样是古汉语学界、语言学学界以及计算机学界都非常关心的研究课题。

二十世纪七八十年代,古文献信息处理起步于古文献电子化[1],经过三四十年的发展已经有了众多研究成果,但仍存在不小的进步空间[2-3],主要表现在大量传世及出土文献没有进行数字化,经过信息处理的文献只能说“九牛一毛”。另外,目前的古文献数字化往往只是浅层处理,尚不能为古汉语研究提供更深层次的数据支撑。基于计算语言学方法的古汉语语法、语义、语用研究还比较少见。实际上,如果只是对古籍进行单纯数字化,则大有“暴殄天物”

之嫌。

就先秦传世经典的信息处理而言,这些经典的注疏文献实际上是最好的语言材料。所谓“注疏文献”,其实是后人由于去古已远,无法对古文献进行直接阅读,而所作的随文注释。“注疏”包罗万象,包含文字、音韵、训诂等各方面内容。基于注疏文献的古文献信息处理是学者对于古文献注疏的一种延续和继承,只是我们有了现代化的信息处理手段,理应做得比前人更细更好。而基于注疏文献进行信息处理的主要难点在于,如何从非结构化的注疏文献中抽取并识别我们想要的语言知识。

梁社会博士撰写的《基于注疏文献的〈孟子〉信息处理研究》(北京大学出版社2021年出版,以下称“梁书”)分为五章[4],属于利用注疏对古文献专书进行信息处理的研究。我们将从文献自身、横向比较、利用注疏三个层面来分析梁著的基本框架、研究思路和研究价值,并介绍梁书如何创新地借用中文信息处理方法进行古文献信息处理,以期为后续工作者提供思考。

一、文献自身轴:《孟子》深层次信息处理

上文有所表述,大量古文献没有进行信息处理,但急于对大规模跨时代古文献进行批量处理,难免“眉毛胡子一把抓”。同时,古文献信息处理的研究范式本身就尚未形成,不同时代文献的处理方法是否具有迁移性,还需要深入研究。因此,针对某一部断代专书进行研究,理所应当。

梁书选取了《孟子》作为信息处理对象。据其介绍,其大致理由有三:一是《孟子》及其注疏在十三经注疏中篇幅较长(《孟子》约4万字,《孟子注疏》约27万字,《孟子集注》约12.1万字,《孟子正义》约33.3万字),相较于大多数十三经文献便于统计和机器学习;二是针对《孟子》的自动分词、词性标注、词义消歧研究尚属空白,亟待进行拓荒;三是《孟子》流传甚广,语言风格明显,修辞使用广泛,专于逻辑说理,便于进行语言风格计算。这三条理由是完全站得住脚的。

梁书中对《孟子》的处理流程包括自动分词,词性标注,语义消歧,风格计算等。经过这一系列的纵向处理,所得到的《孟子》语料属于“熟语料”,具有了相当的研究价值,不仅便于一般用户进行理解阅读、智能化搜索等,同时也可以协助古汉语专家进行词汇、语法等研究,或对《孟子》及其他十三经进行横向比较。

自动分词是古文献信息处理的基础性工作之一。梁书利用规则方法、统计模型以及注疏文献三种方法对《孟子》进行了自动分词实验。根据梁书报告,规则方法分词结果F值最高达0.946。统计模型(采用条件随机场模型)分词结果F值最高达0.982。其中,统计模型特别考虑了将汉字的声韵调及部首信息加入学习模板进行对比实验,具有很强的针对性。实验表明,汉字的声母信息对分词结果有所提高,但再加入韵母、声调、部首信息反而造成了分詞结果的精度失落。另外,利用《孟子》传世注疏对孟子进行分词是本书的一大特色(第4节详述),其分词结果F值最高可达0.928,实验结果相比其余两种方法并没有较大差距。

先秦文献所使用的语言属于上古汉语,与现代汉语在词类分布方面有所不同。梁书根据《孟子》及其他先秦文献的语言词汇特点,设计了13大类43小类的词性类别,同时特别强调,先秦汉语较现代汉语普遍存在词语兼类和活用现象[5],应当是词性标注实验的重点难点。梁书抛开词语兼类与活用的区分不论,据其统计,《孟子》全文词语兼类及活用比例一共高达22.24%。梁书采用条件随机场模型进行词性标注实验,词语F值最高达0.941。同时,梁书对标注错误进行了统计分析,发现名词动词混淆是《孟子》词性标注错误的主要来源,占比达45.58%。这个结果也佐证了我们对于上古汉语的大致印象,即名词动词的活用比较普遍且宽泛。此外,梁书还创造性地使用注疏信息对词性标注结果进行校正,具体情况见第4节。

在分词和词性标注的基础上,梁书对《孟子》中最常见的10个多义词,即“之”“而”“以”“有”等进行了词义消歧。与现代汉语相比,这些多义单字词词频占比更高,义项也更为丰富(多则12项,少则4项),因此,数据量更小更稀疏,消歧难度更大,但也是理解先秦文献的关键之一。梁书分别采用了条件随机场模型,词义消歧树两种算法进行词义消歧实验。在窗口长度为2,且综合考虑词语词性、读音等语言特征的情形下,封闭测试正确率平均为86.36%与87.95%,开放测试正确率平均为84.76%与85.54%,消歧效果尚佳且两种算法结果基本接近。

上文介绍,先秦文献数量众多,体裁丰富,据李零[6]介绍,大致有八大类别。其中,不同体裁的先秦文献语言风格存在差异,即便是同一体裁,不同文献之间也或多或少存在着差异。相较于其他先秦文献而言,人们总的感觉是《孟子》修辞使用广泛,专于逻辑说理。根据这一特点,梁书首先对《孟子》的文本特征进行了大规模的细致统计,统计内容十分丰富,包括篇幅,用字频率,用字熵值,用词频率,平均词长,句型分布等,从各层面对《孟子》的语言风格进行了系统统计,并与其他先秦文献做了比较,具体情况见第3节。另外,梁书分析《孟子》说理磅礴,其原因之一是大量使用排比句,因此对《孟子》进行了排比句这样的修辞格识别实验。其识别算法融合了最长公共子序列求解,相似度计算、句珠遍历等算法,封测测试和开放测试的F值达0.61与0.59,这项研究为古汉语修辞格自动识别进行了拓荒。

二、横向比较轴:《孟子》与其他先秦文献信息处理的比较

以十三经为代表的先秦文献,其篇幅长短及语言风格是具有差异的。即便是同样的体裁,例如《孟子》和《论语》,也存在着语言风格差异。梁书介绍,《孟子》语言风格特点“喻体广泛,方式多样”,这是文献学和古汉语研究已有的确论。但文献差异是否体现为语言计算结果的不同,这种差异对于信息处理的方法迁移又具有多大影响,哪些文献具有独特的处理方法,这都是极具价值的文献横向研究课题。

基于上述考虑,梁书牢牢抓住《孟子》的语言特点,在与其他先秦文献的信息处理结果比对中,展开研究。

梁书采用《汉语大词典》《孟子译注附录词表》《论语词表》《左传词表》四种词表对《孟子》进行了机械分词,分词结果F值分别为0.863,0.935,0.946,0.909,得出了《孟子译注附录词表》效果最佳,《论语词表》比《左传词表》效果更好的结论。统计分词方法方面,梁书用《左传》训练,测试《孟子》,其分词结果F值最高达0.609,《论语》作为训练语料,F值最高则为0.699,而《孟子》自我训练则达到了0.956,可见统计方法对于不同文献的迁移,其精度失落还是比较大的。

词性标注方面,梁书用《孟子》自我训练,F值封闭测试最高达0.941,开放测试平均为0.897。而用《左传》作为訓练语料,F值为0.845,用《论语》作为训练语料,F值则为0.869。就词性标注错误而言,梁书指出,用《左传》《论语》训练,人名地名标记出现了较大的精度失落。且《左传》比《孟子》错误率更高一些。但名词动词活用方面,使用了《左传》《论语》语料,反倒比单纯使用《孟子》语料有了一定提升,这似乎说明了就词性标注试验而言,不同文献的数据也有可迁移的一面。

梁书在对《孟子》的文本特征进行统计的基础上,展开了与《左传》《论语》的比较。结果显示,《左传》用字最为繁复,数量大约是《孟子》的1.74倍和5.08倍。就具体用字而言,《孟子》中含有大量的“不”字,梁书分析这是因为孟子在辩论时,习惯于提出假设,从而增强辩说的效力。梁书继而分析,《孟子》中出现的“王”“则”等字在《论语》中未曾出现,这体现了《孟子》的叙述内容和语言风格。同时,梁书计算了《孟子》与《左传》《论语》的文本相似度,前者为0.4238,后者为0.7411,显然《孟子》与《论语》用字更接近,这与语言学本体研究和文章的体裁分类也是基本相符的。

词型方面,梁书统计,《孟子》《论语》单字词词型占比超过半数,但《左传》双字词词型占比最高。梁书进一步对词语词性标注结果进行统计,发现经过词性标注后,《孟子》的带标记词型数目比不带标记词型数目增长了33.28%,《论语》为33.87%,而《左传》只增长了20.25%,由此梁书判断,《孟子》《论语》的兼类现象较《左传》更为突出,这与我们的语言感觉基本类似。

梁书还对《孟子》《论语》《左传》文献中的陈述句、疑问句、感叹句、祈使句等句型进行了人工标注、比对分析。结果显示,《孟子》论辩色彩最浓,疑问句占比高达0.2323,《论语》中的感叹句占比最高,达0.0960。显然,这样的计量特征让我们能够从数据方面领略到先秦文献的语体差异。

梁书中关于《孟子》与其他先秦文献的信息处理横向比对研究,具有一定的普遍意义,其给我们的启示在于,不同文献作为训练语料,其针对某部专书的处理结果是具有差异的。体裁接近,语言风格类似的文献自然可以取得更好的成绩,一味扩大语料,进行统计学习,可能并不有利于古文献信息处理。但就某一方面而言,利用其他文献也可能提高处理效果。因此,这种迁移学习的适应领域和效果优劣值得学界进行深究。

三、利用注疏轴:基于《孟子》及其注疏的信息处理

梁书的一大创新之处在于利用《孟子注疏》《孟子集注》《孟子正义》等注疏语料,结合《孟子》原文进行信息处理。上文介绍注疏文献是古文献信息处理的最好材料,并指出注疏处理的问题在于如何从非结构化的注疏文献中抽取注疏,并识别出结构化或半结构化的语言知识。因此,梁书的第一章开宗明义地介绍如何进行注疏对齐这样的必要先期工作。

据梁书介绍,注疏对齐分为句子对齐和注释对齐两个部分。所谓“句子对齐”,即将“夹引夹议”的注疏文献重组为“引议平行”的结构模式。参考平行语料库的制作方法[7],梁书设计了基于范围检查以及基于字符串相似度等算法,对孟子及其注疏进行句子对齐。三本注疏的实验结果基本都在98%以上,略加人工修正,即可以形成完善的句子对齐注疏语料。

所谓“注释对齐”,即将已经完成句子对齐的语料中,关于具体字词的解释,锚定到原文的字词位置。注疏中的字词解释,对于自动分词、词性标注,乃至理解原文自然极有帮助。同时,不同时期的注疏还可以进行相互比对,分析孰优孰劣,起到明辨源流的作用。但注疏对齐的工作量也是不言而喻的,目前词语级别的注疏对齐结果尚属少见。因此,梁书设计了基于正则表达式匹配的对齐方法,利用“反切法”“训诂术语”等53种固定格式从《孟子》注疏中抽取注音及训诂注释。实验结果表明,就字词短语三种语言单位的注释而言,注释对齐F值平均为0.887。基于这些工作,梁书构建了一个合并注疏数目772条的数据库,以便后期综合考察利用。

利用《孟子》传世注疏对孟子进行分词是本书的一大特色。注疏分词的优点在于,一是无须事先准备词表;二是能抽取到通用词表中未出现的大量未登录词;三是能改造为带有增强学习性质的深度学习分词方法。梁书利用词语注释对齐结果,制作了《孟子》分词词表(其中,《孟子注疏》收词1828个,《孟子集注》收词1136个,《孟子正义》收词1952个),而后采用规则方法进行分词,F值最高可达0.928,实验结果相比传统方法基本接近,但与主流的统计方法相比,算法的时间复杂度大为下降。

利用注疏信息进行词性校正,是梁书的又一大创新。梁书介绍,词性概念起源于西方,注疏文献中自然也就没有关于词语词性的内容,但注疏中至少有三种对词性标注极有价值的信息:词语是否为语助辞,人名地名以及反切声调等。梁书从规模和规律性的角度出发,利用反切声调信息中的去声信息来进行词性自动校正,实验的校正精度超过80%,初步证明了声韵信息对于词性校正的可操作性,以及注疏信息的待挖掘使用空间。

另外,梁书首次对《孟子注疏》《孟子集注》《孟子正义》进行了文本特征统计分析,侧面反映了不同时代学者对《孟子》作注的语言风貌。梁书发现,尽管上述三本注疏成书年代跨越千年,但用字数目却相差不大,可见一本注疏的字型是比较趋同的。句型分类方面,梁书考察了《孟子》三部注疏的句型占比。结果显示,《孟子集注》专于作注,因此疑问句,感叹句占比相对较少。这也是用计算机进行大规模自动挖掘才能发现的文本特征之一。

四、结语

通过上述三个层面的分析,我们对梁书的研究思路、研究成果和研究价值进行了梳理。我们从书中充分认识到,古文献信息处理不免借用中文信息处理的方法,但又不能生搬硬套,否则效果自然不佳,因此如何借用改造中文信息处理方法,是古文献信息处理的核心课题之一。

显然,梁书中借用了大量中文信息处理的方法,比如双语对齐算法、正则表达式、分词词性标注方法等。实验结果也的确显示,这些方法对于古文献信息处理基本适用。同时,梁书也针对上述中文信息处理方法进行了诸如匹配对齐,古汉语特征学习等相关改进,这为我们迁移到其他古文献提供了实验参考。梁书充分利用先秦文献独有的注疏资源,设计了若干从注疏材料中挖掘语言知识的方法,对自动分词、词性标注等相关信息处理提供了新的思路。另外,梁书在不同文献比对研究的过程中所得到的一些结论对现代汉语信息处理也是具备参考价值的,比如跨领域非平衡语料之间的学习迁移、多源学习与领域自适应、排比修辞格的识别等。

参考文献:

[1] 曹书杰. 古籍整理与电子计算机应用研究的思考[J]. 古籍整理研究学刊,1988(1):44-49.

[2] 毛建军. 古籍数字化研究的回顾与思考[J]. 国家图书馆学刊,2007(3):62-65.

[3] 周迪,宋登汉. 中文古籍数字化开发研究综述[J]. 图书情报知识,2010(6):40-49.

[4] 梁社会. 基于注疏文献的《孟子》信息处理研究[M]. 北京:北京大学出版社,2021.

[5] 罗竹莲. 词类活用与词的兼类论析[J]. 南华大学学报(社会科学版),2005(2):96-99.

[6] 李零. 简帛古书与学术源流[M]. 北京:生活·讀书·新知三联书店,2004.

[7] 李维刚,刘挺,张宇,等. 基于长度和位置信息的双语句子对齐方法[J]. 哈尔滨工业大学学报,2006(5):689-692.

[8] 陈小荷,冯敏萱,徐润华. 先秦文献信息处理[M]. 北京:世界图书出版公司北京公司,2013.