昝红英,张腾飞,张坤丽
(郑州大学 信息工程学院,河南 郑州450001)
介词的研究是自然语言处理技术中的重要部分,计算机对介词的正确识别将极大的提高机器对自然语言的理解和应用。
目前,已经有不少人对虚词用法自动识别有了一定的研究,周丽娟等提出了一种基于规则的现代汉语连词用法自动识别方法[1];昝红英等采用了统计的方法对副词 “就”的用法自动识别进行的研究[2]。本文旨在对介词用法进行讨论,分析总结规则方法和统计方法单独使用的优劣,使用规则与统计相结合的方法,提高介词用法自动识别的准确率。
本文以现代汉语广义虚词知识库[3-4]为研究背景和基础,其中介词共有139个,207个义项,327个用法。介词在汉语文本中出现频率是非常高的,以2000年5月 《人民日报》语料为例,约120万词的文本中共出现介词43697次。介词短语主要充当状语,修饰动词或形容词,如 “从车上下来”“比他高”。有的介词短语可以作定语,但要加“的”,如 “对历史人物的评价”。少数介词短语可以充当补语,如 “睡在床上”。介词在句子中有一定的指示作用,指出后面词所代表的内容,包括时间、处所、范围、对象、目的、原因、方式、排除、被动、比较等[4-7]。
介词用法的规则识别是虚词规则库建设之一,虚词知识库由三部分组成:虚词用法词典、虚词规则库和虚词用法标注语料库[8]。本文规则方法使用了郑州大学自然语言实验室开发的基于规则的介词用法识别工具包[9]。
介词的用法特征拥有不同的表现形式,规则识别方法采用介词用法特征中可以操作的判断条件特征,然后以有序的巴科斯范式对介词进行规则的描述[2,4],利用规则识别介词用法[9]。
抽取的介词用法特征有:F为句首,表示句首出现的词语或词性特征;M为左搭配,表示介词左边搭配的词语或词性的特征;L为左紧邻,表示介词左边紧邻的词语或词性特征;R为右紧邻,表示介词右边紧邻的词语和词性特征;N为右搭配,表示介词右边搭配的词语或词性特征;E为句末,表示句末出现的词语或词性的特征。
介词用法规则的样例如下[4,9]:
MYM在
@<p_zai4_5>→N^N→看来|来说|而言|说来|来看|来讲
@<p_zai4_3b>→L^L→控制|限制|保持|维持|稳定|表现|体现
@<p_zai4_3a>→N^N→方面|问题上|实践上|生活中|生活上|领域|工作上
@<p_zai4_4>→N^N→ (v|<vn>)<下/f>|(条件|前提|情况|情形|形势|背景|原则|努力)下|基础上
@<p_zai4_1c>→N^N→过程中|活动中|活动上|会议中|会议上|会上|会中|赛中|塞上|斗争中|接触中|实践中
@<p_zai4_1a>→N^N→ (年|月|日|天|号|星期|世纪|期间|初|时|秒|之后|之前|之际|夜晚|同时|t)*v
@<p_zai4_1b>→LN^L→v^N→年|月|日|号|天|星期|世纪|期间|初|时|秒|之后|之前| 之际|夜晚|t
@<p_zai4_2a>→N^N→ (<ns>|s)*v
@<p_zai4_2b>→LN^L→v^N→n|f
@<p_zai4_2a>→N^N→ (<ns>|s)
@<p_zai4_1a>→N^N→ (年|月|日|天|号|星期|世纪|期间|初|时|秒|之后|之前|之际|夜晚|t)
@<p_zai4_3a>→R^R→a|v|n
在生成规则时需要对介词的规则设有优先级,前面的优先级大于后面的,所以,规则之间允许交叉覆盖,同一条用法也允许有多条规则。优先级的情况不同,对用法的识别准确率有很大影响。
实验选用2000年5月份 《人民日报》语料,以使用频率最高的20个介词为例,在5月份语料中出现次数33904次,识别介词用法的过程就是在语料中进行标注的过程,原始语料采用已经完成了分词的 《人民日报》语料,标注前后如下[4]:
没有标注的原始语料:
“围/v 在/p 机场/n 和/c 医院/n 门口/s 欢迎/v 的/ud 人群/n 挥动/v 着/uz 旗子/n ,/wd 高举/v 皮诺切特/nr 的/ud 画像/n ,/wd 把/p 他/rr 当成/vl “/wyz 英雄/n ”/wyy 来/vi 欢迎/v。/wj”
机器标注后的语料:
“围/v 在/p<p_zai4_2b> 机场/n 和/c 医院/n 门口/s 欢迎/v 的/ud 人群/n 挥动/v 着/uz 旗子/n,/wd 高举/v 皮诺切特/nr 的/ud 画像/n,/wd把/p<p_ba3_5b> 他/rr 当成/vl “/wyz 英雄/n”/wyy 来/vi 欢迎/v 。/wj”
实验结果见表1。
表1 基于规则方法的自动识别结果
在采用基于规则的方法进行标注实验时,标注正确的总个数有22844个,总准确率为67.38%,从表1可以看出,各个介词的准确率有较大不同,说明基于规则的方法具有简单、直观、针对性强等优点,对于结构比较明确的介词,有很大优势。但一般也有覆盖程度低、难于进一步优化等缺点。
近年来,许许多多的机器学习统计模型在自然语言处理领域得到了广泛应用,其中包括:条件随机场 (conditional random fields,CRF)、支持向 量机 (support vector machine,SVM)、最大熵 (maximum entropy,ME)、最大熵马尔科夫 (maximum entropy markov model,MEMM)以及隐马尔科夫模型 (hidden Markov model,HMM)[2]。本文采用了条件随机场统计模型,它可以充分利用的上下文信息作为特征,还可以任意地添加其他外部特征,可有效地解决前述数据稀疏问题[10]。
条件随机场 (CRF)由Lafferty等人于2001年提出[11],结合了最大熵模型和隐马尔可夫模型的特点,是一种在给定输入点的条件下计算输出点概率的无向图模型,它考察输入序列对应的标注序别的条件概率,目的是获得最大化的条件概率。近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。
条件随机场的定义为:G= (V,E)是一个无向图,Y= {Yv|v(V}是以G中的节点v作为索引的随机变量Yv构成的集合,在已知X条件下,如果所有随即变量Yv都服从马尔科夫属性,即:P(Yv|X,Yu,u≠v)=P(Yv|X,Yu,u~v),(X,Y)就是一个条件随机场。在介词识别中,X表示汉语句子集合,Y表示句中介词的用法集合。
实验选用2000年2、3、4月 《人民日报》语料作为训练语料,用2000年5月 《人民日报》语料作为测试语料,统计方法用的特征包括词和词性,比较不同特征窗口训练实验的结果,确定每个介词最佳特征窗口大小。测试实验结果见表2。
表2 基于统计方法的自动识别结果
采用基于统计的方法进行标注,标注正确的总个数有26037个,总准确率为76.80%。从表2可以看出,基于统计的介词自动识别方法总体效果比较好,覆盖面广,当改变了介词用法或义项后,也有很好的适应性。不过对于一些结构性较强的介词就不如规则效果好,比如 “据”、“同”、“比”等词。同时与规则方法相比,统计方法不能很好发现用法的不足,因为统计方法是在用法确定的情况下,通过训练得到每个用法的模型,然后识别测试语料中介词的用法,它不能判断用法本身的合理性,不能发现新的用法,不利于完善介词用法的划分和确定,比如 “由于”,只有一个用法,如果一个用法不能包含其运用时的全部情况,规则方法可以发现这种不足,而统计方法却不能。
鉴于规则与统计方法各自的优劣,本文使用了规则与统计相结合的方法,提高机器的识别能力。规则与统计相结合的方法有多种,本文使用两种结合方法:宏观结合与微观结合。
基于规则的自动识别和基于统计的自动识别有着不同的准确率,以每个介词为单位,比较规则与统计准确率的高低,进行分析结合。针对某个介词,选用准确率高的方法作为优先识别方法,准确率低的方法作为辅助识别方法,如图1所示。
宏观结合算法分为5步:
步骤1 从语料中依次提取句子,判断是否含有介词,如果含有介词,从准确率文档中找到此介词的规则准确率与统计准确率;否则重复步骤1,继续提取句子;
步骤2 判断找到的介词规则与统计各自准确率的大小,以此确定主要的识别方法和辅助识别方法;
步骤3 采用步骤2确定的主要识别方法进行自动识别;
步骤4 判断主要识别方法能否识别,能够识别时,输出识别结果;不能识别时使用辅助识别方法进行识别,能够识别时,输出识别结果,不能识别时,输出识别失败;
步骤5 判断句子是否还有介词,如果还有介词,从步骤2继续执行,否则从步骤1执行。
相对于宏观结合,微观结合从更细小的结构进行结合,以每个介词的每个用法为单位,进行分析结合。同样以准确率作为参数,进行比较,如图2所示。
微观结合算法分为7步:
步骤1 从语料中依次提取句子,判断句子是否含有介词,如果含有介词,执行步骤2;否则,重复步骤1,继续提取句子;
步骤2 对找到的介词进行规则识别和统计识别;
步骤3 判断统计是否识别,如果统计不能识别,从步骤4执行,否则,从步骤5执行;
步骤4 判断规则是否识别,如果规则识别,输出规则识别结果;否则,输出识别失败,然后从步骤7执行;
步骤5 判断规则是否识别,如果不能识别,则输出统计识别结果,然后从执行步骤7;否则,执行步骤6;
步骤6 规则以及统计都识别时,分别从规则准确率文档中找到规则识别的用法准确率,从统计准确率文档中找到统计识别的用法准确率,比较大小 (与宏观结合时不同,微观结合时准确率是介词每个用法的,宏观结合时是介词总体的),如果规则的准确率高,输出规则识别结果;否则,输出统计识别结果;
步骤7 判断句子中是否还有介词,如果还有介词,从步骤2继续执行;否则,从步骤1执行。
实验选用2000年2、3、4月 《人民日报》语料作为训练语料,用2000年5月 《人民日报》语料作为测试语料,实验结果见表3和表4。
表3 规则统计结合的自动识别结果
由表3可以看出,规则统计相结合的方法对每个介词自动识别都有一定的提高,宏观结合标注正确的总个数有26605个,总的准确率为78.47%,比规则方法高11.09%,比统计提高1.67%。微观结合标注正确的总个数有27808个,总的准确率为82.02%,比规则方法高14.64%,比统计方法高5.22%。由此可以看出,微观结合效果最好。同时,因为微观结合是以用法为单位的结合,对于介词的每个用法识别准确率,同样是可以比较的,而宏观结合方法是以词为单位进行结合,不能比较。在比较单个介词中不同用法识别情况时,我们以F值为参考 (对于整个介词来说,由于介词的个数是确定的,所以整个介词的准确率、召回率和F值是相同的),以介词 “在”为例,由表4可以看出,微观结合的方法对单个用法的识别能力比另两种方法强。
本文分别对介词用法进行了规则方法、统计方法以及规则与统计相结合方法的自动识别研究,实验表明微观规则与统计相结合的方法吸收了规则方法和统计方法各自的优点,具有更高的自动识别能力。规则与统计结合的方法是多种多样,找到最有效的结合方法,同时进一步的完善介词用法规则库,将是提高介词用法自动识别能力的有效和主要途径,也是本文下一步研究的主要方向。另外,介词用法在信息抽取、句法分析、机器翻译等方面的应用是本文研究的主要动力和实际意义,是未来的应用研究方向。
表4 介词 “在”用法自动识别结果
:
[1]ZHOU Lijuan,ZHANG Kunli,YUAN Yingcheng,et al.The studies on automatic recognition of rule-based modern Chinese conjunctions usages [C]// Wuhan:Proceedings of the 5th YWCL,2010:96-102 (in Chinese). [周丽娟,张坤丽,袁应成,等.基于规则的现代汉语连词用法自动识别研究 [C]//武汉第五届全国青年计算语言学研讨会,2010:96-102.]
[2]ZAN Hongying,ZHANG Junhui,ZHU Xuefeng,et al.Research on usages of Chinese adverb JIU and its automatic indentification [J].Journal of Chinese Information Processing,2010,24 (5):10-16 (in Chinese).[昝红英,张军珲,朱学锋,等.副词 “就”的用法及其自动识别研究 [J].中文信息学报,2010,24 (5):10-16.]
[3]YU Shiwen,ZHU Xuefeng,LIU Yun.Natural language understanding oriented the researches on Chinese functional words[C]//Xishuangbanna:Proceedings of the 11th the Chinese Language Information Seminar,2007:270-279 (in Chinese).[俞士汶,朱学锋,刘云.面向自然语言理解的汉语虚词研究[C]//西双版纳:第十一届全国民族语言文字信息学术研讨会论文集,2007:270-279.]
[4]ZAN Hongying,ZHANG Kunli,CHAI Yumei,et al.Studies on the functional word knowledge base of modern Chinese [J].Journal of Chinese Information Processing,2007,21 (5):107-111 (in Chinese).[昝红英,张坤丽,柴玉梅,等.现代汉语虚词知识库的研究 [J].中文信息学报,2007,21 (5):107-111.]
[5]LV Shuxiang.Modern Chinese eight hundred words [M].Beijing:Commercial Press,1980 (in Chinese).[吕叔湘.现代汉语八百词 [M].北京:商务印书馆,1980.]
[6]The Chinese social sciences academy language research laboratory dictionary editorial office. Modern Chinese Dictionary[M].5th ed.Beijing:Commercial Press,2007 (in Chinese).[中国社会科学院语言研究所词典编辑室.现代汉语词典[M].5版 北京:商务印书馆,2007.]
[7]ZHANG Bin.Modern Chinese function word dictionary [M].Beijing:Commercial Press,2005 (in Chinese). [张斌.现代汉语虚词词典 [M].北京:商务印书馆,2005.]
[8]HAN Yingjie,ZAN Hongying,ZHANG Kunli,et al.Auto-matic annotation of auxiliary words usage in rule-based Chinese language [J].Journal of Computer Applications,2011,31(12):3271-3274 (in Chinese).[韩英杰,昝红英,张坤丽,等.基于规则的现代汉语常用助词用法自动识别 [J].计算机应用,2011,31 (12):3271-3274.]
[9]YUAN Yingcheng,ZAN Hongying,ZHANG Kunli,et al.The automatic annotation algorithm design and system implementation rule-based function word usage [C]//Proceedings of the 11th CLSW,2010:163-169 (in Chinese).[袁应成,昝红英,张坤丽,等.基于规则的虚词用法自动标注算法设计与系统实现 [C]//第十一届汉语词汇语义学研讨会论文集,2010:163-169.]
[10]LIU Li,HE Zhongshi,XING Xinlai,et al.Chinese time expression recognition based on semantic role [J].Application Research of Computers,2011,28 (7):2543-2545 (in Chinese).[刘莉,何中市,刑欣来,等.基于语义角色的中文时间表达式识别 [J].计算机应用研究,2011,28 (7):2543-2545.]
[11]ZHOU Yihui,ZAN Hongying,MU Lingling.Studies on usagesrecognition of Chinese modality based on CRFs [J].Computer Enfineering and Design,2011,32 (11):3929-3933(in Chinese).[周溢辉,昝红英,穆玲玲.基于条件随机场的语气词用法自动识别 [J].计算机工程与设计,2011,32(11):3929-3933.]