基于事件语义特征的中文文本蕴含识别

2013-04-23 07:39刘茂福姬东鸿
中文信息学报 2013年5期
关键词:子图正确率语义

刘茂福,李 妍,姬东鸿

(1. 武汉科技大学 计算机科学与技术学院,湖北 武汉 430065; 2. 智能信息处理与实时工业系统湖北省重点实验室,湖北 武汉 430065; 3. 武汉大学 计算机学院,湖北 武汉 430072)

1 引言

文本蕴含[1]通常定义为一个连贯文本T与一个假设文本H之间的一种关系,即如果假设文本H的意义可以从文本T的意义中推断出来,那么T蕴含H,可以记为T→H。语义表达多样性为自然语言的一个基本特征,即同样的意义可以用多种不同的文本进行表达,文本蕴含的研究目的之一就是解决语义表达多样性的问题。文本蕴含的识别实际上是语言基础研究,它在自然语言处理的很多应用中起着关键作用,如问答系统、多文档自动摘要、信息抽取、语义检索以及机器翻译评测等[2]。

近年来,文本蕴含识别研究已经从早期的纯理论研究转换为较大规模理论研究和经验性平台建设,在自然语言处理领域备受关注。日本国立情报学研究所NII(National Institute of Informatics)组织的NTCIR(NII Test Collection for IR Systems)在2011年开始了文本蕴含识别RITE(Recognizing Inference in TExt)方面的评测任务。RITE的目的是评测系统识别特定语句“关系”的能力。NTCIR参与RITE评测的语言有日文JA(Japanese)、简体中文CS(Simplified Chinese)以及繁体中文CT(Traditional Chinese),每种语言都包含两类子任务,即二分类BC(Binary-Class)子任务与多分类MC(Multi-Class)子任务。参与评测的系统需要辨识给定的两个文本之间的关系,输出二选一(2-way)或五选一(5-way)的关系标记(Label)。图1是BC子任务和MC子任务的概览。

图1 NTCIR-9 RITE概览

蕴含关系识别通常采用有监督机器学习方法,也就是说,首先对大量已有正确蕴含关系标签的文本对进行训练,生成分类模型,然后由分类模型决定测试文本对是否具有蕴含关系。采用有监督机器学习方法的蕴含识别系统,通常为了提高正确率会混合多种特征。在NTCIR-9中,哈尔滨工业大学[3]、复旦大学[4]、国立台湾大学[5]、北京邮电大学[6]、武汉大学[7]和台湾朝阳科技大学[8]纷纷采用有监督机器学习方法解决文本蕴含问题,采用的特征包括统计特征、句法特征以及语义特征等。本文作者参与了NTCIR-9的RITE任务,并提交了基于统计与词汇语义特征的中文文本蕴含识别系统WUST;而后的改进系统WUST-SLS在WUST-ES系统的基础上又增加了句法特征。

本文在统计特征、句法特征和词汇语义特征的基础上增加了事件语义特征。事件是一个由谓词以及与其相关的语义角色所构成。事件标注后的文本易于进行深层语义分析与推理,并能生成事件图,将文本间的语义关系转换为事件图之间的语义关系。本文采用基于最大公共子图的事件图相似度算法来计算事件语义特征,与统计特征、词汇语义特征和句法特征一起作为支持向量机的分类特征,得到初步实验结果,再经过基于事件语义规则集合的修正处理得到最后的识别结果。实验表明,基于事件语义特征的蕴含识别方法适用于中文文本蕴含关系识别。

2 WUST-ES框架模型

WUST-ES模型由预处理、事件语义特征计算、SVM分类器和修正模块四个部分组成,具体的模型结构图如图2所示。

图2 WUST-ES模型结构图

图2中,事件预处理模块对测试数据集和训练数据集进行事件语义标注,具体的标注方法见文章[9],表1列举了训练数据集中的一对文本的标注结果。表1中,T1可以分为三个事件T1_E1、T1_E2和T1_E3,H1则包含一个事件H1_ E1。

表1 事件语义标注结果

事件语义标注完成之后,可以基于标注的事件语义,生成事件图,将文本相似度计算转化为图相似度计算,图3(a)和图3(b)为T1和H1的事件图。

图3中,矩形框为事件谓词,圆角矩形框为事件语义成分,其语义角色在边线上,事件谓词的数量即文本中包含事件的数量,T1由三个原子事件组成, H1只有一个原子事件。从图3可发现,即使T1和H1的文本结构不同,但H1的事件图基本上为T1事件图的一部分,且T1与H1正向蕴含;可以假设,如果两个事件图相似度越高,则文本对间具有蕴含关系的可能性就越大。

在生成的事件图基础上,使用基于最大公共子图的图相似度算法计算生成事件语义特征,将统计特征、词汇语义特征、句法特征与事件语义特征组合,利用SVM分类模块,生成图2中的“初步结果”;在“初步结果”的基础上进行修正,生成图2中的“最终结果”。

图3 T1与H1的事件图

3 事件语义特征

基于事件图,将文本对之间的蕴含关系转换为事件图之间的蕴含关系。事件语义特征由基于最大公共子图的图相似度算法计算得到。

3.1 事件图结构

图结构表示为一个三元组,即G=(Node,Edge,Weight),其具体计算步骤如下:

(1) 从事件标注文本对(T, H)生成的事件图中提取所有的节点组成节点集合NodeT和NodeH,集合NodeT和NodeH是由节点的内容词w组成,如式(1)所示。

(2) 从事件标注文本对(T,H)生成的事件图中提取所有边组成边集合EdgeT和EdgeH,集合EdgeT和EdgeH是一个三元组集合,每条边Eij由两个节点wi和wj以及边语义角色标签labelij组成,如式(2)所示。

(2)

(3) 根据节点集和边集,求边的权重集合WeightT和WeightH,集合WeightT和WeightH是二元组集合,由边Eij和边权重wt(Eij)组成,如式(3)所示,其中权重wt(Eij)的计算见式(4)。

式(4)中,freq(wi)为节点wi出现在文本中的频率,freq(wi,wj)为节点wi和wj在文本中的共现频率。

(4) 将事件图G转化为三元组(Node,Edge,Weight),如式(5)所示。

G={g1,g2,…,gk,…},

gk=> (5)

3.2 最大公共子图

根据图结构GT和GH求解最大公共子图GC的步骤如下所示:

(1) 分别遍历图结构GT和GH,若GT和 GH之间存在相同的节点集合,则将相同的节点集合作为最大公共子图的节点集合NodeC;判断节点相同,只需判断wi=wj,其中wi∈NodeT,wj∈NodeH。

(2) 如果集合NodeC中任两个节点之间存在一条边Eij,且Eij等于某一条既属于EdgeT又属于EdgeH的边,则将Eij加入GC边集合EdgeC中。

(3) 根据得到的NodeC和EdgeC计算WeightC,其中WeightC中的二元组集合Wij的计算见式(6)。

式(6)中,WT(Eij)为边Eij在图GT中存在一条相等的边Exy的权重wt(Exy);同理,WH(Eij)为边Eij在图GH中存在一条相等的边Eab的权重wt(Eab)。

以上求解最大公共子图的伪代码如下所示:

算法1求解最大公共子图

输入:GT=(NodeT, EdgeT, WeightT)

GH=(NodeH, EdgeH, WeightH)

输出:GC=(NodeC, EdgeC, WeightC)

//初始化NodeC,EdgeC,WeightC为空

1: NodeC=EdgeC=WeightC=Φ

//wi∈NodeT(NodeT含有n个节点)

//wj∈NodeH(NodeH含有m个节点)

//求NodeC

2:for(i=0; i < n; i++) {

3:for(j=0; j < m; j++) {

4:if(wi==wj) NodeC={wi}∪NodeC

5: }

6: }

//求EdgeC与WeightC

7: for(i=0; i < n; i++) {

8: for(j=0; j < m; j++) {

9: if(wi, wj∈NodeC&& Eij∈(EdgeT∩EdgeH)){

10: EdgeC={Eij}∪EdgeC

11: WeightC={wij}∪WeightC

12: }

13: }

3.3 图相似度计算

根据求得的最大公共子图,计算图相似度的如式(7)所示。

sim(GT,GH)=

其中,sizeof(NodeT)为GT中节点数,sizeof(EdgeT)为GT中边数,WC(Eij)为图GC中边Eij的权重wt(Eij);β为综合加权因子,当β=0.5时,图GT和图GH中节点和边对图相似度的影响程度相同,当β=0时,不考虑节点对图相似度的影响,当β=1时,不考虑边对图相似度的影响。本文β取值0.6,综合考虑了边和节点对图相似度的影响。

4 基于事件语义特征的修正

基于事件语义规则的修正目的是从标注文本对中提取时间、地点和数字等语义成分,修正被分类器误判为双向蕴含关系的矛盾关系。

4.1 数字语义特征

在SVM的分类结果中,绝大部分通过数字判断为矛盾的文本对都被判断为了双向蕴含,表2中列举了一些会被判断错误的典型例子。

表2 数字相关SVM输出错误文本对

在SVM的判断结果中,表2中的三种句子均被判断错误,且因为计算出的句子相似度非常高,都被判断为了双向蕴含关系,经过分析发现,通常根据数字认定为矛盾的句子分为三种,一种是数值不同,例如,T2中的“700万”和H2中“600万”的数值不同,导致了最后文本对矛盾;第二种是单位不同,例如,T3中数字的单位“吨”和H3中数字的单位“公斤”不同,使句子对互相矛盾;最后一种为数字的范围,例如,T4中和H4中数字都是四分之一,但T4中是“近四分之一”而H4中是“超过四分之一”,于是T4和H4互相矛盾。经过上述分析,可以得到基于数字修正SVM分类结果的规则,记为规则1。

规则1: 如果文本对(T, H)中都含有数字信息且该文本对被SVM判断为双向蕴含,那么检查文本T和文本H中所有事件中数字的数值、单位和范围,若其中有一项或多项不同时,则将SVM输出标签更正为矛盾关系。

4.2 地点语义特征

对于被分类为双向蕴含的涉地点语义成分的文本对,主要是两种形式的文本结构,表3列举了这两种文本结构。

表3 涉地点的分类错误文本对

在表3中,T5和H5涉地点事件的谓语动词都是“爆炸”,并考虑到因为句子相似度高,被SVM判断为双向蕴含,则认为T5和H5要表达同一个事件;但是实际上事件地点不同,则T5和H5矛盾。T6和H6都含有三个地点,分别为“北平”、“湖南长沙”和“江西德安”,虽然表面上看,T6和H6相似,但是T6和H6中“湖南长沙”和“江西德安”的谓语动词不同,即其所处事件不同,则事件表达的意义不同,因此T6和H6矛盾。根据以上两种文本类型,可以总结出规则2。

规则2: 如果文本对(T, H)中都含有地点信息且该文本对被SVM判断为双向蕴涵,那么检查文本T和文本H中所有事件的地点和对应的谓语动词,若T和H中存在一对事件谓语动词相同但事件谓词动词对应地点不同,则更改为矛盾关系。

4.3 时间语义特征

在文本结构类似的文本对中,若时间不同,可以直接判断为矛盾,但是在SVM判断中,因为句子相似度过高,导致错误判断为双向蕴含,表4列举了这样的一个例子。

表4 时间相关SVM分类错误文本对

表4中,文本T7中的时间为“2008年8月8日20时”,文本H7的时间为“2008年8月8日22时”,时间不同,则文本对相互矛盾。根据这种特征,设计规则3。

规则3: 如果文本对(T, H)中都含有时间信息且该文本对被SVM判断为双向蕴涵,那么检查文本T和文本H中所有事件的时间语义成分并比较,若不同,则修正为矛盾关系。

5 实验结果

实验语料来自于NTCIR-9 RITE任务,其中训练集与测试集的文本对数都是407,系统的整体性能使用平均准确率(Accuracy)指标来进行度量,如式(8)所示。

式(8)中,#pair指RITE测试集中文本对的数目。

针对具体的文本蕴含关系的类别,该文给出每一类别的准确率(Precision)、召回率(Recall)和F-measure来进行度量,其具体计算如式(9)、(10)和(11)所示。

上式中,TP(True Positives)和FP(False Positives)分别指测试集中该类所有正例被正确和错误分类的数目;而FN(False Negatives)则指测试集中该类所有负例被错误分类的数目。

本文中的基于统计与词汇语义特征的中文文本蕴涵关系识别系统标记为WUST,该系统利用BC和MC任务的训练集对分类器进行训练。在两个任务的训练中,惩罚因子C的log值都为10,而核函数因子γ的log值皆为-9;BC任务的训练正确率为76.9%,MC任务训练正确率为57.74%。WUST系统给出了对BC和MC任务测试集的分类结果,RITE组织方最终的评测结果如表5所示。

表5 系统的BC和MC任务评测结果

表5中,UIOWA系统结果明显高于其他系统,最主要的原因是UIOWA系统使用了众包(Crowdsourcing)技术,有人工参与其中。WUST和其他很多参与者的系统在BC任务的表现不如基准测试(Baseline),其中最可能的原因是基准测试使用的是字符重叠度特征[2],而考虑到是对中文进行处理,WUST系统自然而然的使用了词重叠度特征。

WUST-ES系统是基于WUST-SLS系统和WUST系统的改进版,WUST-SLS系统在WUST系统的基础上增加了句法特征,而WUST-ES系统在WUST-SLS系统基础上增加了事件语义特征和基于事件语义规则的修正模块。WUST-ES系统实验效果最为理想,与WUST系统和WUST-SLS系统结果比较图如图4所示。

图4 WUST、WUST-SLS与WUST-ES的对比评测结果

图4中,WUST-ES实验系统的效果最优,主要是采用了事件语义特征的结果,两个文本即使文本顺序不同,但是同一个事件的事件图是一样的,增加了蕴含关系判断的效果。且WUST-ES实验系统为了提高矛盾关系的判断效果,增加了基于事件语义规则的修正模块,弥补了WUST-SLS系统和WUST系统上的不足,提升了系统性能。

与ICRI_HITSZ系统相比,WUST-ES的BC与MC任务评测结果已经优于ICRI_HITSZ系统;当然,同采用众包技术的UIOWA系统还有一定差距。本文后面的内容主要针对WUST-ES系统进行分析,以期发现WUST-ES系统优劣的原因,有利于系统的后续改进。

WUST-ES系统的混淆矩阵如图5(a)和(b)所示。

图5 WUST-ES系统输出的混淆矩阵

使用混淆矩阵计算每个类别的准确率、召回率和F-measure,BC任务的结果在表6中,MC任务的结果见表7。

表6 WUST-ES系统BC任务

表6中,WUST-ES系统正确率比WUST-SLS系统正确率高6%左右,比WUST系统正确率高10%左右,说明WUST-ES能够较好地识别2-way文本蕴含关系。WUST-ES系统蕴含关系识别的F-measure达到86.94%,说明WUST-ES系统对蕴含关系识别的有效性;WUST-ES系统非蕴含关系识别的F-measure为74.82%,相比WUST-ES对蕴含关系判断的高效性稍有不足。

表7 WUST-ES系统MC任务

表7中,WUST-ES系统正确率比WUST-SLS系统正确率高6%左右,比WUST系统正确率高12%左右,说明WUST-ES判断5-way文本蕴含关系效果较好。WUST-ES系统正向蕴含关系判断F-measure达到79.81%,逆向蕴含关系判断达到79.80%,说明WUST-ES系统能够高效地识别正向蕴含关系和逆向蕴含关系;WUST-ES系统双向蕴含关系识别的F-measure为69.01%,矛盾关系识别的F-measure为62.71%,独立关系识别的F-measure为50.41%。

相比WUST-ES对正向蕴含关系和逆向蕴含关系判断的高效性,WUST-ES对其他类语义关系的判断稍有不足,尤其是矛盾关系判断和独立关系。通过分析图4(b)可以发现,WUST-ES系统将22个矛盾关系判断成了双向蕴含关系,说明WUST-ES系统将一部分矛盾和双向蕴含混淆了;除此之外,WUST-ES系统独立关系判断并不理想,说明独立关系也需要重点研究。

6 结论

以NTCIR-9的RITE任务为背景,本文设计并实现了基于简体中文文本的蕴含识别系统。系统基于SVM构建分类器,以统计特征、词汇语义特征、句法特征以及事件语义特征生成特征文件,其中词汇语义特征是基于同义词词林、反义词表、否定词表、《知网》等语义资源计算的,本文将RITE问题作为单纯的分类问题进行处理。实验表明,基于事件语义特征的中文文本蕴含识别方法对中文文本蕴含识别的高效性。

该系统存在两点不足,首先是混淆了部分矛盾和双向蕴含关系,其次是用于独立关系判断的特征存在不足,导致独立关系判断效果不佳;未来研究将致力于解决这两个问题。

[1] 袁毓林,王明华.文本蕴含的推理模型与识别模型[J].中文信息学报, 2010, 24(2): 3-13.

[2] Hideki Shima, Hiroshi Kanayama, Cheng-Wei Lee, et al. Overview of NTCIR-9 RITE: Recognizing Inference in TExt[C]//Proceedings of National Institute of Informatics. The 9th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access. Tokyo, Japan: National Institute of Informatics, 2011: 291-301.

[3] Yaoyun Zhang, Jun Xu, Chenlong Liu, et al. ICRC_HITSZ at RITE: Leveraging Multiple Classifiers Voting for Textual Entailment Recognition[C]//Proceedings of National Institute of Informatics. The 9th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access. Tokyo, Japan: National Institute of Informatics, 2011: 325-329.

[4] Ling Cao, Xipeng Qiu, Xuanjing Huang. FudanNLP at RITE 2011: a Shallo w Semantic Approach to Textual Entailment[C]//Proceedings of National Institute of Informatics. The 9th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access. Tokyo, Japan: National Institute of Informatics, 2011: 335-338.

[5] Hen-Hsen Huang, Kai-Chun Chang, Haver II J.M.C. et al. NTU Textual Entailment System for NTCIR 9 RITE Task[C]//Proceedings of National Institute of Informatics. The 9th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access. Tokyo, Japan: National Institute of Informatics, 2011: 349-352.

[6] Ranxu Su, Sheng Shang, Pan Wang, et al. ZSWSL Text Entailment Recognizing System at NTCIR-9 RITE Task[C]//Proceedings of National Institute of Informatics. The 9th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access. Tokyo, Japan: National Institute of Informatics, 2011: 394-399.

[7] Han Ren, Chen Lv, Donghong Ji. The WHUTE System in NTCIR-9 RITE Task[C]//Proceedings of National Institute of Informatics. The 9th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access. Tokyo, Japan: National Institute of Informatics, 2011: 373-378.

[8] Shih-Hung Wu, Wan-Chi Huang, Liang-Pu Chen, et al. Binary-class and Multi-class Chinese Textual Entailment System Description in NTCIR-9 RITE[C]//Proceedings of National Institute of Informatics. The 9th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access. Tokyo, Japan: National Institute of Informatics, 2011: 422-426.

[9] Maofu Liu, Yan Li, Donghong Ji, et al. Atomic Event Semantic Roles and Chinese Instances Analysis[C]//Proceedings of Donghong Ji & Guozheng Xiao (Eds.). Chinese Lexical Semantics. Berlin, Heidelberg: Springer-Verlag, 2013: 110-121.

[10] Maofu Liu, Yan Li, Yu Xiao, et al. WUST SVM-Based System at NTCIR-9 RITE Task[C]//Proceedings of National Institute of Informatics. The 9th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-Lingual Information Access. Tokyo, Japan: National Institute of Informatics, 2011: 318-324.

[11] Malakasiotis P. Paraphrase recognition using machine learning to combine similarity measures[C]//Proceedings of Association for Computational Linguistics. Proceedings of the ACL-IJCNLP 2009 Student Research Workshop. Stroudsburg, PA, USA: Association for Computational Linguistics, 2009: 27-35.

猜你喜欢
子图正确率语义
真实场景水下语义分割方法及数据集
个性化护理干预对提高住院患者留取痰标本正确率的影响
关于2树子图的一些性质
门诊分诊服务态度与正确率对护患关系的影响
语言与语义
临界完全图Ramsey数
不含3K1和K1+C4为导出子图的图色数上界∗
批评话语分析中态度意向的邻近化语义构建
生意
生意