马建红, 郝亚娟, 张亚梅
(河北工业大学 计算机科学与软件学院 天津 300401)
基于层叠跳跃链条件随机场模型的因果关系标注
马建红, 郝亚娟, 张亚梅
(河北工业大学 计算机科学与软件学院 天津 300401)
针对因果关系事件中对象、属性及其相互作用关系抽取工作的不足和因果关系中的长距离依赖问题,定义了创新问题的因果关系表达方式,提出了基于层叠跳跃链条件随机场的因果关系标注方法.首先通过低层线性链条件随机场模型对预处理过的候选集进行因果关系边界标注,其次对标注结果进行降噪和扩充,将其作为新的特征传递给高层跳跃链条件随机场模型用于识别因果角色,最后对高层结果进行指代消解和降噪.对多种类别的真实语料进行了实验,结果表明应用本方法可取得较好的标注效果.
因果关系; 跳跃链条件随机场模型; 层叠跳跃链条件随机场模型; 高层降噪模型
技术领域内任何问题产生的原因都与其涉及的物质、属性及其相互作用所产生的有害功能密切相关.从某种意义上来说,物质的一切属性都是解决发明问题的创新资源[1].因果分析是发明问题解决流程(teoriya resheniya izobreatatelskikh zadatch,TRIZ)中很重要的一环,因此挖掘因果关系中的物质、属性、及其相互作用之间的内在关联具有重要的实际应用价值.
因果关系根据在文本中是否出现因果连接词,分为:显式因果关系和隐式因果关系.本文主要研究的是专利中的显式因果关系.针对因果事件的抽取问题,国内外已经做了一些定量和定性的研究.文献[2]实现了COATIS系统通过分析法语中的因果关系动词,抽取显式因果关系.文献[3]通过因果关系动词、连词、形容词、副词等,采用模式匹配的方法从手工标注的Wall Street journal语料中抽取显式因果关系.文献[4]则采用了模式匹配和机器学习相结合的方法抽取句内或者相邻句子间的显式因果关系.
国内近期研究主要有:文献[5]提出了一种事件因果关系结构分析方法;文献[6]实现了一个辅助法律咨询系统;文献[7]基于层叠条件随机场采用两层条件随机场模型标注事件之间的因果关系;文献[8]基于双层模型的维吾尔族突发事件因果关系抽取,采用分治思想对事件序列进行因果关系语义角色标注和边界标注;文献[9]基于语义事件因果关系识别,根据因果关系共性特征列举算式计算候选事件的关联度,有效地抽取了文本中的因果关系事件对.
综上所述,目前国内外研究中,鲜有对因果关系事件的原因事件及结果事件的对象、属性及其相互作用关系进行抽取.因此本文定义了创新问题的因果关系表达方式并针对因果关系中的长距离依赖问题提出了基于层叠跳跃链条件随机场的因果关系标注方法.
因果分析是对技术系统的问题做分析的必需步骤,其目的是获得对问题在因果链上的多级分析结果,启发人们找到恰当的问题查询方式[1].规范的语义因果关系表达为检索提供了便利.因此本文在原因和结果的规范化描述上,采用了创新问题中功能的描述方式.
图1 因果关系表达实例Fig.1 Example of causality expression
功能的语义表达并非只有一种,不同的功能语义表达方式代表了不同的含义,其中常用的是“VOP”格式.本文中因果关系表达也采用了这种格式,将原因和结果描述为:V+O+P.其中V:性能水平,表示因果关系中物体或者物体参数因达到某一种程度而没有产生预期的效果,例如:不足、有害等;O:表示实体,即对象;P:表示该对象的某个属性.针对因果关系的表达方式,本文定义了6种因果角色,包括:原因事件的实体、属性、性能水平,分别用CO、CP、CV表示;结果事件的实体、属性、性能水平,分别用RO、RP、RV表示.根据因果关系中实体相互作用产生的有害功能,本文将因果关系中的性能水平分成了以下7种类型[11],并针对其中的一些类型举例表达了因果关系,如图1所示.
缺乏:应该有的作用,但是没有.
存在:提供有用作用的同时,伴随产生了有害作用.
有害:应该没有的作用,却出现了.过度:有用的功能,因其性能水平超过了阈值而产生有害影响.不足:有用的功能,因其性能水平低于阈值而效果不足.不可控:有用的功能,但是无法有效地控制其性能水平.
不稳定:有用的功能,但是其性能水平不够稳定,带来了有害影响.
本文将因果关系的抽取问题转化为对原因和结果中的实体、实体属性及性能水平的因果角色标注问题.本节主要介绍跳跃链条件随机场模型、因果角色标注的层叠跳跃链条件随机场模型、特征选择、高层降噪模型.
2.1 跳跃链条件随机场模型
对于序列标注问题,线性链条件随机场模型已经取得了不错的标注效果,但在因果关系提取时,经常会遇到长距离依赖问题即:当前句或者上下句中的实体或实体属性可能与距离较远的实体或实体属性存在依赖关系.为此,本文引入了跳跃链条件随机场模型,如图2所示,在线性链模型的基础上,在相似词之间增加了跳边,来解决长距离依赖问题[12].
把跳跃链条件随机场模型看作两部分,一部分是线性链部分,另一部分则是表达长距离依赖问题的跳跃链部分.给定输入序列x=(x1,x2,…,xn),则跳跃链模型的输出序列y=(y1,y2,…,yn) 概率分布为:
其中:Z(x) 是归一化因子,Γ是所有跳跃链的集合,(u,v) 是跳跃链两端的位置,跳跃链可以结合两端的特征,当两个端点词对标签标注不一致时,确定标签的一端能够影响不确定标签的一端,使相同的词对获得一致的标签.ψn和ψuv分别是跳跃链模型中线性链部分和跳跃链部分的势函数,公式为:
其中:fk1和λk1分别是跳跃链模型中的线性链部分的特征函数及其对应的特征权重,fk2和λk2分别是跳跃链模型中跳跃链部分的特征函数及其特征权重.
跳跃链随机场模型中的跳边取决于词对之间的相似度,根据结果决定该词对是否包含在模型中.本文的相似度计算采用的是文献[13]的平均互信息(average mutual information, AMI):
c(x,y) 为词对x和y共同出现在训练集同一窗口的次数,c(x) 是词对x在训练集中出现的次数.在本文中词对之间的相似度为:
SIM(x,y)=AMI(x,y)×(1-logDis(x,y)),
Dis(x,y)为词对x和y的平均距离.为了建立一个足够有效的稀疏矩阵本文定义了阈值来判断词对之间是否存在跳边,当词对的相似度大于阈值(根据经验本文将阈值定为0.8)时,它们之间建立跳边,否则它们之间不产生关系.通过定义阈值来删减依赖关系,在一定程度上弥补了由于长距离依赖关系增加带来的计算量增加等负面影响.
2.2 因果角色标注的层叠跳跃链条件随机场模型
对复杂问题采用单层条件随机场模型结果往往达不到预期.为此引入层叠条件随机场模型,将复杂的问题分解成几个子问题,针对每个子问题运用条件随机场模型,多个模型之间呈线性组合.本文将事件因果角色标注的过程分为两个步骤:事件因果边界标注和事件因果角色标注.在因果角色标注时,相同的实体或者属性在不同的位置被标注了不同的角色,针对这一问题本文在层叠条件随机场模型的高层选择了跳跃链条件随机场模型,层叠跳跃链模型如图3所示.
由图3可以看出事件序列通过低层线性链条件随机场模型识别出因果事件边界,中间模型对候选集进行扩充和降噪,然后将候选集传递到高层跳跃链条件随机场模型中,高层模型实现原因事件和结果事件角色标注,具体实现过程如图4所示.该模型不仅解决了单层条件随机场模型不能有效提取因果关系的实体、实体属性及性能水平的不足,而且也解决了因果关系中多因多果造成的相同实体不同属性标注不一致问题.
图2 跳跃链条件随机场模型 Fig.2 The skip-chain conditional random field model
图3 基于层叠跳跃链条件随机场的因果角色标注模型 Fig.3 The causal role labeling model based on the cascade skip-chain conditional random field
2.3 特征选择
条件随机场模型的特点就是可以灵活地定义各种特征,用特征集合及其权重拟合样本的规律,以构建相应的模型[14].特征模板用来定义特定位置的上下文信息与待预测事件的关联情况.本文在低层条件随机场模型中选择了词性、上下文、状态转移特征作为特征模板并选择了对称的上下文窗口:[-2,2].语义角色是目前浅层语义分析所采用的主要方式,在高层条件随机场模型的特征模板选择上,引入了语义角色特征(采用哈工大的自然语言处理工具LTP对候选集进行语义角色标注)和经过中间模型处理过的标注结果作为特征,针对上下文、词性、语义角色、低层标注结果采用了不同的特征窗口分别为:[-2,2]、[-1,1]、[-1,1]、[-3,3],由于篇幅原因,不在此列出特征模板.
图4 事件因果角色标注过程Fig.4 The labeling process of event causal role
2.4 中间模型和高层降噪模型
2.4.1 中间模型 高层条件随机场模型的标注结果高度依赖低层条件随机场模型的结果,如果对低层错误结果不进行处理,这些错误结果将传递到高层模型中,经过高层模型扩散和传播,产生噪声,降低标注的准确率.因此在低层模型和高层模型之间增加了中间模型,中间模型包括:补充模型和降噪模型.
1) 补充模型:该模型主要针对标注不完整的候选集,包括:缺乏原因事件的候选集和缺乏结果事件的候选集,根据规则进行补充.在显式因果关系中,不同的关键词,原因和结果的位置不同.例如:“由于……导致……”和“……的原因是……”在这两种类型的句子中,原因事件和结果事件的分布位置是不一致的.对于缺少不同内容的候选集,根据因果关键词不同采取相应的因果知识提取规则将候选集补充完整[12].
2) 降噪模型:提出了以下规则进行降噪.
① 针对没有划分因果关系边界的候选集进行过滤:在低层结果中,有的候选集没有划分原因事件和结果事件的边界,为了提高标注的准确率,本文对于这种情况的候选集进行过滤.
② 对标点进行过滤:在低层结果中,对于一个句子存在多个原因事件和多个结果事件的情况,在划分因果关系边界时,会把其中的“,”等标点划分到因果关系中.为了不影响高层结果,本文将对这种类型划分多个因果关系边界.
③ 过远候选集的过滤:在显式因果关系的句子中,计算原因事件和结果事件到因果连接词的距离,本文定义该距离的阈值为2(原因事件距离因果连接词两个标点以内),对于超过阈值的候选集进行过滤.
2.4.2 高层降噪模型 高层跳跃链条件随机场模型标注结果的准确率很大程度上取决于经过中间层处理过的候选集,然而由于部分分词、词性标注的不准确可能会产生噪声,对标注结果造成影响.因此,为了提高因果关系的标注效果,本文对高层跳跃链条件随机场模型的标注结果进行了降噪.降噪模型基于以下规则.
1) 指代消解[15]:指代主要有3种典型的形式:人称代词、指示词、有定描述.针对候选集中的“其”,“它”,“上述材料”等进行指代消解时,结合当前句及其上下文的语法将原因事件和结果事件的实体补充完整.
2) 根据实体、实体属性以及性能水平的分布位置过滤:本文在考察大量句法分析和词性的基础上,对实体、实体属性及性能水平的分布位置做了总结.从词性方面可以看出,实体和实体属性为名词,性能水平为动词、形容词或动词加形容词.然而由于分词的不准确性会把性能水平或者属性的描述词分开, 造成了性能水平分布在了实体和实体属性之间,本文针对这种情况进行了纠正.
3) “的”字结构:根据“的”字结构前后成分进行降噪.一般情况下,“的”字结构前面的成分为实体,“的”字结构后面的成分为实体属性,根据这一原则,对错误的“的”字结构前后成分进行降噪.
表1 实验数据的类别以及规模
Tab.1 Category and scale of experimental data
类别含有因果关系的句子数量因果关系的句子+上下文的句子数量C084621386F023341002H04204612
3.1 语料准备
本文分别从C08(有机高分子化合物;其制备或化学加工;以其为基料的组合物)类、F02(燃烧发动机;热气或燃烧生成物的发动机装置)类、H04(电通信技术)类的2 000篇专利中抽取了3 000句含有因果关系的句子以及上下文作为候选集进行实验,具体每种专利类别的语料规模如表1所示,其中每种类别测试集和训练集的比例为1∶5.
3.2 实验结果分析
本文使用Mallet工具包的GRMM扩展包进行实验,为了验证本文方法的实验效果,采用了准确率(P)、召回率(R)及综合指标(F)作为评价标准,并针对所选的3种类别的专利分别做了8组对比实验:层叠跳跃链CRFs_指代(SK_CCRFs_指代)在高层选择了指代消解进行降噪、层叠跳跃链CRFs _位置过滤(SK_CCRFs_位置过滤)在高层选择了位置过滤进行降噪、层叠跳跃链CRFs_“的”字结构(SK_CCRFs_“的”字结构)在高层选择了“的”字结构进行过滤、层叠跳跃链CRFs_补充(SK_CCRFs_补充)在中间模型只选用了补充模型、层叠跳跃链CRFs_降噪(SK_CCRFs_降噪)在中间模型只选用了降噪模型、层叠跳跃链CRFs_补充_降噪(SK_CCRFs_补充_降噪)在中间模型选择了补充模型和降噪模型进行降噪、层叠跳跃链CRFs(SK_CCRFs)未经过中间层处理直接传递到高层模型中、层叠线性链CRFs_补充_降噪(CCRFs_补充_降噪)经过中间模型处理的层叠线性链条件随机场模型.
由于高层条件随机场模型的标注结果高度依赖低层条件随机场模型的结果,因此本文在高层模型和低层模型之间增加了中间模型,并针对扩充模型和降噪模型分别做了实验,如表2所示.由实验结果可以看出,中间模型在很大程度上降低了噪声产生的影响,提高了正确率.
本文在高层条件随机场模型中分别对线性链条件随机场模型和跳跃链条件随机场模型进行了实验,结果如表2所示.实验表明,“有机高分子化合物等”、“燃烧发动机等”、“电通信技术”类别中高层选用跳跃链条件随机场模型都比选用线性链条件随机场模型在标注的准确率方面有所提升,不同类别提升的幅度不一样.跳跃链条件随机场模型有效解决了句子中长距离依赖问题,有助于因果关系事件中的实体、实体属性、性能水平的抽取,弥补了线性链条件随机场中相邻节点之间的依赖关系最强的假设.
表2 C08,F02,H04类因果关系标注结果对比Tab.2 C08,F02,H04 causal relationship labeling results contrast %
为了提高因果关系标注的效果,本文对高层结果采用了降噪模型,通过指代消解将因果关系中的实体补充完整,并对实体、实体属性以及性能水平错误的位置分布进行纠正,针对“的”字结构错误的前后成分进行了纠正.从表2中可以看出,不同类别的候选集经过高层降噪模型处理之后,层叠线性链CRFs和层叠跳跃链CRFs在正确率方面都有所提高.高层降噪模型有效地降低了由于部分分词、词性不准确以及“的”字短语前后成分划分不正确而产生的噪声,提高了因果关系标注的准确率.
本文根据创新问题的因果关系表达方式提出了基于层叠跳跃链条件随机场的因果关系标注方法.为了提高标注的准确率以及解决因果关系事件中的长距离依赖问题,在层叠条件随机场模型的高层选择了跳跃链条件随机场模型进行因果角色识别,最后运用高层降噪模型对标注结果进行降噪.实验表明,针对专利中的显式因果关系,本文取得了很好的标注效果.
[1] 赵敏,张武城,王冠殊.TRIZ进阶及实战[M].北京:机械工业出版社,2016.
[2] GARCIA D. COATIS,an NLP system to locate expressions of actions connected by causality links[C] ∥ Proc of the 10th European Workshop on Knowledge Acquisition,Modeling and Management.Catalonia,1997: 347-352.
[3] KHOO C,KORNFILT J,ODDY R,et al. Automatic extraction of cause-effect information from newspaper text without knowledge-based inferencing[J].Literary and linguistic computing,1998,13(4) : 177-178.
[4] BLANCO E,CASTELL N,MOLDOVAN D. Causal relation extraction[C]∥Proc of the 6th International Conference on Language Resources and Evaluation.Morocco,2008: 310-313.
[5] 干红华,潘云鹤.一种基于事件的因果关系的结构分析方法[J].模式识别与人工智能,2003,16(1):56-62.
[6] 干红华.基于事件的因果可计算化分析研究[D].杭州:浙江大学,2003.
[7] 付剑锋,刘宗田,刘炜,等.基于层叠条件随机场的事件因果关系抽取[J].模式识别与人工智能,2011,24(3):567-573.
[8] 钟军,禹龙,田生伟,等.基于双层模型的维吾尔语突发事件因果关系抽取[J].自动化学报,2014,40(4):771-779.
[9] 杨竣辉,刘宗田,刘炜,等.基于语义事件因果关系识别[J].小型微型计算机系统,2016,37(3):433-437.
[10] 雷志城,廖祥文.结合领域知识的中文句子评价对象抽取[J].福州大学学报(自然科学版),2013,41(3):297-304.
[11] 创新方法研究会中国21世纪议程管理中心.创新方法教程(高级)[M].北京:高等教育出版社,2012.
[12] 朱道辉,肖基毅,程阳,等.基于长距离依赖条件随机域的文本信息抽取[J].计算机应用与软件,2011,28(5):203-205.
[13] 朱鸿宇,刘瑰,陈左宁,等.实体关系识别中长距离依赖问题的研究[J].小型微型计算机系统,2008,29(2):364-367.
[14] 郑敏洁,雷志城,廖祥文,等.基于层叠CRFs的中文句子评价对象抽取[J].中文信息学报,2013,27(3):69-76.
[15] 王厚峰.指代消解的基本方法和实现技术[J].中文信息学报,2002,16(6):9-17.
(责任编辑:王浩毅)
Causal Relation Label Based on Cascading Skip-chain Conditional Random Fields
MA Jianhong, HAO Yajuan, ZHANG Yamei
(SchoolofComputerScienceandEngineering,HebeiUniversityofTechnology,Tianjin300401,China)
In order to explore the extraction of the entity, entity attribute and their interaction and long-distance dependence problem in causal relationship event, the causal relationship expression of the innovation problem was defined, by using cascade skip-chain conditional random fields method. The method labeled the boundaries of the event causal relation of the preprocesseds candidates by the lower-level line-chain conditional random fields model. Then the noise was filtered and the labeling result was extended. The results were put into the higher-level skip-chain conditional random fields model to identify causal role, and dealt with the higher-level results using anaphora resolution and filtering noise. Experiments were carried put on a variety of categories of real data and the results showed that the method achieved very good labeling effect in the patents.
causal analysis; skip-chain conditional random fields model; cascading skip-chain conditional random fields model; higher-level noise reduction model
2016-07-18
马建红(1965—),女,河北保定人,教授,主要从事计算机辅助创新设计软件、软件工程、自然语言处理研究,E-mail:m_zh2002@126.com.
马建红,郝亚娟,张亚梅.基于层叠跳跃链条件随机场的因果关系标注[J] .郑州大学学报(理学版),2016,48(4):54-59.
TP391
A
1671-6841(2016)04-0054-06
10.13705/j.issn.1671-6841.2016663