基于CFN的汉语篇章连贯性研究

2017-11-27 08:57吕国英王智强
中文信息学报 2017年5期
关键词:连贯性语义框架

吕国英,苏 娜,李 茹,2,王智强

(1. 山西大学 计算机与信息技术学院,山西 太原 030006;2. 山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原 030006)

基于CFN的汉语篇章连贯性研究

吕国英1,苏 娜1,李 茹1,2,王智强1

(1. 山西大学 计算机与信息技术学院,山西 太原 030006;2. 山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原 030006)

篇章连贯性研究是篇章分析领域的重要课题之一。基于Chinese FrameNet(CFN),该文构建了汉语篇章连贯性描述体系,该描述体系研究了框架语义与篇章单元的关系,探讨了篇章如何通过框架与框架之间的语义关系实现篇章的连贯,为篇章连贯提供了合适的描写机制和计算基础。从《人民日报》选取了160篇文章进行标注实践,在篇章结构和篇章关系两方面均取得了大于0.8的kappa值,验证了描述体系具有较高的人工标注一致性,可作为进一步进行大规模篇章标注语料构建的依据。

框架;篇章单元;篇章结构;篇章关系;kappa值

1 引言

篇章连贯性是指篇章中所表达的各种概念和关系的彼此关联,从而使人们能够合理推理篇章的深层意义[1]。它在自然语言处理的许多应用领域都发挥了重要作用,如在统计机器翻译(statistical machine translation,SMT)[2]领域,能够通过修辞关系来提升SMT的性能;在自动问答系统(question answering,QA)[3]领域,篇章连贯性对于复杂的答案确定能起到很大作用。相比英语,汉语的篇章连贯性研究工作仍然偏少,这主要是由于适用于汉语自身的篇章连贯性描述体系及其大规模篇章标注语料库的缺乏。

目前针对篇章的连贯性描述体系,从依赖的核心内容来看主要有基于篇章关系的连贯性和基于话题链的连贯性等。在基于篇章关系的连贯性表示方面, 主要包括以修辞结构理论(rhetorical structure theory,RST)[4]为理论基础的英语篇章语料库(RST discourse Treebank,RST-DT)[5]和以篇章词汇化树型邻接语法(discourse lexicalized tree adjoining grammar,D-LTAG)[6]为理论基础的宾州篇章树库(Penn discourse Treebank,PDTB)[7]。RST理论以篇章中的初级篇章单元(elemental discourse units,EDUs)为基本单位,依据篇章单元之间的修辞关系,自底向上组合形成了二叉或多叉的有层次修辞结构树。在国内,孙静[8]等在RST体系上进行了改良,构建了中文的篇章语料库。PDTB选择篇章连接词作为“谓词”,通过分析连接词所控制的论元来分析论元之间的关系。张牧宇[9]等在PDTB体系上进行改良,提出了面向中文的层次化篇章关系体系,并对大规模的汉语新闻语料进行了篇章关系标注实验。RST和PDTB因其具有完整的理论体系、很强的可操作性受到了篇章研究者的青睐,但是这种表示方式局限于篇章内部的句子关系分析,忽略了句子内部的分析,没有考虑其他影响和支配篇章连贯的因素,如情境语境因素、心理认知因素等。

在基于话题链的连贯性表示方面,周强[10]等认为无论是汉语话题链理论研究,还是广义话题结构分析和实体链、事件链上的可计算性,都初步证明了话题链对篇章连贯性有很大意义。在此基础上,他们形成了一套以话题链为主,融合关联词语和其他连贯形式的描述机制,重构了现有的连贯关系描述集。话题链具有强大的篇章组织功能,通过话题之间的相互关系可以将篇章连接为一个完整的语义体,这种表示方式在一定程度上既反映了语义内容,又反映了结构信息。

随着认知语言学的迅速发展,人们开始采用认知框架的相关概念,构建篇章连贯的认知框架模型,来探索篇章连贯研究的新方法。李天贤[11]从对形式连贯的批评出发,侧重探讨篇章连贯的认知框架因素,考察了篇章语言单位所激活的概念之间的关系在实现篇章意图中的认知模式等。鉴于框架语义学能够充分考虑篇章的背景知识、挖掘语言符号所蕴含的语义信息的优势,本文利用山西大学在Fillmore[12]提出的框架语义学理论基础上构建的汉语框架网(Chinese Framenet,简称CFN)[13-14],将篇章连贯这个篇章语言学中的问题转化为一个可计算的篇章框架语义结构树分析问题,建立了方便计算机实现的框架篇章连贯性描述体系。该体系从形式上实现了篇章语义一级表示,探讨了篇章如何通过词语激活框架,以及框架之间的语义关系,以此实现篇章的连贯,这既在一定程度上模拟了篇章的语义内容,又具有可计算性。本文在第二节详细阐述了汉语篇章连贯性描述体系;第三节在描述体系的基础上进行语料标注实践,并做标注一致性检验;第四节总结全文,并展望未来研究工作。

2 基于CFN的汉语篇章连贯性描述体系

篇章连贯可以从语言表层形式来体现,更重要的则是表层语言形式背后的意义关系。从框架语义学角度出发,假设语言符号是表达篇章意义的形式标记,通过它们激活人脑中已存储的框架,以及在框架语义关系基础上形成的篇章框架语义结构,从而完成篇章的连贯。依据此假设,本文将探讨如何从形式上来表示连贯篇章的这种结构形式,即探讨什么是篇章的基本构成单元、如何将这些基本构成单元组合在一起构成语义的整体,以及如何表示篇章的单元和篇章整体结构。

2.1 篇章基本构成单元与框架语义

篇章作为一个较复杂的语言单位,不同的学派对其定义也不尽相同。Kinneavy[15]认为篇章不仅包括口语和书面语中合乎逻辑而相互关联的内容,而且还指为了解各种目的或事件所涉及的言语活动。黄国文[16]则把篇章视为一系列连续的语段或句子构成的语言整体。本文从框架语义学角度出发,认为篇章是框架的载体,篇章中的基本构成单元至少对应一个框架语义结构。

定义2.1框架[13-14]

框架(frame,F)提供词语在语言中使用的背景和动因,是人类在理解语言时,储存在人类认知经验中的图式化场境,场景内容可以是一个动作、一个活动事件,也可以是一个实体、抽象体的状态。框架语义学将具有相同基本意义、支配相同类型语义角色的词语归入一个框架,比如“渴望”框架下的词语有“渴望”“希望”“盼望”“向往”等,描述的是某个经历者渴望某个事件发生。这些词语虽然意义不尽相同,但在表述“渴望”框架下的场景意义时却是相同或相似的。

定义2.2框架元素[13-14]

框架元素(frame element,FE)是框架语义场景中涉及的语义参与者,如“渴望”框架下,涉及“经历者”“事件”“事件目的”等语义角色。

定义2.3目标词[13-14]

目标词(target,tgt)是指在一个具体的句子中能够激起句子所描述框架语义场景的词语,本文所用到的目标词主要是指句子中的谓词(主要包括动词和形容词),同时也包含部分名词。

框架语义学能够在框架语义结构与句子结构之间建立起形式上的映射关系。形式上,每个框架对应一个语义结构,反映框架内部各框架元素之间的组合关系;每个句子对应一个句法结构,反映句内各成分之间的关系。通常情况下,一个框架语义结构可以通过不同句法结构形式的句子来表示。在语言学中,篇章的基本构成单元是小句,大多数简单小句只能激起一个框架,但汉语真实文本的小句往往能激起多个框架。本文将框架与小句的映射关系具体形式化描述为:

C= {f1(tgt,FE1,FE2,…,FEn),…,

fm(tgt,FE1,FE2,…,FEn)}

其中,C是一个小句,fx(1≤x≤m)是小句激活的第x个框架,tgt是目标词,FEx(1≤x≤n)是小句的某个句法成分充当该框架下的第x个框架元素。例如, “他希望专家学者持续关注教育实践活动”是一个由一个小句构成的句子,由目标词“希望”与“关注”激起的框架可表示为:S={渴望(tgt(希望),经历者(他),事件(专家学者持续关注教育实践活动)),重视(tgt(关注),致动者(专家学者),频率(持续),考虑事项(教育实践活动))}。其中,“经历者”和“事件”是“渴望”框架下的两个框架元素,“致动者”“频率”和“考虑事项”是“重视”框架下的三个框架元素。

由上可知,框架语义学中的框架是以语言符号为载体的语义系统,通过句中的目标词和其携带的框架元素来表示语义场景,是人们体验和认知客观世界的基本单位。因此,本文将至少包含一个框架的小句作为篇章的基本构成单元,这样操作可以通过框架元素与句法成分之间的映射关系建立起篇章的局部结构关系,这对于篇章连贯研究来说,可以提高篇章连贯结构分析的计算模型的局部可操作性。

2.2 框架语义与篇章连贯性描述体系

包含框架的小句作为篇章的基本构成单位,那么研究篇章连贯就是研究语言符号激活的框架所表示语义场景之间的相互语义关系,并通过构建篇章框架的结构来表示篇章的整体结构。借鉴徐盛桓的篇章情景组合理论[17],可以将基本构成单元形成篇章整体结构的过程描述为: 篇章中较小的场景之间不断通过语义关系合成稍大的上层语义场景,直至合成篇章最大的语义场景。其中,最小的语义场景是篇章中的小句激起的框架语义场景,每个合成的稍大场景都由下层较小的场景表示。

人们凭借过去的经验,发现两个或多个框架经常结合在一起,那么这些框架之间就会存在某种语义关系。结合2.1节框架与语言符号之间的关系,发现框架间的这种语义关系体现在语言符号上,与RST理论所探讨篇章关系是相似的。如“造成伤害”框架与“身体感知”框架经常结合在一起出现在人的大脑里,构成因果关系。把这两个框架所描述的场景转换成语句时,就会出现“他受伤了,伤口很痛”这样的句子。句中“受伤”激起框架“造成伤害”,“痛”激起框架“身体感知”,在人的认知中建立起“造成伤害”框架与“身体感知”框架这两个场景的因果关系。同时,在“造成伤害”框架下的其他词语,都能与“身体感知”框架下的词语建立起因果关系。由此可知,框架之间的语义联系即篇章关系,与句子之间的搭配是内容与形式的关系。

由上可知,本文可以将框架语义学下的汉语篇章连贯性描述体系描述为: 一个篇章由与篇章内容相关的框架集组合而成,其中较小的框架集描述的场景按照篇章关系组合形成更大的场景,并进一步再与相邻的框架集所描述的场景组合,最终形成一棵具有层次的篇章框架语义结构树,描述一个完整的最大的语义场景,结构树中的叶子节点是篇章的基本构成单元──包含框架的小句。由于连接词对于判定场景间的篇章关系具有很强的作用,如出现“因为……,所以……”这样的连词时,就可判定两个场景之间是因果关系,因此本文将出现连接词的篇章关系定义为显式的,将没有出现连接词的篇章关系定义为隐式的[7]。

2.2.1 篇章单元的框架表示

针对汉语篇章由一系列句子构成,每个句子由一系列小句构成的特点,在分析篇章关系时,既包括句子之间的关系,也包括句子内各小句的关系,本文将含一个段落的篇章(discourse,D)中的句子经“,”、“: ”等分割的语义单元定义为初级篇章单元(primary discourse unit,PDU),一些初级篇章单元没有能激起框架的目标词,也就是说不能构成篇章的基本构成单元,因此将不具有框架的初级篇章单元与相邻具有框架的初级篇章单元合并在一起构成一级篇章单元(first discourse unit,FDU),其他含有框架的PDU直接向上构成FDU;经“。”、“?”和“!”等分割的篇章单元定义为二级篇章单元(second discourse unit,SDU)。从形式上看,一个篇章由数个二级篇章单元连接构成,二级篇章单元又由数个一级篇章单元连接而成,一级篇章单元至少对应一个框架语义结构,也就是篇章的基本构成单元──至少包含一个框架的小句。如例1所示,三个句子构成一个篇章,篇章的每一级篇章单元都可以由框架进行表示,“()”中内容为初级篇章单元,“[]”中内容为一级篇章单元,“{}”中内容为二级篇章单元,斜体字是目标词,黑体字是目标词激起的框架。

例1{[(美国方面表示表达)PDU1]FDU1,[(美国将与乌克兰及欧洲盟友合作合作)PDU2]FDU2}SDU1。 {[(美国开始着手准备通过输欧天然气管道向乌供提供气)PDU1]FDU1,[(以使乌方获得获得价格适中的天然气)PDU2]FDU2}SDU2。 {[(此外)PDU1,(美国将采取紧急措施援助协助乌克兰)PDU2]FDU1,[(包括包含立即向乌提供提供财政支持)PDU3]FDU2,[(在能源安全和能源改革领域向乌提供提供支持)PDU4]FDU3}SDU3。

上述篇章的篇章单元构成情况可转换为如图1所示的篇章单元构成图(注: 图中篇章单元进行框架表示时,由于框架元素较多,本文用…省略表示)。

图1 篇章单元构成图

从例1和图1中可以看出,在PDU层级,从每个初级篇章单元中识别出—框架(目标词),其中第三个句子的“PDU1此外”没有能激起框架的目标词,具体表示如下:

SDU1.PDU1={表达(tgt(表示),信息传递者(美国方面))}

SDU1.PDU2={合作(tgt(合作),合作者(参加座谈的同志)),信息交流(tgt(交流),信息传递者(参加座谈的同志))}

SDU2.PDU1={提供(tgt(供),接收者(乌),转移体(气),方法(通过输欧天然气管道))}

SDU2.PDU2={获得(tgt(获得),认知者(各位专家学者),新观点(思想观点、意见建议))}

SDU3.PDU1=∅

SDU3.PDU2={协助(tgt(援助),施助者(美国),受助者(乌克兰),方法(紧急措施))}

SDU3.PDU3={包含(tgt(包括),部分(向乌提供财政支持)),提供(tgt(提供),接收者(乌),转移体(财政支持))}

SDU3.PDU4={提供(tgt(提供),接收者(乌克兰),转移体(能源安全和能源改革领域的支持))}

在FDU层级,SDU3下的PDU1没有框架,与PDU2合并为FDU1,SDU下其他含有框架的PDU直接向上构成FDU;在SDU层级,SDU1包含FDU1和FDU2,SDU2包含FDU1和FDU2,SDU3包含FDU1、FDU2和FDU3;在D层级,D包含三个SDU,分别是SDU1、SDU2、SDU3。本文主要分析研究一级篇章单元和二级篇章单元之间的语义关系及在其语义关系上的场景组合。

2.2.2 篇章框架语义结构树

在篇章单元的框架表示下,根据篇章单元激起的框架,通过框架关系建立不同语义场景之间的联系,从最底层的一级篇章单元开始,自下向上生成一个具有层级结构的篇章框架语义结构树,用三元组表示: Tree=(T(l,p),F(l,p),R,C)。 其中T(l,p)=(T1(l,m),T2(m+1,n),…,Tn(o,p))是n(ngt;0)个篇章单元范围为l至q的篇章单元树,T1(l,m)表示第一个篇章单元的范围为l至m,T2(m+1,k)表示第二个篇章单元的范围为m+1至k,Tn(o,p)表示第n个篇章单元的范围为o至p,F是篇章单元范围为l至p的框架集合,F(l,p)={f1,f2,…,fq},q(qgt;0),R表示框架集之间的篇章关系类型,叶子节点是一级篇章单元,C表示连接词,如果出现连接词,用具体连接词表示;如果未出现连接词,用I(Implicit,I)表示。例1的篇章框架语义结构树如图2所示。

如图2所示,篇章框架语义结构树的构建过程如下:

(1) SDU1.FDU1的“表示”激起“表达”框架,描述信息传递者表达他们的思想、感情或某种态度(内容)的场景,SDU1.FDU2的“合作”激起的“合作”框架是信息传递者美国表达的内容,它们之间构成属于关系,形成SDU1描述美国表达与乌克兰及欧洲盟友合作的较大场景,在图2中用T(SDU1.FDU1,SDU1.FDU2)=((SDU1.FDU1,SDU1.FDU2),F(SDU1.FDU1,SDU1.FDU2),属于关系)节点来表示;

图2 例1的篇章框架语义结构树

(2) SDU2.FDU1的“供”激起“提供”框架,描述供应者为接收者提供转移体,用以满足接收者的需要或目的(接收目的)的场景,SDU2.FDU2的“获得”激起“获得”框架,是“提供”框架中接受者的目的——乌方获得价格适中的天然气,它们之间构成目的关系,形成SDU2描述美国向乌提供价格适中天然气的较大场景,在图2中用T(SDU2.FDU1,SDU2.FDU2)=((SDU2.FDU1,SDU2.FDU2),F(SDU2.FDU1,SDU2.FDU3),显式目的关系)节点来表示;

(3) SDU3.FDU2与SDU3.FDU3的“提供”都激起“提供”框架,SDU3.FDU2的“包括”激起框架“包含”,描述部分包含在整体中,部分指集合体的一部分或简单实体的一个组成部分的场景,预示着SDU3.FDU2与SDU3.FDU3的两个“提供”框架是一个整体中的两个部分,因此SDU3.FDU2与SDU3.FDU2构成平列关系;SDU3.FDU1的“援助”激起“协助”框架,描述某施助者通过某种方法帮助受助者实现某个目标来使受助者受益的场景,SDU3.FDU2与SDU3.FDU3的两个“提供”框架是SDU3.FDU1的“协助”框架中施助者采用的两个方法,他们之间构成总分关系,形成SDU3具体描述美国通过财政支持和能源安全和能源改革领域支持援助乌克兰的较大场景,在图2中用T(SDU3.FDU1,SDU3.FDU3)=((SDU3.FDU1,T(SDU3.FDU2,SDU3.FDU3)),F(SDU3.FDU1,SDU3.FDU3),隐式总分关系)节点来表示;

(4) 在(1)、(2)、(3)一级篇章单元按照篇章关系形成的较大场景SDU上,继续向上生成篇章结构树,SDU1场景中的子场景“合作”激起“合作”框架,描述合作者一起从事某项工作的情景,SDU2与SDU3所描述的场景是美国与乌克兰这两个合作者一起从事的两项工作,因此SDU2、SDU3之间构成平列关系,SDU1与SDU2、SDU3之间构成总分关系,形成本篇章最大的语义场景,反映在图2中分别是T(SDU2,SDU3)=((T(SDU2.FDU1,SDU2.FDU3),T(SDU3.FDU1,SDU3.FDU3)),F(SDU2,SDU3),显式平列关系)节点和T(SDU1,SDU3)=((T(SDU1.FDU1,SDU1.FDU2),T(SDU2,SDU3)),F(SDU1,SDU3),隐式总分关系)节点。

2.2.3 篇章关系

由上可知,框架之间的语义关系在篇章内的表现与篇章关系是相似的,因此本文基于黄伯荣和廖序东的《现代汉语》中关于复句及句群之间关系分类体系[18],建立了三层级篇章关系结构,如表1所示。

表1 篇章关系集

在三层级篇章关系结构中,第一层级沿用《现代汉语》根据篇章单元间意义是否平等将篇章关系划分为联合关系和偏正关系两大类别。其中,联合关系是指各篇章单元间意义平等,偏正关系是指各篇章单元间意义不平等。在第二层级篇章关系中, 联合关系可分为并列关系、承接关系、递进关系、选择关系、解说关系。偏正关系可分为条件关系、假设关系、因果关系、目的关系、转折关系、属于关系。本文在传统的偏正关系中加入属于关系这一类别,属于关系表示篇章的意图及意图的所有者的所属关系。第三层级篇章关系, 根据前后篇章单元的功能继续进行细分。在篇章关系层级中,如果无法区分篇章单元之间的关系,将其归入承接关系的连贯关系中。

3 标注实践

3.1 标注流程

为检验篇章理论体系的人工标注一致性,选择《人民日报》中160篇新闻体裁的篇章进行了标注实践及研究。在标注时,只针对篇章结构良好且包含较多框架的段落进行标注,并不进行全文标注。篇章中,最小的篇章只包含1个句子,最大的篇章包含5个句子,平均每个篇章有2.65个句子。标注流程如图3所示。

图3 标注流程图

在确定语料的标注格式后,篇章标注的具体步骤如下:

(1) 将一个篇章进行初步切分,切分出初级篇章单元和二级篇章单元。本文规定“,”“: ”等作为初级篇章单元的分隔符,“。”“?”“!”等作为二级篇章单元的分隔符;

(2) 在初级篇章单元中,识别能激起框架的目标词并标注框架名及框架元素,将没有框架存在的初级篇章单元与后面相邻的含有框架的初级篇章单元进行合并,构成一级篇章单元;

(3) 从一级篇章单元开始,自底向上组合形成篇章框架语义结构。在标注篇章关系时,根据具有关联的篇章单元之间是否有连接词,先标记其显隐式,再确定它们具体的篇章关系类型。

3.2 一致性检验

3.2.1 标注设置

本次标注的语料数据集在经过初步切分并标注了目标词激起框架的基础上,三名均具有篇章关系研究经历的标注人员执行了篇章框架语义结构生成及篇章关系识别的标注任务。本文采用标准kappa 值[19]计算多名标注人员的标注一致性,并统计了多名标注者之间结果完全相同的实例数目,如式(1)所示。

式中:P(A)表示多名标注者评定一致的百分比,P(E)表示理论上评定一致的百分比。

3.2.2 标注分析

(1) 标注基本情况

在本语料库中,初级篇章单元和二级篇章单元按照标点符号进行切割,篇章中的目标词及目标词所激起的框架是确定的,初级篇章单元合并后生成的一级篇章单元是确定的,因此标注者在这三个方面的标注几乎没有差异,但是他们形成的篇章框架语义结构及篇章单元之间的篇章关系,却会因为不同的理解而产生标注差异。本文总共标注了 1 241个目标词,其中968个目标词能在CFN框架中找到框架,所占比例为78%,涉及的框架总数共有154个。篇章标注基本情况如表2所示,由表2可以看出,在160个篇章中,共有1 138个初级篇章单元,1 033个一级篇章单元,445个二级篇章单元。三名标注人员在标注的关系总数方面分别是779、785、783。

随机抽取一名标注人员的标注数据进行统计,得到了如图4和图5所示的结果。

表2 篇章标注基本情况

图4 一级篇章单元篇章关系分布图

图5 二级篇章单元篇章关系分布图

从图5~6可以看出,在160个篇章中,篇章关系的分布呈现不均匀的状况。在一级篇章单元篇章关系分布中,并列关系(LB)、承接关系(LS)、因果关系(PY)、属于关系(AT)所占比例较大;在二级篇章单元篇章关系分布中,并列关系(LB)、承接关系(LS)、解说关系(LJ)、因果关系(PY)、目的关系(PZ)所占比例较大,选择关系(LX)、条件关系(PT)、假设关系(PJ)、目的关系(PM)、属于关系(AT)所占比例为0。

(2) 篇章层次结构的一致性

在确定了各级篇章单元之后,本文计算了各个标注者之间的篇章标注层次结构的一致性。由于本文只考虑相邻两个篇章单元之间是否具有篇章关系,因此当相邻数个篇章单元发生关系时,从左向右依次将相邻两个篇章单元组合,来考虑它们之间的篇章结构一致性。在计算篇章层次结构的一致性时,本文参考了Marcu (1999)等人开发的方法[20],下面结合例2来介绍操作过程。

例2[(因为懂当地语言)PDU1]FDU1,[(所以主要由我负责对外沟通和会谈)PDU2]FDU2,[(由此认识许多比利时主流社会朋友)PDU3,[(并积累不少工作经验)PDU2]FDU2]FDU3。

在本例中,有4个一级篇章单元,经两名标注人员标注后形成的层级结构如图6所示。

图6 标注者标注情况

将例2中四个一级篇章单元之间可能发生篇章关系的篇章单元对映射到篇章单元层次中。如表3所示,每一组具有篇章关系的篇章单元对可以用R([i,m],[m+1,j])来表示, 其中R表示篇章单元对具有的篇章关系,[i,m]表示篇章单元对中第一个篇章单元的范围为i至m,[m+1,j]表示篇章单元对中第二个篇章单元的范围为m+1至j。 针对每一组篇章单元对,如果标注者认为它们之间具有篇章关系则标注为Y,不具有篇章关系则标注为N。如果多个篇章单元之间具有关系,则将其分解成依次相邻两个篇章单元具有关系,如R([i,m],[m+1,j],[j+1,k]),可分解为R([i,m],[m+1,j])和R([m+1,j],[j+1,k]),根据表3列出的篇章单元对,将标注者A和标注者B的标注情况(见图6)映射到表3中。

依据表3的情况,对标注者之间的层次结构一致性进行kappa计算,结果如表4所示,三个标注者分别记为A、B和C。从表4的结果中可看出,在一级篇章单元的层次结构、二级篇章单元的层次结构及整体的层次结构方面,A与B的kappa值都是最高,均大于0.9;三名标注者之间的kappa值也均大于0.9,说明三名标注者在层次结构方面的一致性较好;二级篇章单元的层次结构的kappa值小于一级篇章单元的层次结构kappa值,说明篇章单元范围越大,越容易产生层次结构不一致的现象。

表3 标注者标注示例

表4 篇章结构一致性

(3) 篇章关系的一致性

在篇章结构一致的基础上,分别验证了标注人员在一级篇章单元、 二级篇章单元和整体的篇章关系方面细化至第三层关系的一致性,结果如表5所示。

表5 篇章关系一致性

从表5可以看出: 三个标注者在一级篇章单元、二级篇章单元及篇章整体关系方面的kappa值分别为0.897、0.829、0.874,说明标注者在篇章关系方面的一致性较好;二级篇章单元之间的篇章关系Kappa值小于一级篇章单元之间的篇章关系Kappa值,说明篇章单元范围越大,越容易产生不一致;在篇章关系种类方面,由于二级篇章单元的选择关系、条件关系、假设关系、目的关系、属于关系的实例数目很少,导致标注者在这几类关系方面的相同数目为0,说明一级篇章单元和二级篇章单元之间的关系类型分布具有一定的差异。

通过以上对篇章进行kappa计算可知: ①标注人员在篇章结构及篇章关系等方面的一致性都较好,标注质量稳定可靠,可以继续后续的标注工作; ②不论篇章结构,还是篇章关系,二级篇章单元之间的kappa值均小于一级篇章单元之间的kappa,说明随着篇章单元的范围扩大,标注者之间产生的差异性随之扩大。

4 结论与展望

本描述体系以框架概念为基础,探讨了篇章连贯的框架表示模型,把篇章连贯这个篇章语言学问题转化为一个可计算的篇章框架语义结构树分析问题,构建了基于框架的篇章连贯性描述体系。描述体系中的篇章框架语义结构树的框架含有较多的语义信息,既在一定程度上模拟了篇章的语义内容,又具有可计算性。在此基础上,选用人民日报的新闻语料作为原始的标注语料,并采用kappa值来检验人工标注的一致性。较高的检验结果kappa值验证了篇章框架语义连贯性描述体系能够作为汉语篇章语料标注的依据,未来将依据篇章描述体系针对不同领域构建一定规模的篇章标注语料,同时依据真实篇章标注数据开展篇章关系及篇章结构的自动识别工作。

[1] Crystal D.The Cambridge encyclopedia of language [M]. Cambridge: Cambridge University Press, 1987.

[2] Mitkov R. How could rhetorical relations be used in machine translation (and at least two open questions)? [C]//Proceedings of ACL Workshop on intentionality and structure in discourse relations. Morristown: A-ssociation for Computational Linguistics, 1993: 86-89.

[3] Santhosh S. Discourse based advancement on question answering system [J]. International Journal on Soft Computing, 2012: 11.

[4] Mann W C, Thompson S A. Rhetorical structure theory: toward a foundational theory of text organization [J]. Text, 1988,8(3): 243-281.

[5] Carlson L, Marcu D. Building a discourse-tagged corpus in the framework of rhetorical structure theory [C]//Proceedings of the Second SIGdial Workshop on Discourse and Dialogue, 2001.

[6] Forbes K, Mihsakaki E, Prasad R, et al. D-LTAG System: Discourse parsing with a lexicalized treeadjoining grammar [J]. Journal of Logic, Language and Information, 2001, 12(3):261-279.

[7] PDTB Research Group. The Penn discourse treebank 2.0 annotation manual [R]. Philadelphia: University of Pennsylvania, 2008.

[8] 孙静,李艳翠,周围栋,等. 汉语隐式篇章关系识别[J]. 北京大学学报(自然科学版),2014,50(1):111-117.

[9] 张牧宇,秦兵,刘挺. 中文篇章级句间语义关系体系及标注[J]. 中文信息学报,2014,28(2):28-36.

[10] 周强,周骁聪. 基于话题链的汉语语篇连贯性描述体系[J].中文信息学报,2014,28(5):102-110.

[11] 李天贤.认知框架视角下的语篇连贯研究[D]. 浙江大学博士学位论文. 2012.

[12] Fillmore C J. Frame semantics [M]//Linguistics in the Morning Calm, the Linguistic Society of Korea, Seoul: Hanshin. 1982:111-137.

[13] 李茹.汉语句子框架语义结构分析技术研究[D]. 山西大学博士学位论文. 2012.

[14] 郝晓燕,刘伟,李茹,等. 汉语框架语义知识库及软件描述体系[J]. 中文信息学报, 2007, 21(5): 96-100.

[15] Kinneavy J L. A Theory of discourse: the aim of discourse [M]. Englewood Cliffs, NJ: Prentice-Hall International, 1971.

[16] 黄国文. 语篇分析概要[M]. 长沙: 湖南教育出版社, 1988.

[17] 徐盛桓. 篇章:情景的组合[J]. 外国语(上海外国语大学学报), 1990, 6:3-13.

[18] 黄伯荣,廖序东. 现代汉语[M]. 北京: 高等教育出版社, 2011.

[19] 栾建安,王纪宪,苏炳华,等. 多类别多评估者的kappa分析[J]. 中国卫生统计,1995,12(6):20-22.

[20] Daniel M, Estibaliz A, Magdelena R. Experiments in constructing a corpus of discourse trees [C]//Proceedings of the ACL Workshop on Standards and Tools for Discourse Tagging, College Park MD, 1999: 48-57.

吕国英(1964—),硕士,副教授,硕士生导师,主要研究领域为自然语言处理。

E-mail: english@sxu.edu.cn

苏娜(1989—),硕士研究生,主要研究领域为中文信息处理。

E-mail: 374286185@qq.com

李茹(1963—),博士,教授,博士生导师,主要研究领域为自然语言处理。

E-mail: lim@sxu.edu.cn

AStudyonChineseDiscourseCoherenceBasedonCFN

LV Guoying1,SU Na1, LI Ru1,2,WANG Zhiqiang1

(1. School of Computer amp; Information Technology, Shanxi University, Taiyuan, Shanxi 030006, China; 2. Key Laboratory of Computation Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan, Shanxi 030006, China)

The research on discourse coherence is an important issue in discourse analysis. Based on Chinese FrameNet(CFN), this paper presents a coherence description scheme for Chinese discourse. It establishes the relationship between the frames and discourse units, and discusses the ways to achieve the discourse coherence by the frames and semantic relationships between frames. This provides a description mechanism and computation basis for discourse coherence. Annotations of 160 articles are selected from the People's Daily shows a more than 0.8 kappa value in both discourse structure annotation and discourse relation annotation. This proves that the proposed scheme guarantee a high consistent manual annotation, which is crucial to larger-scale discourse annotating.

frame; discourse unit; discourse structure; discourse relation; kappa value

1003-0077(2017)05-0040-10

TP391

A

2015-11-01定稿日期2016-07-25

国家863计划(2015AA015407);国家自然科学基金(61373082);山西省回国留学人员科研资助项目(2013-015);山西省科技基础条件平台建设项目(2014091004-0103);中国民航大学信息安全测评中心开放课题基金(CAAC-ISECCA-201402)

猜你喜欢
连贯性语义框架
真实场景水下语义分割方法及数据集
慢性宫颈炎患者采用连贯性护理健康教育的临床价值
有机框架材料的后合成交换
框架
Why do we celebrate the New Year?
语言与语义
“吃+NP”的语义生成机制研究
关于原点对称的不规则Gabor框架的构造
我国在WYO框架下面对的贸易保护现状及应对
汉语依凭介词的语义范畴