李佐文 严玲
(中国传媒大学 外国语言文化学院, 北京 10024)
计算话语学是随着自然语言处理和话语语言学研究的不断深入提出的新概念。上世纪40-60年代机器翻译热潮直接催生了计算语言学的诞生。进入互联网时代,承载各种信息的语言资源都汇聚在网上,为自然语言处理提供了丰富语料。在计算语言学发展历程中,词汇、句法层面的语言处理已取得一定成果。Wilks的优选语义学、Fillmore的格语法,Shank的概念依存理论、Simmons的语义网络理论和Montague的语法等为小句层面的语义分析提供了有力的理论支撑。Chomsky的短语结构语法被不断改进,成为计算机句法分析的主流模式(蔡自兴、王勇,2014:312)。与这些成果相比,话语层面涉及语言计算的理论还较为薄弱。目前自然语言处理中存在的诸多瓶颈问题都与语篇层面的语义计算未取得实质性突破有关。因此,计算话语学研究是人工智能快速发展背景下自然语言处理技术提出的迫切要求,也是计算语言学不断走向完善和深入的历史必然。
话语的计算研究是一个极为复杂的领域。随着计算机科学的发展,机器的计算能力不断增强,特别是近年来深度学习的快速发展和应用,给计算机处理话语带来希望。然而,人工智能领域的专家一般只擅长工程和算法,对话语语言学的理论和规律缺乏了解,使得计算话语学研究进展较为缓慢。因此,话语的计算研究成为现代话语语言学的重要研究领域和方向。
计算话语学(computational textlinguistics)是一门研究如何在语言学理论框架内用可计算的形式抽象概括出话语意义操作模型的学科,是用话语形式特征实现语义计算的处理过程。它主要涉及话语语言学,认知语言学和计算语言学,是人工智能研究的重要内容。
计算话语学的研究路径需要首先探讨话语理解和生成的心理机制,将这种运作方式形式化,研究算法让计算机模拟人脑进行语言计算,验证研究结果。其实质就是希望电脑能够像人脑一样进行运算。这种研究路径最关键的一步,就是揭示大脑处理语言的运作规律。计算语言学为计算话语学提供了一整套的研究框架、方法、目标导向,认知语言学为挖掘话语的可计算模型提供了逻辑推理的理论基础,数学和计算机程序为计算话语学的研究成果转化为可操作的应用提供了实现路径,话语语言学则是计算话语学的母体和内容库。
自然语言处理系统一般包括理论、资源(树库、知识库等)、计算模型三部分。根据系统功能语言学将语言的三大元功能界定为概念功能、人际功能、语篇功能,我们认为计算话语学的研究就是从话语谋篇布局的结构中发掘话语的概念意义和人际意义。根本问题就是揭示语篇的语义结构、信息结构、逻辑脉络。
概念义对于语篇而言,主要指语篇的整体义,即主题义。主题义并不是语篇中所有小句义的简单叠加,而是词语通过线性文本建构出来的整体义。因此,要计算语篇的主题义,首先要研究语义和语篇结构的关系,揭示语义流是如何通过语篇结构的引导,汇聚成各种各样的概念义。话语语言学对语义和语篇结构的研究集中在局部连贯和整体连贯方面,计算话语学则利用这些理论成果开展指代消解和语篇结构建模。
3.1.1 语篇连贯的理论研究
连贯问题是话语研究的经典问题。自从Halliday提出英语的衔接机制以来,众多学者从各个角度对这一问题展开了研究。就局部连贯而言,学者们探究了小句间各种衔接手段,以及语境和认知对语义连贯的作用。就语篇整体连贯而言,主要有以下几种研究视角。第一,关注话语标记承担了怎样的语篇框架建构任务。这些话语标记包括话语的起始、终结标记,如“首先、此外、最后等”;话语的框架结构标记,如“第一、其次、另一方面、如前所述”等(李佐文,2003)。第二,揭示某一类语篇的常用结构框架。如Labov(1972)的叙事结构分析,廖秋忠(1988)的各种论证结构等。第三,关注主位推进模式。第四,从认知视角揭示整体连贯的机制。如框架、脚本、图式、心理模型。第五,语篇宏观结构提取(van Dijk,1980;陈忠华等,2004:190)。第六,Beaugrande(1980:102)的语篇世界模型。该模型由四个元素构成:概念(分主、次两个层次)、关系(33种)、算子(8个)、优选规则(12条)。概念是语篇语义网络的结点,关系则是节点间的联系,算子是逻辑运算符号,优选规则是底层到表层映射的认知操作规则。
上述理论成果依据“形式到语义”的计算路径可以分为四类。第一类,如局部连贯、语篇连贯的话语标记、语篇整体结构模板、主位推进模式,均关注语言形式,却未能很好地将形式和语义的界面解释清楚,无法解释各种形式标记或语篇模板反映出怎样的语义。第二类是从认知角度的研究,揭示了话语过程和概念间的联系。它们对于高频、固定结构的解释比较准确,但应对自然语言变化多样的语篇构造却显得力不从心。因此,这些图式、框架、脚本的理论,更适合FrameNet、HowNet这样的静态知识库建设。第三类理论对形式到语义的映射进行了细颗粒度的详细刻画,如Beaugrande的语义网络。但缺乏对语篇核心语义的归纳总结机制。第四类理论描绘了形式到意义的认知计算,如宏观结构的计算。这些计算过程对计算话语学研究有很好的启发作用。需进一步研究如何让计算机能进行类似的认知操作。总体而言,针对概念义的语篇结构研究,积累了大量成果,但仍未真正解决语篇结构是如何构建概念语义这一问题。
3.1.2 语篇连贯的计算研究
在计算话语学中,研究连贯的主要目的是发现句子间的逻辑语义关系。已有语篇连贯计算模型包括:话语表现理论(DRT)(Kamp,1981)、话语链图结构(chain-graph-based structure)(Wolf & Gibson,2005)、中心理论(Grosz & Candace,1986)、修辞结构理论(RST)(Mann & Thompson,1988.)、汉语广义话题结构流水模型(宋柔,2013)等。下面重点介绍较为经典的修辞结构理论(RST)和汉语广义话题结构流水模型。
修辞结构理论(Rhetorical Structure Theory, RST) RST有四个基本元素:单位、语段、箭头线、连贯关系,如图1。单位是分析的最底层单元,用数字标号。图1的单位1是文章标题,单位2、3、4是文章开头的话语。语段是单位的结合体,用直线连接,用被连接的单位数字命名,如“3-4”。箭头线的命名是单位或语段间的连贯关系,如“2”和“3-4”之间是条件关系(condition),箭头方向指向的语段是核心成分(如“3-4”),箭头离开的成分是卫星成分(如“2”)。RST的连贯关系界定中,主要从语义和功能角度,而非形式和句法角度来判断。在图1中,我们可以看到箭头从上至下,最终指向了“3”,可知这段话中“3”是语篇的中心,表达了语篇的主题。这是通过篇章关系的传递性和主辅性实现的。RST理论通过对局部连贯关系的逐级判定,最后将整个语篇建构成一个以核心、卫星成分判定连贯关系的,具有层级结构的语篇树(discourse tree)。
图1 修辞结构理论示例(Taboada & Mann,2006)
RST理论需完善的地方在于单位(unit)的确定(Taboada & Mann, 2006)。RST的单位通常是一个独立的小句以及它的附属成分。但这样的判断标准有可能丢失重要的细节信息,也只适用于有小句结构的语言,不适用于口语。此外,对学术语篇中较长单位的关系判断,以及像汉语这样,78.8%的连贯属于隐式连贯(梁国杰,2015:33)的语言如何判断关系,还需要进一步研究。
广义话题结构流水模型 该模型主要将“不成句的标点句”构造为“成句的话题自足句”,使得语篇处理简化为对单句序列的处理,为语言计算提供便利。该模型具有高覆盖率和易操作的特点,其分析的基本单位是标点句。话题结构由话题和说明两部分构成,话题是某一标点句中被其他标点句谈论的部分或整句。说明是谈论话题的标点句。例如:
张莉努力读书,
|希望能改变自己的命运。
王强早早辍学,
|进城打工,
|也希望能改变自己的命运。
这个例子中,“张莉”、“王强”是话题,其余是说明。由于话题不仅仅是实体类,还包括时间、处所类、状性、谓性、推理前提等类型,所以称之为广义话题。广义话题结构的堆栈模型,是将每一行文本的左边看作栈底,右边看作栈顶。栈底是话题,保持不动,栈顶是说明,随着对话题谈论的进行,不断有新文本进入栈顶的说明位置,而旧文本则从该位置退出,从而每一行都可以补足成话题自足句。上例的话题自足句为:
张莉努力读书。张莉希望能改变自己的命运。
王强早早辍学。王强进城打工。王强也希望能改变自己的命运。
在广义话题结构的缩进图式中,从左至右,从上到下,直到标点句右端,所经过的词语串都是话题自足句。该模型还需解决的问题包括:哪些词语是高频话题词语,充当广义话题有哪些约束条件,以及话题之间的语义关系。
3.1.2 指代消解研究
指代消解是将语篇中指向同一对象的不同表达识别出来,形成词汇指代链。指代消解从数学角度看是个聚类过程,将指向相同实体的先行词和各种指代聚成一类。它的操作过程是,首先将待消解的指代词识别出来形成待消解候选项集合。然后用基于规则或数据驱动的方法对这些候选项进行聚类筛选,确定最后的所指对象。
指代消解的理论模型有朴素Hobbs算法、中心理论、脉络理论(Cristea et al.,1998)等。近期比较有影响的研究是斯坦福大学Raghunathan团队基于多重过滤框架的共指消解模型(Raghunathan et al.,2010)。该模型利用多种特征,进行多层过滤。每一层的输入是上一层消解候选项(mentions)聚类的输出。在同一个聚类簇(cluster)中,每个候选项的属性被所有候选项分享,使得全局性信息能在模型中传递。这样的层次过滤保证了强势特征(stronger features)享有超越弱势特征(weaker features)的优先权。具体的过滤层次和规则如图2所示。
通道(pass)类别(Type)特征(Features) 1N精确匹配(exact extent match)2N, P同位成分(appositive) |谓语主格(predicate nominative)| 角色同位语(role appositive)| 关系代词(relative pronoun) | 首字母缩略词(acronym) |地方性称谓词(demonym)3N聚类簇中心词匹配(cluster head match) &词包含(word inclusion) & 修饰语兼容(compatible modifiers only)& 非其他NP的子节点(not i-within-i)4N聚类簇中心词匹配(cluster head match) &词包含(word inclusion)& 非其他NP的子节点(not i-within-i)5N聚类簇中心词匹配(cluster head match) &修饰语兼容(compatible modifiers only) & 非其他NP的子节点(not i-within-i) 6N宽松聚类簇中心词匹配(relaxed cluster head match) & 词包含(word inclusion) &非其他NP的子节点(not i-within-i)7P代词匹配(pronoun match)
图2 指代消解的多重过滤标准汇总(Raghunathan,2010)
N 指名词性表述(nominal), P 指代词性表述(pronominal), & 表示合取, | 表示析取
指代消解目前的难题主要集中在三个方面(孔芳等,2010;周炫余等,2014):(1)跨文本指代消解,将不同文本中指向同一实体的名称识别出来。(2)消解候选项的精准识别,如何去除大量非候选项噪音。(3)如何利用背景知识、语篇结构知识、深层语义知识进行指代消解。
人际义与情感分析(sentiment analysis)、意见挖掘(opinion mining)相关,体现了话语的评价含义。情感分析与意见挖掘有很大的重合性,为叙述方便,以下用情感分析指代两者。
3.2.1 情感分析的语言学研究
情感分析的本质是对语言评价义的挖掘。早期对评价的研究主要在立场(stance)(Biber et al.,1989)和言据性(evidentiality)(Chafe,1986)方面。Langacker也从认知角度讨论了主观性(subjectivity)问题(Langacker,1990)。对评价语言进行系统描写的理论当属Martin团队提出的评价系统。评价系统由态度、介入、级差三个子系统构成,三者之间是合取关系。
态度子系统是核心,由涉及感情表达的“情感”,从道德方面衡量的态度表达“判断”,从美学方面衡量的态度表达“鉴赏”三个变量组成(Martin & White,2008:42)。评价系统将表达态度的语言形式从显性到隐性划分为几个等级,即:明显表现态度的题写形式(inscribe),用隐含态度词语表达态度的激发形式(provoke),用隐喻等手段提示态度的标识形式(flag),靠语境和背景知识等暗示态度的陈述形式(afford)。在情感分析中,除了题写形式,其他几种形式的态度表达都是计算机判断的难点,值得深入研究。
3.2.2 情感分析的计算研究
情感分析首先要区分客观陈述和主观陈述,然后对主观陈述进行特征识别,提取其中的评价者(opinion holder)、评价对象(target)、评价表述(appraisal expression)等信息。最后,进行情感类别判断。
对主观陈述的识别主要依靠对情感词、句子结构、上下文语境等内容的主观性判断,也可以通过比较待判定陈述和已知主观陈述之间的相似度进行。对评价者的识别主要依据命名实体,或依据FrameNet的语义角色标注。对评价对象的识别,也多数将其限定在名词或名词短语范畴,主要是基于句法、语义规则。对于评价词语的提取可以在大型语料库中提取评价性形容词,或用点互信息方法(PMI)方法判断待评价词,或通过WordNet和HowNet的词义关系来提取。对情感极性的判断,可以利用情感词之间的相似度计算情感极性,或利用HowNet的语义相似度和语义场计算情感倾向。
3.2.3 情感分析的难题
情感分析中利用文内和文外语境进行情感义判断的研究虽然已经引起学者们关注,但尚未出现真正突破性成果,对反讽、隐喻、夸张等隐性评价无法准确判定。语篇级别的整体情感倾向分析,多数是词汇情感极性的简单叠加,没有结合语篇特征开展。中文情感分析中,缺乏标注完善的大规模情感语料库和情感词典。在语料库建设中,对于主观表述、情感词、情感表达,情感信息分布模式、情感信息流动方式等都有待进一步研究(徐琳宏等,2008)。
计算话语学的研究具有明确的问题导向性。以自动文摘为例,自动文摘涉及文章关键词、中心思想的提取等,可以通过多种方式和路径实现文摘的自动生成。因为研究成果要用于计算机处理,所以特征描写一定要有明确、严格的界定方式。其次,很多计算话语学的问题可以转变为聚类问题,所以特征分类很重要。
基于规则的研究方法 理性主义关照下基于规则的方法,将语言视为符号规则的集成。研究者从语言中提取规则加以形式化,然后转变为算法输入计算机,由计算机利用这些规则对语言进行处理。基于规则的方法中,语言特征的形式化和建模是两个重要步骤。形式化是用有限的符号来表示语言的无限性,而语言特征建模则需要通过数学方式。常用的数学知识包括:数理逻辑、概率统计、以及离散数学的知识,如:集合论、逻辑、代数中与语言相关的部分(帕赫蒂等,2012:vii)。
基于统计的研究方法 基于统计的研究方法又称为经验主义关照下语料库驱动的方法。经验主义是将计算机视为具有体验能力的“仿真人”,让它自己从语言中学习规则。通常分为有指导学习和无指导学习。在有指导机器学习中,带标注的语料库是机器学习的老师,而标注什么、如何标注来自于计算话语学的研究成果。无指导学习是让计算机从未标注语料中自己总结语言规律。但由于计算机没有学习过标注好的语料,往往无法知道自己总结的语言规律是否正确,从而影响了语言处理的效果(冯志伟,2011)。在实际的语言处理中,基于规则和基于统计的方法往往结合使用,以谋求最佳效果(中文信息处理发展报告2016:29)。
深度学习和知识图谱技术 深度学习是基于人工神经网络的机器学习,它将世界知识表示为嵌套的层次概念体系,具有很强的能力和灵活性,能从对象化样本学到非对象化的对象识别。深度学习算法将一层或浅层难于处理的复杂映射或函数运算,分解为多个嵌套层次的简单映射。这里的关键是“嵌套的隐含层”,也就是深度的出现。在一个层次上达不到的,却可能在更多的嵌套叠层中实现。深度学习算法的层次性,裂隙化联系,显示出不可替代的构造功能。深度学习在多种自然语言处理任务上表现都很突出。
知识图谱是由语义网络构成的知识库。从数据结构上讲,图谱是由节点和边来构成,也可以把它理解成多关系图(Multirelational graph)。它提供了实体之间的结构化联系,就像话语世界中命题与命题之间的各种语义关联,因此知识图谱非常适合于话语连贯关系的计算。知识图谱的优势在于强大的数据描写能力,各种机器学习算法虽然在预测能力上很不错,但描写能力有限,知识图谱刚好填补了这一空缺。
计算话语学作为面向自然语言处理的新兴话语研究方向,其发展之路任重而道远。语篇主题义和人际义的计算是计算话语学的核心问题。主题义是语篇的语义流利用语篇结构而建构的,而人际义的正确解读更多地依赖于动态语境知识。这些问题的解决依赖于认知语言学对人类话语理解和生成模式的解构,也依赖于计算机技术和算法的革新。对于计算话语学研究者而言,从认知角度研究语篇结构和人脑对语境知识的调用过程,从中推理人类普遍具有的逻辑思维模式,并设法将这些模式形式化,是一项相当重要而艰巨的任务。