基于独有属性特征的情态与语境互动关系数据挖掘研究

2019-11-11 01:08于建平付继林白塔娜李少辉洪文学
燕山大学学报 2019年5期
关键词:情态句法词义

于建平,付继林,白塔娜,李少辉,洪文学

(1.燕山大学 外国语学院,河北 秦皇岛 066004;2.燕山大学 里仁学院,河北 秦皇岛 066004;3.燕山大学 电气工程学院,河北 秦皇岛 066004)

0 引言

情态动词词义具有很大不确定性,其具体含义在很大程度上受到其出现的语境影响[1],这给自然语言理解和处理以及机器翻译带来了很大的困难。因此,开展情态动词词义与语境特征之间的互动限制关系研究很重要。它对揭示情态动词词义与语境特征之间的数据结构关系和发现识别情态动词词义的重要语境特征都具有重要的意义,为情态动词词义消歧和自然语言处理研究提供重要理论和实践依据。由于情态动词一直是语言学、哲学和自然语言处理研究的热点,引起很多学者的关注。传统语言学领域对情态意义研究主要集中在情态动词的语义分类和语法功能描述上[2-3]。近年来,学者们更关注情态动词句法和语义演变[4-5],语义和语用功能[6-7],语法和语义范畴[8],语义特征及主观化[9]和情态语法化过程[10]等。在词义与语境关系方面,黄广芳和倪豪杰[11]研究了新闻报道语境对情态动词词义的限制作用。康陆[12]分析了语境对情态的作用,发现构成语境的各因素都会影响情态动词词义,话语意义受其所处语境制约,语境对于话语生成和理解都有限制作用。范文芳[13]研究了情态在不同语境中意义,指出情态动词意义取决于其所处语境。陈海霞[14]证实了语境与情态动词词义的互动限制作用。

从以上研究可以看出,学者们从不同角度研究了情态意义以及语境对情态意义的约束作用。然而,以往研究主要是基于观察例句表面句法特征的分析。而且,所考虑的语境因素只包括语篇内部语境因素(语义特征和句法特征),未考虑语外特征(语用和话题特征)。由于所列举例句的数量和句法特征有限,而且所考虑的语境因素也有限,导致研究结果具有局限性和不科学性。本课题组前期研究[15-19]发现,对于情态动词这类语义复杂而且对语境高度敏感的词类而言,仅考虑共现语义和句法特征有很大局限性,难以全面揭示和发现情态语义与语境之间的本质互动关系,所以,需要考虑多维度、更全面的语境特征。Turdakov[20]也强调了语义排歧中考虑不同语境特征的重要性。

随着情态语义研究的不断深入,学者们更关注情态与语境的互动关系和对情态语义有更大限制力的语境特征等。因此,本文采用独有属性特征提取方法开展英语情态动词词义与多维度语境特征的互动关系研究,揭示它们之间的互动限制关系,旨在为情态语义学、自然语言处理和智能语义识别特征选择研究提供理论和实践依据。

本文的创新点在于:1)融合数学、信息科学和语言学知识,借助相应的计算机软件,研究情态动词词义与语境特征的互动关系,挖掘语言数据结构中隐藏的知识;2)采用基于形式概念分析的独有属性特征提取方法挖掘语义概念结构数据之间的关系。由于该方法可以挖掘出比其他方法更简洁的词义分类规则和独有属性特征,因此能更直接、更清晰地反映情态与语境的互动关系;3)克服了语言学现有研究方法的不足,采用形式化语义分析方法和计算机技术,分析情态动词词义与语境特征的互动限制关系,研究结果更科学、合理、有效。

1 理论基础和方法概述

本文研究基于形式概念分析理论和基于形式背景的独有属性特征提取方法。形式概念分析[21]是应用数学的一个分支。概念格是其核心数据结构。概念格的每个节点被称作一个形式概念,由外延和内涵两部分构成。外延表示属于这个概念的所有对象的集合;内涵表示所有这些对象所共有的属性的集合。反映对象和属性之间关系的形式背景是生成概念格的基础。形式背景也是知识发现和数据分析的一种有效数学工具,它已经被成功运用到知识发现、语义排歧和可视化等多个领域。

1.1 关于形式背景和独有属性的理论描述

本文研究基于以下关于形式背景(定义1[21])和一些独有属性特征(定义2~4[22-23])的理论描述:

定义1.形式背景:一个三元组K=(O,A,I)称为形式背景,其中,O={o1,o2,…,oj}为非空有限对象集合,A={a1,a2,…,ai}为非空有限属性集合,I为笛卡尔积O×A上的二元关系,(o,a)∈I表示对象o拥有属性a。

定义2.简单独有属性:在形式背景K=(O,A,I)中,如果属性ai∈A满足|g(ai)|=1,则称属性特征ai为形式背景K的简单独有属性,式中,g(ai)为具有属性ai的对象集合,|g(ai)|表示具有属性ai的对象基数。

定义3.决策形式背景:一个决策形式背景可表示成五元组K=(O,A,I,D,J),其中(O,A,I)是条件背景,(O,D,J)是决策背景,且条件属性集A与决策属性集D无交集。J为笛卡尔积O×D上的二元关系。

定义4.类独有属性:在决策形式背景K=(O,A,I,D,J)中,设O1⊆O为一类对象的集合,a∈A为一个条件属性,如果对于除O1之外的任何类对象集合Op,都有:g(a)⊆O1,g(a)∩Op=∅,则称属性a为O1的类独有属性。

定义5.类独有复合属性:在决策形式背景K=(O,A,I,D,J)中,设O1⊆O为一类对象的集合,A1⊆A为一个条件属性子集,如果对于除O1以外的任何类对象集合Op,都有:g(A1)⊆O1,g(A1)∩Op=∅,则称属性A1为O1的类独有复合属性。

1.2 独有属性计算方法

基于以上给出的形式背景和不同独有属性特征的定义,下面给出独有属性、类独有属性和类独有复合属性的计算方法和步骤:

1)确定不同类别的决策属性集合D1,D2,…,Dp(p≥2);

2)初始化i=1;

3)计算决策属性的对象集合g(Di)=Oi;

4)设对象集合Oi包含有n个对象,Ac为一类对象的条件属性集合。对Oi计算条件属性集合:

P(Aci)={aci1,aci2,…,acik},k≥1为Aci的幂集,其中,acij为Aci的第j个子集(j=1,2,…,k);

5)初始化t=1;

6)计算acit∈P(Aci)的对象集合g(acik)=Ocik;

7)如果Ocik⊆Oi,则进入下一步,否则,t=t+1,返回到第6步;

8)如果此时|acik|=1,则acik中的属性为类独有属性;如果|acik|>1,则acik中的属性为独有复合属性;

9)如果t=k,则进入下一步,否则,t=t+1,返回到第6步;

10)如果i=p,则结束;否则,i=i+1,返回到第3步。

该方法的流程图见图1。

图1 独有属性计算方法流程图

Fig.1 Flow chart of calculating exclusive attributes

举例:已知表1中的形式背景。按照以上步骤可以算出,决策属性D1的对象集合g(D1)=O1={o1,o4,o8};D1类的类独有复合属性有:{a1,a2,a3,a4,a8};{a1,a2,a3,a5,a7,a8};{a1,a6,a8},没有类独有属性;D2的对象集合g(D2)=O2={o6,o7},D2类的类独有复合属性有{a1,a2,a6,a7},没有类独有属性;D3的对象集合g(D3)=O3={o2,o3,o5};D3类的类独有复合属性有{a1,a2,a3,a4,a7},类独有属性有{a9}。

表1 一个决策形式背景

Tab.1 A formal context for decision

a1a2a3a4a5a6a7a8a9D1D2D3o1111100010100o2111100000001o3111100100001o4111010110100o5111010101001o6111010100010o7110001100010o8100001010100

2 数据准备

本文研究所采用数据来源于一个基于150万字的多体裁语料库的公开数据集。语料来源见表2。

表2 语料来源

Tab.2 Sources of the data in the corpus

体裁网址法律https://www.copyright.gov/文学小说http://www.eastoftheweb.com/新闻报道http://www.bbc.com/学术论文https://link.springer.com/科普读物http://www.nature.com/科幻小说http://novel.tingroom.com/公司介绍http://www.petrobras.com/大学介绍http://www.upenn.edu/访谈http://transcripts.cnn.com/电影字幕http://subscene.com/subtitles

以英语情态动词must为目标词,构建must不同词义对象与共现语境特征之间关系的形式背景。基于此形式背景,采用独有属性特征计算方法获取must呈现不同词义时的简单独有属性特征,类独有属性特征和类独有复合属性特征,以这些特征作为词义分类规则,通过比较分析这些词义分类规则,发现情态动词must词义与不同语境特征的互动关系。

2.1 Must的词义划分

英语语法学家们[1-4]通常把must划分为3个主要词义,见表3。本文研究将采用该划分方法。

表3 Must的词义划分及举例

Tab.3 Senses of must and examples

must的词义举例must(obligation,责任、义务、命令)We must obey the laws.我们必须遵守法律。must(necessity,必要性) We must learn from him.我们应该向他学习。must(inference,推测)The light is on,he must be in the office.灯亮着,他一定在办公室。

2.2 Must的样本例句抽取和语境特征提取

基于表3中must的词义划分,在语料库中随机提取了150个样本例句。其中,must(obligation)50个,must(necessity)50个,must(inference)50个。基于must 在语料库中出现的语境信息以及语法学家、语用学家[2-3,6]对于must应用语境的描述,提取了must的语境特征,如图2所示。

图2 提取的语境特征

Fig.2 Extracted contextual features

在图2的语境特征中,语义特征采用目标词must的点互信息,其计算公式为[24]

(1)

式中,w1为目标词,w2为w1的相邻词,P(w1,w2)为w1和w2共现概率。按照式(1)计算得出的must的点互信息值见表4。表4中,must1表示must(obligation,责任、义务、命令);must2表示must(necessity,必要性),must3表示must(inference,推测);MIi表示第i个互信息(i=1,2,…,6);oj表示第j个对象(j=1,2,…,150);-1表示两个词未出现共现的情况。s表示主语,v表示谓语动词。

表4 情态动词must的点互信息

Tab.4 Point mutual information of must

ojMI1MI2MI3MI4MI5MI6o12.412.96-1-1-1-1o22.851.36-11.53-12.03o32.461.91-1-1-1-1o40.543.350.63-11.14-1o51.372.640.58-10.94-1o60.540.730.991.040.69-1o71.581.961.24-1-1-1o81.220.73-11.04-1-1o90.912.44-1-1-1-1o101.372.060.58-10.94-1︙︙︙︙︙︙︙o1410.34-11.47-10.492.33o142-1-1-1-11.393.48o1430.81-10.55-11.252.49o144-1-1-1-13.782.93o145-0.551.430.99-10.692.89o1460.75-10.71-11.323.18o147-11.43-1-13.782.89o148-1-1-1-12.013.78o149-1-1-1-11.583.23o1500.53-10.59-10.311.67MI1—MI(s+must1);MI2—MI(must1+v);MI3—MI(s+must2);MI4—MI(must2+v);MI5—MI(s+must3);MI6—MI(must3+v)

2.3 数据处理

本文所采用的数据包括连续值数据和非连续值数据,因此,需要对数据进行规范化处理。数据处理流程见图3。建立形式背景须采用二值逻辑值,而表4中的数据为连续值数据,因此,需要对其进行二值离散化处理。本文采用了散点图的方法。MI1(s+must1)的散点图如图4所示。

图3 数据处理流程图

Fig.3 Flow chart of data processing

图4MI1(s+must1)的散点图

Fig.4 Scatter diagram ofMI1(s+must1)

从图4中可以看出,如果选择MI=0作为区间分割点,可以把must(obligation,责任/义务/命令)与must(necessity,必要性)和must(inference,推测)的对象很好地区分开。另外,考虑到MIi≤0表明两个词语义不相关,MIi>0表示两个词语义相关[24],而且两个词语义是否相关在语义分析中有着重要意义,因此,点互信息值划分为MI≤0和MI>0两个区间,每一个区间为一个属性特征。如果一个MI值落在某个区间,就赋予其逻辑值1,否则为0。其他点互信息值均采用此方法进行离散化处理。

句法特征、语用特征和话题特征均为非连续值,以逻辑值表示。如果一个样本例句具有图2所列的某个特征,则该特征的逻辑值取1,否则取0。至此,数据处理完毕。

3 形式背景构建

用于构建形式背景的属性特征符号系统见表5。基于表5,建立表达must的不同词义对象和其属性特征关系的形式背景,见表6。表6中,oj表示第j个对象,ai表示第i个属性特征。

表5 属性特征符号

Tab.5 Symbols for the features(attributes)

符号语义特征符号句法、语用、话题特征a1MI1(s+must1)≤0a17主语有生命a2MI1(s+must1) >0a18主语无生命a3MI2(must1+v)≤0a19完成体a4MI2(must1+v) >0a20进行体a5MI3(s+must2) ≤0a21谓语为施事动词a6MI3(s+must2) >0a22谓语为静态动词a7MI4(must2+v) ≤0a23否定句a8MI4(must2+v) >0a24被动语态a9MI5(s+must3) ≤0a25陈述a10MI5(s+must3) >0a26命令a11MI6(must3+v) ≤0a27说话者有权威a12MI6(must3+v) >0a28说话者参与话语a13主语为第一人称a29法律/法规相关话题a14主语为第二人称a30自然规律相关话题a15主语为第三人称a31社会生活相关话题a16存在式主语a32日常生活相关话题

4 基于独有属性特征的情态与语境互动关系数据挖掘

4.1 基于独有属性的must词义分类规则提取

在提取must的语义分类规则之前,需要对表6中的数据进行五折交叉验证,以验证数据集的有效合理性。验证结果见表7。

表6 Must的形式背景

Tab.6 Formal context of must

a1a2a3a4a5a6a7a8a9a10a11a12a13a14a15a16a17a18a19a20a21a22a23a24a25a26a27a28a29a30a31a32o101011010101000101000100110001000o201011001100100101000010010001000o301011010101000101000100010001000o401010110011000101000100110101000o501010110011001001000000101100001o601010101011010001000000010110010o701010110101000101000000010001000o801011001101000101000100010111000o901011010101000101000100010011000o1001011001101000100100100010001000︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙o14101100110010110001010010010010001o14210101010010100101011010010000001o14301100110010100100110000010000001o14410101010010100100110000110000001o14510010110010110000110010110010001o14601100110010100101010100110000001o14710011010010100101010010010000001o14810101010010100100110010010000001o14910101010010100101010000010000001o15001100110010100101000010010000001

表7 数据集的五折交叉验证结果

Tab.7Resultoffive-foldcrossvalidation

实验组12345错误数44320正确率/%86.6786.679093.33100

表7中结果的平均正确率为91.33%,标准偏差为5.58%,因此,五折交叉验证结果为91.33%±5.58%,证明了这套数据的有效性和合理性。

基于表6的形式背景和1.2中关于独有属性特征的计算方法,计算出must三个词义的简单独有属性、类独有属性和类独有复合属性,作为must的词义分类规则,见表8。每条规则后边括号中的数值为该条规则所能识别的对象数。

表8Must的词义分类规则

Tab.8Rulesforwordsenseclassificationofmust

第一类must(责任/义务/命令)第二类must(必要性)第三类must(推测)a26(10)a30(14)a16(1)a27(22)a3,a8(33)a19(31)a29(31)a1,a9(22)a20(7)a7,a11(30)a1,a11(27)a7,a12(41)a14,a31(6)a3,a11(33)a22,a32(29)a2,a4,a15,a31(1)a11,a25,a32(2)a1,a5(20)a12,a13,a21(1)a8,a12,a13(2)

4.2 情态与语境互动关系数据挖掘

由于表8中是采用独有属性特征提取方法提取的独有属性特征作为词义分类规则,因此,这些规则均为最简规则。表8中的词义分类规则分别由简单独有属性特征、类独有属性特征和类独有复合属性特征构成。通过比较分析这些规则中属性特征的分布情况,可以发现情态动词must的不同词义与不同语境特征的互动关系。从表8中可以看出,在区分must的三类词义的过程中,四类语境特征:语义特征、句法特征、语用特征和话题特征均发挥着重要的作用。通过比较分析三类词义的分类规则发现:

1)在must的三类词义分类规则中,出现了较多的独有属性特征。其中,句法语境特征a16为简单独有属性特征,即该特征只为第三类中一个对象所拥有;a26、a27、a29、a30、a19、a20均为类独有属性特征。语境特征中的语用特征a26(命令)、a27(说话者有权威)和话题特征a29(法律/法规相关话题)均为第一类词义must(责任/义务/命令)的类独有属性特征,即这些特征对must(责任/义务/命令)有直接的限制作用,只要样本例句中出现这些特征之一,该样本中的must一定是must(责任/义务/命令)之义。同样,话题特征a30(自然规律相关话题)为第二类词义must(必要性)的类独有属性特征;句法特征a19(完成时)和a20(进行时)为第三类词义must(推测)的类独有属性特征。这些类独有属性特征均为must的强分类特征,因为它们限制must的词义,反过来,也反映出这些语境特征对must的不同词义有很强的敏感性,它们只属于并支持must的某一个词义。

2)在must的三个词义中,第一类must(责任/义务/必要性)的语义最强,其次是第二类must(必要性),第三类must(推测)的语义最弱。从表8词义分类规则中的语境特征分布可以看出,词义强的第一类的分类规则中聚集着语力强的类独有属性特征,例如,a26(命令)、a27(说话者有权威)和话题特征(法律/法规相关话题),语义最弱的第三类分类规则中聚集着语力最弱的语境属性特征,例如,a16(存在式主语),a19(完成体)和a20(进行体)。这说明了语境特征语力的强弱与词语义强弱的一致性。

3)在类独有复合属性特征中,语义特征出现的最多,而且低值(奇数)点互信息(MIi≤0)特征占多数,由于在点互信息中,MIi≤0意味着两个词(must和相邻词)语义互不相关[26],说明在must的词义分类中,must和相邻词语义互不相关特征发挥着更大的分类作用,点互信息MIi>0(两词语义相关)特征主要起泛化作用。

4)句法特征a16(存在式主语),a19(完成体)和a20(进行体)均为第三类语义must(推测)的独有属性特征,说明句法特征对第三类词义分类的重要作用。

5)在分类规则中,语义特征a6(MI3(s+must2)>0)和a10(MI5(s+must3)>0)、句法特征a14(第二人称主语),a17(有生命主语)和a18(无生命主语)和语用特征a28(说话者参与)没有出现,说明这些特征为冗余特征。

6)语义特征、句法特征、语用特征和话题特征这四种语境特征共同作用构成情态动词must的词义及其分类规则。语义特征主要出现在类独有复合属性构成的规则中,而且发挥着重要的作用。而独有属性特征由句法特征、语用特征和话题特征构成。就独有属性特征而言,每个独有属性特征所确定的对象数见表9。

表9 不同独有属性分类对象数量

Tab.9Numbersofobjectsclassifiedbydifferentexclusiveattributes

特征符号特征含义分类类别分类对象数a16存在式主语三1a19完成体三31a20进行体三7a26命令一10a27说话者有权威一22a29法律/法规相关话题一31a30自然规律相关话题二14

表9中,a16,a19和a20为语内特征中的句法特征,a26和a27为语外特征中的语用特征,a29和a30为语外特征中的话题特征。从表9可以看出,在所列的独有属性特征中,话题特征(a29(和a30)分类数量最对(共划分出45个对象),其中,a29(法律/法规相关话题)分类对象数量最多(划分出31个对象),即对分类贡献最大。其次是句法特征(a16,a19和a20,共划分出39个对象),其中,a19(完成体)分类对象数最多(31个)。然后是语用特征(识别出32个对象),其中a27(说话者有权威)分类对象数最多(22个)。

在简单独有属性特征、类独有属性特征和类独有复合属性中,简单独有属性特征和类独有属性特征为强分类特征,因为它们对情态动词的词义有直接的限制作用。从语内特征(语义和句法特征)和语外特征(语用和话题特征)的比较上看,语外特征比语内特征对情态动词must的词义分类贡献更大。

5 结论

本文基于形式概念分析理论和独有属性特征提取方法研究了英语情态动词must与语境特征的互动关系。通过本文研究得出以下结论:

1)本文提取的四类语境特征——语义特征、句法特征、语用特征和话题特征共同作用构成情态动词must的词义及其分类规则,它们均对情态动词must词义划分都发挥重要作用。

2)语境特征中,语用特征和话题特征对must(责任/义务/命令)词义有直接的限制作用;话题特征(自然规律相关话题)对must(必要性)词义有直接的限制作用;句法特征:存在式主语、完成体和进行体对must推测词义有直接的限制作用。

3)在语境特征中,语用和话题特征语义和句法特征具有更强的分类作用,对情态动词must词义影响更直接。

4)语义特征中,MI3(s+must2)≤0,MI3(s+must2)>0,MI5(s+must3)>0;句法特征中,“主语有生命,主语无生命,否定句,被动语态”和语用特征中“说话者参与话语活动”均为冗余特征。

5)在语义特征中,低值互信息特征比高值互信息特征有更大的分类作用。

6)四类语境特征对情态动词词义分类贡献依次为:话题特征>句法特征>语用特征>语义特征。

以上研究结果充分揭示了情态动词must与语境特征的互动限制关系,为情态语义学、自然语言处理和智能语义识别特征选择研究提供了有价值的依据。

猜你喜欢
情态句法词义
“诛”的词义演变及其在古籍中的释义
述谓结构与英语句法配置
如何学习掌握古代汉语词义*——何九盈先生《古汉语词义丛谈》评介
西夏语“头项”词义考
根据认知语义学浅谈英语单词记忆法
表示“推测”的情态动词
句法二题
诗词联句句法梳理
信息结构与句法异位
情态动词专练