唐 忠, 刘华阳, 刘珊珊, 李大舟
(沈阳化工大学 计算机科学与技术学院, 辽宁 沈阳 110142)
谓词逻辑是一种数理逻辑方法,用于知识表示和推理,在计算机领域有着广泛的应用.在自然语言中,具有确定真值的陈述句,即命题,可以划分为主语和谓语部分.谓词逻辑将命题的主语部分表示为客体,用于表达事物,谓语部分表示为谓词,表达事物的性质、状态以及事物之间的关系.谓词逻辑将句子中的成分进行细化,具有比命题逻辑更精确的表达能力.
在自然语言处理的语义分析研究过程中,也将自然语言转换为谓词公式,即转为计算机可处理的形式[1].语义分析的目的是理解自然语言所表达的意义,而谓词逻辑仅能表达命题中的主语和谓语部分,不能完整准确地反映句子的全部语义,这也使得现有的语义分析技术应用领域受限,只能应用于简单结构的语句中.语义分析技术要想得到更广泛的应用,谓词公式必须能够精确地表达句子原有的语义,即必须能够表达出主语谓语以外的其他语法成分和复杂的句子结构.因此,必须对传统的谓词逻辑进行扩展.
谓词逻辑一直保持着客体和谓词的基本组成结构,近年来虽然有一些改进,如:文献[2]给出了可以进行集合表示和操作的谓词lambda演算,文献[3]提出了消去存在量词及其约束变元的Lambda依存组合语义(lambda dependency based compositional semantics,λ-DCS),但谓词的基本结构并没有改变,因此,其表达能力并没有本质上的变化.
从语句到谓词的转换通常是基于谓词的定义、根据句子中的语法成分进行,在转换过程中有一些特定的规则,如通用名词一般转换为谓词,专有名词一般转换为客体,形容词一般转换为谓词,等.比较经典的转换方法研究有:TAYAL对英语句子按语法结构进行分类,得出9种类型,然后给出不同类型句子的谓词转换规则,用于自然语言处理中的知识表示[4];MPAGOULI给出了动词、形容词和名词分别做谓词时,英语句子结构和一元、二元谓词之间的对应关系[5].
在语义分析中,Liang给出了一种转换的语法规则,可以比较容易地得到语句的谓词表示,进而利用计算机来处理[6].这也是语义分析中谓词转换的典型方法.但是由于谓词逻辑本身表达能力的限制,现有的语义分析技术通常基于WebQestion[7]、GeoQuery[8]、Freebase[9]、Yago[10]、Wikipedia[11]等特定的数据库.这些数据库通常描述(实体、关系、类别、实例)或(实体、属性、关系)等结构化的信息,可以通过结构的对应关系,将自然语言转换为谓词表示.其中,实体转换成客体,关系、属性、类别以及实例分别转换成一元和二元谓词.另外,组合范畴语法(combinatory categorial grammar,CCG)也可以用来得到句子的逻辑形式,但所使用的谓词来源于标注好的语料库或知识库,并且需要进行有监督和无监督的训练,所以,只应用于较小的知识库领域.其中:文献[12]利用依存分析模式给出动词、通用名词、专有名词、名词词组、介词短语等语法成分的谓词表示;类似地,文献[13]也给出了语句中的动词短语、名词短语、介词短语等语法结构与表示实体属性与关系的一元和二元谓词之间的对应规则,从而更加准确地完成从语句到谓词的转换过程.
在目前语义分析研究过程中,谓词逻辑所存在的主要问题包括:
(1) 谓词逻辑不能表示句子的状语、补语等成分.如“他来了”和“他马上来了”可以用相同的谓词P(t)表示,这就造成谓词所表示语义的不准确.
(2) 客体和谓词的转换没有固定的规则.例如通用名词既可以做主语也可以用在谓语部分,因此,可以分别表示为客体和谓词.如“猫是猫科动物”表示为P(c),“猫科动物是哺乳动物”表示为B(p),“猫科动物”在这两个句子中分别是客体和谓词,这会引起结构和逻辑上的不一致.又如,不同的关系用相同的谓词表示:Bornin(person,date)、Bornin(person,location);介词做谓词:in(x,UK),这都会增加谓词定义的二义性.汉语与英语相比,语法结构更灵活,谓词和客体的转换更不确定,更加缺乏有效的谓词转换方法.
(3) 一些语法结构复杂的句子无法用谓词表示.如“老师今天讲的内容很重要”用P(a)来表示,客体a代表主语“老师今天讲的内容”,这样主语中所包含的语义信息细节就无法精确地表达出来.
传统谓词的以上问题,影响了语义表示的完整性和准确性,所以基于传统谓词的语义分析目前只能用于较小的知识库范围内和简单结构的句子中.因此,有必要对传统谓词逻辑进行改进和扩展.
本文针对谓词逻辑在语义分析中存在的问题进行扩展.其意义在于使谓词公式具有与汉语语句完全相同的语义,并提供由语句到谓词的规范转换方法,支持语义分析技术应用到更加广泛的领域中.
自然语言是一种符号系统,用来交流和描述人们所认知的现实世界.在“符号学三角形”语义理论中,“所指物”referent(thing)是所认知的世界,而“概念”concept(thought)是世界中的事物在头脑中的反映,“符号”symbol(word)是用来表达头脑中所形成的概念思想的各种标记形式[14].因此,语言尽管形式上灵活丰富、多种多样,但本质上是通过头脑中对应的概念,也就是认知概念,来反映现实世界.谓词与符号学三角形关系见图1.
图1 谓词与符号学三角形Fig.1 Predicate and semiotic triangle
认知概念所对应的世界包含各种各样不同的事物.事物有具体的、抽象的,简单的、复杂的,如事实、过程和事件等.每个事物都有各自的性质、状态、动作、行为、类属、组成等属性,这些属性还可以有不同的程度、方式和范围等.世界中的事物是相互联系、相互影响,同时也是不断发展变化的.这也是自然语言所表达语义的本质.
谓词逻辑同样作为一种符号系统,虽然不可能与自然语言完全一致,但也是要表达出语言中所包含的真正语义,即抓住语言所表达的本质.谓词逻辑只要能完整准确地反映现实世界所对应的认知概念,也就能实现与自然语言语义上的一致.
自然语言的语句是由字、词这样的基本符号,按照一定语法规则组合起来的,用来表达特定的意义,描述我们对现实世界的认知.
词是汉语中最小的独立运用单位,也是最小的语义单位.汉语中的名词、数词、量词(数量词)和代词直接或间接表示事物.动词、形容词则表示事物的行为、动作和性质、状态.副词用于修饰动词和形容词,表示时间、范围、程度、频率以及肯定或者否定等意义.介词组成介词结构,用于修饰动词等,表示处所、时间、状态、方式、原因、目的、比较对象等.其他的连词、助词、叹词、语气词和拟声词等分别起相应的辅助作用.
事物及其性质、状态、行为等属性是世界在我们头脑中所形成概念中的最基本的元素,词的作用就是符号化这些基本的认知概念.世界上任何一个事物以及每个事物各种属性的概念在自然语言中都有对应的词语表示,不同类型的概念用不同的词类表示.
短语是由词组合构成的语法单位.句子是由词或短语构成的语言的基本运用单位,有固定的语法规则,表达一个完整的意思,可以分为单句和复句.
句子主语表示陈述的对象.谓语用来陈述主语,说明主语的性状、行为等.宾语是动词性成分所涉及的人或事物.定语是用来修饰、限定、说明人或事物的性状、数量、领属等.状语用来修饰、限制动词或形容词,表示状态、方式、时间、处所、条件、对象、肯定、否定、范围、程度或语气等.补语是动词或形容词后起补充说明作用的成分,补充说明情况、结果、程度、趋向、情态、时间、处所、数量、性状等.
句子描述现实世界中的事物具有什么性质、状态、类属、行为等,即表示“什么人”或“什么事物”、“是什么”或“怎么样”以及“什么程度”等.句子还描述事物之间相互影响、联系和事物的发展、变化及其过程和因果关系.句子表达的内容和语义是认知概念中的事实、判断和过程等.
谓词逻辑中的基本组成元素是客体和谓词,分别表示认知概念中的事物及其性质、状态和相互关系.汉语中的名词、数词、量词(数量词)和代词表示事物,在谓词逻辑中用客体表示.动词、形容词表示事物的性质、状态、动作等,可以用谓词表示.其他的连词、助词、语气词等词类可以结合语法成分、语义进行转换.
汉语中修饰动词和形容词的成分,在传统谓词逻辑中没有对应的表示元素,认知概念中所包含的这类语义将无法用谓词表示.因此,为谓词增加“谓词修饰”元素来表示修饰动词和形容词的状语、补语成分,形式如:
αP(m),或P(m)α,或α(s)P(m).
其中:α是所扩展的谓词修饰;α(s)是包含客体的谓词修饰,如汉语中的介词短语.
现实世界中,有些事物可能是复杂的事实、过程甚至是事件,有些性状及其修饰也比较复杂.汉语中复杂单句的一些语法成分本身就是由短语、小句等构成,英语句子中也有多种从句形式.
在谓词逻辑中,可以扩展客体和谓词的组合方式,用一个完整的谓词公式做客体或修饰成分,来表示复杂的语法成分,这样就形成了“复杂谓词元素”.
(1) 复杂客体可以表示为
P(S(a)).
(1)
其中谓词S(a)做主体谓词P(x)的客体,表示复杂的主语.
例如:
“他这么做真好”表示为βR(αP(t)),αP(t)表示复杂主语客体“他这么做”;
“我知道他来了”表示为K(w,P(t)),P(t)表示复杂宾语客体“他来了”.
(2) 复杂的定语可以扩展表示为
P(a)∧Q(a).
(2)
因为定语一般表示客体的性质、状态等,所以复杂定语仍然通过谓词的形式表示.
如“我知道他读的书”表示为K(w,b)∧R(t,b),R(t,b)表示定语“他读的书”.
(3) 复杂的谓词修饰可以扩展表示为
α(R(s))P(m).
(3)
其中以谓词R(s)做修饰成分α的客体,表示复杂的状语.复杂补语类似.
“我回来的时候他刚走”表示为α(R(w))βP(t),α(R(w))表示时间状语“我回来的时候”.
“他说得大家都笑了”表示为S(t)α(P(e)),α(P(e))表示复杂补语“得大家都笑了”.
扩展后的谓词,仍然可以转换成为传统谓词公式,与以前的公式兼容.
(1) 复杂客体的变换.以谓词做客体的复杂谓词,可以转换成传统谓词中的客体.
P(Q(x))⟹P(x′).
(4)
(2) 复杂定语的变换.复杂定语可以与所修饰的客体合并,变换公式为
K(a,b)∧R(t,b)⟹K(a,b′).
(5)
(3) 谓词修饰的变换.谓词修饰可以与所修饰的动词形容词合并,共同作为谓词.
α(c)P(x)⟹P′(x).
(6)
在认知概念中,事物与其性状行为等属性以及修饰成分有固有联系.一个性质或动作一定有其关联的事物,一个修饰成分也有其固有的修饰对象.与之对应,在谓词逻辑中,客体、谓词和谓词修饰成分也是以一定规则相互依存,不能单独孤立存在.
自然语言为了避免表达过于冗余繁琐,常省略一些人们熟知或次要的成分和内容.因此,自然语言转换成谓词时,需要根据上下文和认知概念中的语义恢复和补充所省略的内容,与认知概念保持语义上的一致.
与认知概念对应,在完整的句子中,名词,即事物,要有性状、行为、属性或与其他事物的联系;动词要有动作的发出者、承受者;形容词、副词、介词短语等要确定其修饰对象.句子的语法成分和复句分句之间也有固定的组合关系.在汉语句子里具有固定关联的词语和成分,如果有省略要先将其补充完整,然后再进行转换,这样才可以准确地构成谓词公式.
如动词短语做句子语法成分时要补充对应的主语,以构成完整的谓词.“骑车很危险”的完整语义是“(人)骑车很危险”,谓词表示为αD(R(m,b)),其中:αD(x)表示“x很危险”,R(m,b)表示“人骑车”.不补充“骑车”短语的主语,对应的谓词不适合公式;而如果仅以“骑车”做主语,又会丢失部分语义.
谓词扩展后,汉语语句到谓词公式的基本转换方法和步骤:
(1) 首先根据认知概念,将汉语词类转换成对应的谓词组成元素;
(2) 再根据句子的语法结构和语义关系,建立谓词元素间的组合关系;
(3) 最后构成整个句子的谓词公式.
采用的转换方法是将句子的基本语义单位和整体结构对应到谓词公式,这样可以保证所得到的谓词公式语义上的完整性和准确性.
汉语句子中,每种语法成分都可以由多种词类和短语构成,一种词类或短语又可以充当多种不同的成分,语法成分和词类之间没有对应关系,所以要根据词性、语法结构和语义完成对应的转换.
(1) 主语和宾语:做主语和宾语的名词和名词性词组(包括名词性联合词组、偏正词组、“的”字词组、“所”字词组、主谓词组等)代表事物,代词、数词、数量偏正词组间接代表事物,时间方位名词是特定的事物:其都可以转换成为谓词公式中的客体.动词、形容词及其词组则要补充隐含的主语,然后与小句一样,转换成为完整的谓词公式做客体.
宾语包括受事、施事、结果、工具、处所、目的、原因、存现和说明等类型,转换谓词时要根据语义进行变换,否则会引起语义错误.如“我们吃食堂”中“食堂”是处所宾语,句子的实际语义是“我们在食堂吃”,对应的谓词是:β(s)E(w),“s”(食堂)做谓词修饰.
(2) 谓语:动词和形容词做谓语时,直接转换成为谓词.名词做谓语,表示的是主语的属性值,实际是一个判断句,要根据语义先变为判断句再转换.如“今天星期一”的实际语义是“今天是星期一”.主谓谓语先根据语义确定大小主语间的领属和支配关系之后再转换,如“他身体好”先变换为“他的身体好”.受事关系的主语谓语,即“被动句”,要在转换谓词前先进行结构的变换,否则得到的谓词公式会有语义错误,如“玻璃擦干净了”.
(3) 定语:除了副词以外的所有实词和短语都能做定语.在转换时,根据定语所限定的数量、时间、处所、领属等属性,或描写的性质、状态、特征、用途、质料、职业等方面的语义,对不同词类的定语进行转换.多数定语转换为谓词.
(4) 状语:副词、能愿动词、一般动词、形容词、代词、方位词、时间名词、一般名词、方位词组、介词词组、比况词组等可以做不必带“地”的状语,而数量偏正词组、偏正、联合、动宾、主谓、谓补、比况等词组可做必须带“地”的状语.状语也有许多类型,同时状语成分在使用时也有许多省略,在转换时需要先根据语义补充缺失了的成分,然后再转换.如“我们北京见”,“北京”做地点状语,实际是“我们在北京见”.
(5) 补语:动词、形容词、副词“很”和“极”、介词结构、动量词组和由动词、形容词组成的词组都能做补语.汉语的补语成分也非常灵活,在转换时也要结合语义进行分析.如“人吓跑了”是动词做补语而非联动谓语,“我们谈了十分钟”是时间名词做补语而非宾语.
《实用现代汉语教程》[15]一书全面详细地论述和分析了汉语的词法和语法结构,有对应的实例和练习,包括各种形式的词类、短语、语法成分和句型,比起一般的知识库或标注语料中的句子有更全面的语法覆盖性.使用该书中的语句作为分析实例可以更好地验证扩展谓词的表达能力.假设给定的汉语句子可以正确地分词、确定词性,并可以得出句子正确的语法结构及语义关系,在这基础上,根据语言中所反映的认知概念,分别使用传统的谓词表示方法和扩展谓词方法,将句子转换成谓词公式,验证比较其转换能力及语义的完整性和准确性.
在验证实验中,首先对文献[15]中由各种词类和语法结构所构成的主语、谓语、宾语、定语、状语、补语例句进行谓词转换,以验证扩展后谓词对不同语法成分的转换能力.例句的数量分别为30、48、49、26、58、46个.然后分析了296个经典综合例句的谓词转换.
用转换率来评价谓词转换结果,即:转换率=正确转换的语法成分个数/句子中的语法成分总数.
例如:句子“他散步”的语法成分包括主语和谓语,用谓词表示为W(h),词语和语法成分都转换为对应的谓词元素,语义保持不变.转换率为100%.
而句子“他在公园散步”,传统谓词仍然表示为W(h),状语成分无法表示,转换率为2/3=67%.只考虑状语成分时,转换率为0.而利用扩展谓词可以把句子表示为α(p)W(h),三个语法成分都可以表示,并保持了原来句子的语义,转换率为100%.
句子“我们吃食堂”,仅考虑语法结构时谓词表示为E(w,s).此时宾语的语义不正确,所以转换率为67%.如果考虑宾语的真实语义,“食堂”作为处所,谓词表示为β(s)E(w),则转换率为100%.
通过实验验证得出:利用传统谓词进行表示时,不同形式主语、谓语、宾语、定语、状语和补语的转换率分别为56%、61%、55%、77%、0和0,状语和补语以及短语、小句充当的语法成分无法表示,语义上也有很多不对应的情况.而利用扩展谓词进行表示,当仅通过词性和语法规则进行转换时,总的转换率约为85%,其中不同形式主语、谓语、宾语、定语、状语和补语的转换率分别为82%、81%、93%、88%、77%和89%.而考虑了语义后总的转换率约为97%,各语法成分的转换率都有明显的提高,谓语和定语的转换率可以达到100%,其他成分的转化率也都在95%以上.
通过实例分析可以看出,传统谓词经过扩展后,语义的表达能力有了大幅的提高,可以正确表示状语、补语等语法成分和复杂句子结构,谓词公式中各种元素的构成也比较规范,解决了前文中提到的传统谓词中所存在的问题.
扩展后,谓词逻辑的组成元素与汉语中最基本的语法单位对应,其不同的组合方式可以表示汉语所有的语法成分和句型结构,并且通过认知概念与汉语语义保持一致.所以扩展的谓词逻辑能够完整准确地反映汉语句子的内在含义,并可以表示复杂的汉语语句.同时,扩展谓词还可以与传统的谓词公式兼容,其转换方法也可以应用到英语等其他语言当中.
然而与自然语言相比,谓词的表达能力毕竟有限,一些复杂的语言结构还是难以表示,成语、修辞、主观感觉和情绪都不能准确表达.例如:“平平淡淡,随遇而安是一种生活方式”,这句话的主语就难以用谓词进一步细化表示,只能用一个客体来表示,在转换后的谓词公式中就失去了原有的语义.
再有,在转换的过程中,要准确地确定汉语句子的语法结构,仅仅通过分析句子中的词语和语法规则是不够的,还需要借助词语的语义.
有些语法成分,如宾语和状语,有不同的类型和含义,如“挖坑”是结果宾语,“发展地看”是方式状语,必须通过语义确定后再进行转换.还有些语法结构也需要通过语义才能确定,如“门口有两个孩子”和“小李有两个孩子”有相同的词类组合,却是不同的句型结构,对应的谓词公式也不一样.因此,在根据词语词性确定语法成分和结构有歧义的情况下,需要通过语义才能确定词语之间的相互关系,正确确定句子结构,从而最终得到完整准确的谓词表示.
针对谓词公式有限表达能力所产生的语义分析研究过程中的问题,依据“符号学三角形”理论,以现实世界在头脑中的概念为联系的纽带,基于认知概念对传统谓词进行扩展,实现了汉语与谓词逻辑在组成元素和结构上的对应和转换.主要研究成果包括:(1) 在谓词逻辑中增加了表示状语和补语的组成元素,增加了能够表示由短语和小句做语法成分的复杂元素;(2) 规范了汉语词类、语法成分与谓词表示元素之间的对应关系.
对各种语法类型汉语句子的语义分析结果表明,谓词公式的语义表达能力有了大幅度的提高,可以更加完整精确地反映自然语言所表达的事物及其性状、行为属性的概念和事实,保证了与汉语句子语义上的一致性.这就使语义分析的逻辑结果具有更加全面和准确的语义,同时不再局限于较小范围的结构化知识库和标注语料,可以应用到更广泛的领域当中,解决了当前语义分析面临的问题.
然而,由于汉语语法的灵活性,为保证汉语语句能够正确转换为谓词公式,必须结合词语的具体语义来确定句子的语法结构和语义关系.仅仅通过词语本身及其词性,在转换过程中会产生歧义,得到错误的谓词表示.如何利用计算机通过词语的语义知识和语法规则,来确定语句的语法结构,并用相应的谓词表示它的准确语义,是下一步在扩展谓词研究基础上的重要工作.