基于规则的汉语疑问词“什么”的语义识别模型构建

2017-11-27 09:05牛长伟程邦雄
中文信息学报 2017年5期
关键词:决策表全称句法

牛长伟,程邦雄

(1.中南财经政法大学 国际教育学院,湖北 武汉 430073;2.华中科技大学 中国语言研究所,湖北 武汉 430074)

基于规则的汉语疑问词“什么”的语义识别模型构建

牛长伟1,程邦雄2

(1.中南财经政法大学 国际教育学院,湖北 武汉 430073;2.华中科技大学 中国语言研究所,湖北 武汉 430074)

汉语疑问词具有多义性,至少有三种通用解读: 疑问解读、存在解读(虚指)和全称解读(任指)。该文从汉语疑问词的词义排歧角度出发,通过总结汉语疑问词三种解读所处的句法环境的共同特征,确立其在复杂句法环境中的强势解读,进而构建一个基于规则的汉语疑问词的语义识别模型,为制订词义排歧决策表提供依据。该文以词义最多的疑问词“什么”为例,尝试通过这一思路,来构建基于规则的“什么”的语义识别模型和词义排歧决策表,并通过实验来验证,然后将其改进。

什么;语义识别模型;词义排歧

1 引言

与英语相比,汉语疑问词较为特殊,其语义解读会随句法环境的变化而变,此类句法环境错综复杂,若要厘清,并非易事。朱德熙[1]将疑问词的用法分为疑问用法和非疑问用法,非疑问用法有两种: 一是表示周遍性,即表示在所涉及的范围之内没有例外,伴有“都、也”之类副词;二是指称不知道或者说不出来的人、事物、处所、时间等。吕叔湘[2]将疑问词(不定指指代词)的用法总结为三种: 疑问、虚指、泛指。张斌[3]将疑问词的非疑问用法分为任指、虚指和不定指。前人所总结疑问词的语义解读大同小异,大致可分为三种: 疑问、虚指和任指。

也正是汉语疑问词的多义性,使其在词义排歧(word sense disambiguation, WSD)方面处理起来较为棘手。词义排歧是自然语言计算机处理的一个难题,排歧工作涉及上下文因素、语义因素、语境因素,甚至涉及日常生活中的常识[4]。词义排歧的方法有多种,如基于词典的词义排歧方法[5]等。汉语疑问词的词义较为复杂,尤其是多重句法环境下的解读,仍然是词义排歧的一个瓶颈。我们采用有指导的学习方法(supervised learning approaches)中的决策表分类法(decision list classifiers)来处理汉语疑问词的词义排歧工作,也就是根据共现词的等价类的不同制定决策表,然后利用这个决策表输入目标项,确定其最佳的词义[4]。

鉴于汉语疑问词词义排歧工作的复杂性,我们尝试通过相关理论假设,以“什么”作为汉语疑问词的代表,来总结它的三种解读所处的句法环境,然后测试总结这三种解读在复杂句法环境中何种解读是强势解读,以及该强势解读胜出的原因。以此来构建一个自上而下(top-down)的语义识别策略——基于规则的“什么”的语义识别模型,从而为“什么”词义排歧决策表的制定提供依据。然后通过实验来验证这一识别模型和决策表,根据实验结果再来将其改进。

2 相关理论假设

传统语法学家认为疑问词表疑问、虚指和任指的三种用法是疑问词本身具有的,与其所处的句法环境无关。而形式学派则把疑问词看作自由变量(free variable),其表现为何种解读取决于约束它的算子(operator)。当被隐性疑问算子Q*按照Huang[9]的分析,隐性疑问算子Q是通过疑问词在逻辑层面(LF)上的移位获得的。约束时,表现为疑问解读(疑问);当被存在算子约束时,表现为存在解读(虚指);当被全称类算子约束时,表现为全称解读(任指)[6]。以“什么”为例,即:

(1) a.他借了什么书?

b.他没借什么书。

c.他什么书都没借。

(1a)中疑问词短语“什么书”受隐性疑问算子Q约束,表疑问解读;(1b)中“什么书”被否定词“没”统制(c-command)*统制是生成语法学中的专有名词。句法树中,当A节点和B节点互不支配(dominated),且支配A节点的第一个最大投射(maximal projection)也支配B节点,那么,A节点就统制B节点。从句子语序上看,一般统制成分处于被统制成分前。,表存在解读[7];(1c)中“什么书”被全称量化词“都”约束,表全称解读。(1)中各句子只受单一算子约束,故其解读尚不复杂。接下来,根据这一理论假设,我们从内涵的视角来总结影响“什么”语义解读的句法环境的特征。

3 影响“什么”语义解读的句法环境的特征

3.1 “什么”表全称解读

一般认为,“什么”在全称量化词“都”和“全”以及类同算子“也”前时,表全称解读。例如,

(2) a. 附近什么都有。

b. 看什么全是倒的。

c. 什么也没有了。

(2a)和(2b)中的“什么”被全称量化词“都”和“全”关联约束*关联和约束是形式语义学中常用概念,“关联”与传统语法中的“指向”相似。算子约束的项一定是关联项,但算子的关联项并不一定会被算子约束,也可能是约束该关联项引出的变量。详见文献[11]。,其语义相当于“任何、所有”,这是该类算子赋予“什么”的量化能力(quantificational force)[8]。而(2c)中的“什么”被“也”关联约束表全称,类同算子“也”的功能是加合,即将各项进行相加得到全称解读,故也属于全称类算子。值得注意的是,当疑问词“什么”在“都”前时,并非全表全称解读。只有当“都”关联约束“什么”时,才表全称解读。例如,

(3) a. 什么书他们都借了?

b. 什么书他们都借了。

(3a)中“都”关联约束“他们”,意思是“有哪些书是他们都借过的”。(3b)中“都”关联约束“什么书”,意思是“他们借了所有的书”。全称量化词“都”一般要求其关联项为复数形式,当存在两个复数形式的词项可作关联项时,“都”均有可能关联二者中其一,这与“都”的关联次序和约束规则*详见文献[12-13]。有关。而“全”和“也”前的“什么”并无此现象。至此,疑问词“什么”被全称类算子关联约束时,该类算子赋予其全称量化能力。

3.2 “什么”表存在解读

一般认为,被否定词统制、处于真值(truth value)不确定环境或疑问环境中的“什么”表存在解读人。例如,

(4) a. 我没什么事。

b.我哪有什么汇款。

c. 他好像突然明白了什么。

d. 如果我借了什么好书,一定告诉你。

e. 他借了什么书吗?

(4a)中“什么事”被否定词“没”统制,表存在解读;(4b)为反问句,也是一种隐性的否定环境,“什么”同样表存在解读;(4c)中“什么”处于非事实动词(non-factive verb)[9]“好像”的辖域内,也处于真值不确定环境中,表存在解读;(4d)为条件复句,复句前件中的“如果”使“什么”处于真值不确定环境中,同样也表存在解读[10]。(4e)为是非问句,“什么”处于疑问环境中,表存在解读。至此,疑问词“什么”处于否定性环境、真值不确定环境或疑问环境中时,表存在解读。

值得注意的是,(4a)中“什么”也有表全称解读之嫌,即“我任何事也没有。”Lin[10]曾就这一现象进行过探讨,将其称为极性存在量化(existential polarity WH-phrases)。简而言之,此时的变量“什么”先表存在,然后通过否定使其表全称。形式语义学上,根据双重否定律(double negation)可得出“∃xΨ(x) ⟺ ∀xΨ(x)”[14],即否定的存在等价于全称的否定。

3.3 “什么”表疑问解读

“什么”受隐性疑问算子Q约束或处于[+WH]类动词辖域内时,表疑问解读。例如,

(5) a. 你借了什么书?

b. 他问我借了什么书。

(5a)中“什么书”受隐性疑问算子Q约束,表疑问解读;(5b)中“什么书”处于[+WH]类动词(Huang[9])“问”的辖域内,也表疑问解读。疑问算子Q包括疑问词在逻辑层面的移动所产生的隐性疑问算子Q和显性疑问算子句末语气词“吗”[15]。[+WH]类动词(如“问、想知道”等)要求在其辖域内必须出现疑问环境,这样的疑问环境包括是非问句、正反问句、选择问句和特指问句。一般来说,当[+WH]类动词辖域内出现“什么”时,其常表疑问解读,此时的疑问环境即为特指问句*也可以为是非问句,如表2中“我想知道你借了什么书吗。”。至此,疑问词“什么”被隐性疑问算子Q约束或处于[+WH]类动词的辖域内时,表疑问解读。

3.4 小结

通过以上三节的分析,我们来总结一下影响“什么”语义解读的句法环境的特征,如表1所示。

表1 影响“什么”语义解读的句法环境的特征

4 基于规则的“什么”的语义识别模型

据表1总结,影响“什么”语义解读的句法环境有12种之多,在这些句法环境中,其解读不尽相同。然而这仅是“什么”在单一句法环境中呈现出的解读,若要构建基于规则的“什么”的语义识别模型,还需使其处于复杂句法环境中来判定其解读,这样才能得出制约“什么”语义解读的句法环境的优先等级。

4.1 “什么”在复杂句法环境中的语义解读

表1将这12种句法环境分成六大类,分别是:①隐性疑问算子Q;②[+WH]类动词辖域;③否定性环境;④真值不确定环境;⑤疑问环境;⑥全称类算子。其中,否定性环境包括否定词统制和反问句,真值不确定环境包括“如果”类连词和非事实类动词,疑问环境包括是非问句和正反问句,全称类算子约束包括被“都、也、全”约束。另外,隐性疑问算子Q约束的疑问词即是常见的特指问句,并无显性的句法标记,也就无须将其引入复杂句法环境中。

接下来,将剩余的五大类句法环境两两组合,然后来判定“什么”的语义解读。测试语句如表2所示。

表2 复杂句法环境下“什么”的语义解读*[x]+WH表[+WH]类动词,[x]Neg.表否定词,[x]WH表显性疑问算子,[x]Non-factive表非事实动词,[x]Universal表全称算子。

续表

在表2中: “什么”表疑问解读的复杂句法环境包括①和②。由于[+WH]类动词需在其辖域内含疑问环境,此时句子若要合格,“什么”必须表疑问。那么,此时“什么”的疑问解读是强势解读。

“什么”表存在解读的复杂句法环境包括③、④、⑤和⑥。③中的[+WH]类动词需在其辖域内含疑问环境,而此时显性疑问算子“吗”表明子句为是非问句,已符合了这类动词的要求,故“什么”也就无需再表疑问。而由于“什么”处于疑问环境中,故表存在解读。④、⑤、⑥的句法环境是“什么”表存在解读所处句法环境的叠加,故仍表存在解读。在这四类环境中,“什么”的存在解读是强势解读。

“什么”表全称解读的复杂句法环境包括⑧、⑨和⑩。在这三类环境中,“什么”无条件地被全称量化算子“都”约束,表全称解读。也就是说,此时“什么”的全称解读是强势解读。

值得注意的是,⑦的测试语句不合格。这也说明了全称量化词“都”的约束行为先于[+WH]类动词的疑问环境需求。[+WH]类动词需在其辖域内含疑问环境,而此时“什么”却优先被“都”约束表全称解读,[+WH]类动词因在其辖域内获取不到疑问环境,致使句子不合格。

4.2 基于规则的“什么”的语义识别模型

至此,基于规则的“什么”的语义识别模型也就大致可以勾勒出来,如图1所示。

图1中当句中“什么”被全称类算子(“都、全、也”)约束时,表全称解读;若没被此类算子约束,再看其是否处于[+WH]类动词的辖域内。若处于此类动词的辖域内,则需再看该辖域内是否已具备疑问环境(“是非问句、正反问句”)。若具备,“什么”则表存在解读;若不具备,则表疑问解读。接着,若“什么”不在[+WH]类动词的辖域内,则需再看其是否处于否定性、真值不确定环境或疑问环境中。若是,则表存在解读;若不是,则表疑问解读。

图1的语义识别模型是一个基于规则的框架,若要验证其合理性,还需要建立相关的词库,确定各句法环境的区分条件,才能测试相关语料。

4.3 相关词库建立

图1所示的语义识别模型需要建立三个词库,即[+WH]类动词词库、非事实类动词词库和“如果”类连词词库。建立词库后,方便人工或机器做出判断。

汉语中[+WH]类动词不多,包括其辖域内必须嵌套疑问环境的“想知道、问、疑惑”等,以及辖域内可以嵌套疑问环境的“清楚、明白、知道、想象、懂”等。

非事实类动词较多,大概包括: “试、打算、主张、保证、愁、盼望、企图、争取、幻想、梦想、设法、提议、有意、愿、尝试、倡议、鼓吹、假装、力图、拟、乞求、妄图、妄想、向往、欲、预计、该、计划、决定、可能、可以、能、能够、要求、应该、必须、觉得、认为、希望、以为、感到、感觉、估计、鼓励、建议、猜、猜想、怀疑、料、疑心、猜测、假定、恳求、期待、期望、深信、推测、推算、宣称、预言、预测、指望、怕、害怕、像、仿佛”等。

“如果”类连词是连接条件性复句的连词,包括: “如果、只有、只要、除非、假设、假如、假若、倘、要是、要、若、如若、即使、就是、就算、纵然、哪怕、即便、纵使”等。

4.4 “什么”所处句法环境的区分条件

词库建立后,可以快速识别出[+WH]类动词、非事实类动词和“如果”类连词,据表1即可确定“什么”的语义解读。然而,表1中仍有“约束、统制、辖域、环境”等抽象概念,不利于人工或机器识别。此时,根据这些抽象概念在汉语语序上的常规分布,总结“什么”所处句法环境的显性区分条件就显得尤为重要。需要注意的是,这些区分条件不等价于表1所述的句法环境的内涵特征,只是内涵特征的外在常规表现。这些区分条件如下:

(1) 否定性环境: ①“什么”被否定词“不、没、没有、未”等统制,统制成分一般处于被统制成分之前,故“什么”前出现否定词极大可能处于否定性环境中;②“什么”在反问句中,反问句常有“难道、哪有、哪里”等词语标识。

(2) 真值不确定环境: “什么”出现在非事实类动词或“如果”类连词的辖域内,辖域一般在管辖成分之后。故“什么”前有非事实类动词或“如果”类连词极大可能处于真值不确定环境中。

(3) 疑问环境: ①“什么”在是非问句中,“吗”是此类问句标志;②“什么”在正反问句中,“V+否定词+V”是此类问句标志。也就是说,含“吗”或“V+否定词+V”的句子就是所谓的疑问环境。

(4) 全称类算子约束: 被约束成分一般在全称类算子之前。也就是说,“什么”处在“都、全、也”之前时,极大可能就被这些算子约束*也有反例,比如(3a),“什么”处于全称量化词“都”前,但没被“都”约束,故不表全称解读,而表疑问解读。。

5 “什么”词义排歧决策表的制定及验证

5.1 “什么”词义排歧决策表的制定

我们将“什么”词义排歧决策表的默认值设定为“疑问”,根据图1和4.4节中的的区分条件,疑问词“什么”词义排歧的决策表如表3所示。

如表3所示,如果在输入中有全称类算子,且在“什么”之后,则输出“全称”;如果不是这样,那么就检测下一项,如果“什么”出现在[+WH]类动词之后,且与“吗”、“V+否定词+V”共现,则输出“存在”;如果不是这样,则检测下一项,如果“什么”出现在[+WH]类动词之后,且不与“吗”、“V+否定词+V”共现,则输出“疑问”;如果不是这样,则检测下一项,如果“什么”与表3中①、②、③和④有关,则输出“存在”;如果不是这样,则输出默认值“疑问”。

5.2 “什么”词义排歧决策表的验证

为验证表3所示的决策表,我们从CCL语料库中随机检索出500个含“什么”的句子,用表3中的规则来判断这500个句子中“什么”的词义解读。 验证的步骤如下:

① 观察句子,判断句中是否有表3中所述的规则;

② 根据①观察到的规则,确定“什么”的词义;若句中无表3提及的规则,则输出默认值“疑问”;

③ 将②输出的词义与实际解读作比较,确定输出解读是否恰当。

按上述步骤对500个句子进行验证,结果如表4所示。

表4 “什么”词义排歧决策表的验证结果

表4显示该决策表识别出了220个“什么”表疑问解读,95个表存在解读,40个表全称解读。决策表未识别出四个应表存在解读的“什么”,究其原因在于这四个句子中的非事实类动词被省略而未被识别出,如(6a)。另外,决策表未识别出141个表其他解读的“什么”,其中有113个“为什么”(如6b),16个复句(如“不论、无论、不管+什么”)中的“什么”(如6c),11个表例指文献[16]的“什么”(如6d),1个表否定[16-17]的“什么”(如6e)。

(6) a. 嘴里(好像)说着什么。

b. 为什么一定要扣车呢?

c. 不论什么票,拿到这里来都能赚钱。

d. 这会儿,什么矿物学,岩石学,对这位研究生都毫无意义。

e. 装什么假正经。

6 “什么”语义识别模型与决策表的改进

据5.2节的结果分析,该语义识别模型和决策表还需进行如下改进:

① 判别“什么”所处的句法环境前,先排除“为什么”的影响;

② 建立“不论”类连词词库,即“不论、无论、不管、任凭”等连词,其后若跟“什么”,则表全称解读。

另外,表例指和否定的“什么”主要分布于口语对话中,以文本形式出现的比例不高。就CCL的样本而言,只占2.2%和0.2%。“什么”的这两种用法没有显性的区分条件,本文不考虑“什么”的这类特殊解读。

7 结语

本文选择“什么”作为汉语疑问词的代表来分析,是因为“什么”是汉语疑问词中用法最多的一个,且一些用法已具有语用含义(如表例指和否定的用法),并不在疑问词的通用解读之内。不过这些特殊用法所占文本比例并不高,且常用在口语对话中,可暂忽略。也正是出于汉语疑问词多义性的考虑,本文通过总结“什么”在汉语语法领域的相关研究成果,构建一个自上而下的基于规则的语义识别模型,然后根据该语义模型制订了“什么”在词义排歧方面的决策表,以此来判断其在不同句法环境中的确切词义。

[1] 朱德熙.语法讲义[M]. 北京: 商务印书馆,1982:89-89.

[2] 吕叔湘.现代汉语八百词[M]. 修订版. 北京: 商务印书馆,1999:15.

[3] 张斌.现代汉语描写语法[M]. 北京: 商务印书馆,2010:191.

[4] 冯志伟.机器翻译研究[M].北京: 中国对外翻译出版公司,2004:573-595.

[5] 李涓子,黄昌宁,杨尔弘. 一种自组织的汉语词义排歧方法[J].中文信息学报,1999,13(3):2-9.

[6] Cheng Lisa Lai-Shen. On the Typology of WH-question [D]. Ph.D dissertation, MIT, 1991:123.

[7] Li Yen-hui Audrey. Indefinite Wh in Mandarin Chinese [J]. Journal of East Asian Linguistics. 1992, 1(2): 125-155.

[8] 张蕾,李宝伦,潘海华. “都”的语义要求和特征: 从它的右向关联谈起[J]. 语言研究,2012,(2):63-71.

[9] Huang, James C.-T. Logical Relations in Chinese and the Theory of Grammar [D]. Doctoral dissertation. MIT, 1982:423, 254-258.

[10] Lin Jo-wang. On existential polarity WH-phrases in Chinese [J]. Journal of East Asian Linguistics. 1998, (7): 219-255.

[11] 潘海华. 焦点、三分结构与汉语“都”的语义解释[C]. 语法研究和探索(十三). 北京: 商务印书馆,2006:163-184.

[12] 董秀芳.“都”的指向目标及相关问题[J]. 中国语文,2002,(6): 495-507.

[13] 牛长伟,程邦雄. 疑问词与“都”的相对位置分析:“都”的关联次序及约束规则[J]. 语言研究,2015,(4): 1-8.

[14] 蒋严,潘海华. 形式语义学引论[M]. 修订版. 北京: 中国社会科学出版社,2005:35.

[15] 牛长伟. 汉语疑问词的语义解读及其应用[D]. 华中科技大学博士学位论文,2015:40-42.

[16] 邵敬敏.现代汉语疑问句研究[M].上海: 华东师范大学出版社,1996:232-240.

[17] 夏雪,詹卫东.“X什么”类否定义构式探析[J].中文信息学报,2015,29(5): 1-9.

牛长伟(1986—),博士,讲师,主要研究领域为形式语义学、对外汉语教学。

E-mail: nchw0044@126.com

程邦雄(1957—),博士,教授,博士生导师,主要研究领域为文字学、语言学及应用语言学。

E-mail: cbx577@126.com

TowardsaRule-basedApproachtoSemanticRecognitionModelofShenme

NIU Changwei1, CHENG Bangxiong2

(1. International Education School, Zhongnan University of Economics and Law, Wuhan, Hubei 430073, China; 2. Institute of Chinese Linguistics, Huazhong University of Science and Technology, Wuhan, Hubei 430074, China)

There are at least three interpretations of wh-phrases in Mandarin Chinese: interrogative reference, existential reference, and universal reference. This paper takesshenmeas the example, and proposes a rule-based approach to recognize its interpretation in different syntactic contexts. After the testing of its preferred reference in the complex syntactic contexts, a semantic recognition model ofshenmeis built and revised by experiments.

shenme; semantic recognition model; word sense disambiguation

1003-0077(2017)05-0014-07

TP391

A

2016-11-01定稿日期2017-05-15

湖北省社科基金(2016026);中南财经政法大学振兴工程科研基金(21141611401)

猜你喜欢
决策表全称句法
2022年本刊可以直接使用的常用缩略语
2022年本刊可以直接使用的常用缩略语
2022年本刊可以直接使用的常用缩略语
基于决策表相容度和属性重要度的连续属性离散化算法*
述谓结构与英语句法配置
带权决策表的变精度约简算法
2019年本刊可以直接使用的常用缩略语
句法二题
诗词联句句法梳理
电力稳控系统在石化企业的应用