基于规则的汉语疑问词“什么”的语义识别模型构建

2017-11-27 09:05牛长伟程邦雄

中文信息学报 2017年5期

关键词：决策表全称句法

牛长伟,程邦雄

(1.中南财经政法大学国际教育学院，湖北武汉 430073；2.华中科技大学中国语言研究所，湖北武汉 430074)

基于规则的汉语疑问词“什么”的语义识别模型构建

牛长伟1,程邦雄2

(1.中南财经政法大学国际教育学院，湖北武汉 430073；2.华中科技大学中国语言研究所，湖北武汉 430074)

汉语疑问词具有多义性，至少有三种通用解读：疑问解读、存在解读(虚指)和全称解读(任指)。该文从汉语疑问词的词义排歧角度出发，通过总结汉语疑问词三种解读所处的句法环境的共同特征，确立其在复杂句法环境中的强势解读，进而构建一个基于规则的汉语疑问词的语义识别模型，为制订词义排歧决策表提供依据。该文以词义最多的疑问词“什么”为例，尝试通过这一思路，来构建基于规则的“什么”的语义识别模型和词义排歧决策表，并通过实验来验证，然后将其改进。

什么；语义识别模型；词义排歧

1 引言

与英语相比，汉语疑问词较为特殊，其语义解读会随句法环境的变化而变，此类句法环境错综复杂，若要厘清，并非易事。朱德熙[1]将疑问词的用法分为疑问用法和非疑问用法，非疑问用法有两种：一是表示周遍性，即表示在所涉及的范围之内没有例外，伴有“都、也”之类副词；二是指称不知道或者说不出来的人、事物、处所、时间等。吕叔湘[2]将疑问词(不定指指代词)的用法总结为三种：疑问、虚指、泛指。张斌[3]将疑问词的非疑问用法分为任指、虚指和不定指。前人所总结疑问词的语义解读大同小异，大致可分为三种：疑问、虚指和任指。

也正是汉语疑问词的多义性，使其在词义排歧(word sense disambiguation, WSD)方面处理起来较为棘手。词义排歧是自然语言计算机处理的一个难题，排歧工作涉及上下文因素、语义因素、语境因素，甚至涉及日常生活中的常识[4]。词义排歧的方法有多种，如基于词典的词义排歧方法[5]等。汉语疑问词的词义较为复杂，尤其是多重句法环境下的解读，仍然是词义排歧的一个瓶颈。我们采用有指导的学习方法(supervised learning approaches)中的决策表分类法(decision list classifiers)来处理汉语疑问词的词义排歧工作，也就是根据共现词的等价类的不同制定决策表，然后利用这个决策表输入目标项，确定其最佳的词义[4]。

鉴于汉语疑问词词义排歧工作的复杂性，我们尝试通过相关理论假设，以“什么”作为汉语疑问词的代表，来总结它的三种解读所处的句法环境，然后测试总结这三种解读在复杂句法环境中何种解读是强势解读，以及该强势解读胜出的原因。以此来构建一个自上而下(top-down)的语义识别策略——基于规则的“什么”的语义识别模型，从而为“什么”词义排歧决策表的制定提供依据。然后通过实验来验证这一识别模型和决策表，根据实验结果再来将其改进。

2 相关理论假设

传统语法学家认为疑问词表疑问、虚指和任指的三种用法是疑问词本身具有的，与其所处的句法环境无关。而形式学派则把疑问词看作自由变量(free variable)，其表现为何种解读取决于约束它的算子(operator)。当被隐性疑问算子Q*按照Huang[9]的分析，隐性疑问算子Q是通过疑问词在逻辑层面(LF)上的移位获得的。约束时，表现为疑问解读(疑问)；当被存在算子约束时，表现为存在解读(虚指)；当被全称类算子约束时，表现为全称解读(任指)[6]。以“什么”为例，即：

(1) a.他借了什么书？

b.他没借什么书。

c.他什么书都没借。

(1a)中疑问词短语“什么书”受隐性疑问算子Q约束，表疑问解读；(1b)中“什么书”被否定词“没”统制(c-command)*统制是生成语法学中的专有名词。句法树中，当A节点和B节点互不支配(dominated)，且支配A节点的第一个最大投射(maximal projection)也支配B节点，那么，A节点就统制B节点。从句子语序上看，一般统制成分处于被统制成分前。，表存在解读[7]；(1c)中“什么书”被全称量化词“都”约束，表全称解读。(1)中各句子只受单一算子约束，故其解读尚不复杂。接下来，根据这一理论假设，我们从内涵的视角来总结影响“什么”语义解读的句法环境的特征。

3 影响“什么”语义解读的句法环境的特征

3.1 “什么”表全称解读

一般认为，“什么”在全称量化词“都”和“全”以及类同算子“也”前时，表全称解读。例如，

(2) a. 附近什么都有。

b. 看什么全是倒的。

c. 什么也没有了。

(2a)和(2b)中的“什么”被全称量化词“都”和“全”关联约束*关联和约束是形式语义学中常用概念，“关联”与传统语法中的“指向”相似。算子约束的项一定是关联项，但算子的关联项并不一定会被算子约束，也可能是约束该关联项引出的变量。详见文献[11]。，其语义相当于“任何、所有”，这是该类算子赋予“什么”的量化能力(quantificational force)[8]。而(2c)中的“什么”被“也”关联约束表全称，类同算子“也”的功能是加合，即将各项进行相加得到全称解读，故也属于全称类算子。值得注意的是，当疑问词“什么”在“都”前时，并非全表全称解读。只有当“都”关联约束“什么”时，才表全称解读。例如，

(3) a. 什么书他们都借了？

b. 什么书他们都借了。

(3a)中“都”关联约束“他们”，意思是“有哪些书是他们都借过的”。(3b)中“都”关联约束“什么书”，意思是“他们借了所有的书”。全称量化词“都”一般要求其关联项为复数形式，当存在两个复数形式的词项可作关联项时，“都”均有可能关联二者中其一，这与“都”的关联次序和约束规则*详见文献[12-13]。有关。而“全”和“也”前的“什么”并无此现象。至此，疑问词“什么”被全称类算子关联约束时，该类算子赋予其全称量化能力。

3.2 “什么”表存在解读

一般认为，被否定词统制、处于真值(truth value)不确定环境或疑问环境中的“什么”表存在解读人。例如，

(4) a. 我没什么事。

b.我哪有什么汇款。

c. 他好像突然明白了什么。

d. 如果我借了什么好书，一定告诉你。

e. 他借了什么书吗？

(4a)中“什么事”被否定词“没”统制，表存在解读；(4b)为反问句，也是一种隐性的否定环境，“什么”同样表存在解读；(4c)中“什么”处于非事实动词(non-factive verb)[9]“好像”的辖域内，也处于真值不确定环境中，表存在解读；(4d)为条件复句，复句前件中的“如果”使“什么”处于真值不确定环境中，同样也表存在解读[10]。(4e)为是非问句，“什么”处于疑问环境中，表存在解读。至此，疑问词“什么”处于否定性环境、真值不确定环境或疑问环境中时，表存在解读。

值得注意的是，(4a)中“什么”也有表全称解读之嫌，即“我任何事也没有。”Lin[10]曾就这一现象进行过探讨，将其称为极性存在量化(existential polarity WH-phrases)。简而言之，此时的变量“什么”先表存在，然后通过否定使其表全称。形式语义学上，根据双重否定律(double negation)可得出“∃xΨ(x) ⟺ ∀xΨ(x)”[14]，即否定的存在等价于全称的否定。

3.3 “什么”表疑问解读

“什么”受隐性疑问算子Q约束或处于[+WH]类动词辖域内时，表疑问解读。例如，

(5) a. 你借了什么书？

b. 他问我借了什么书。

(5a)中“什么书”受隐性疑问算子Q约束，表疑问解读；(5b)中“什么书”处于[+WH]类动词(Huang[9])“问”的辖域内，也表疑问解读。疑问算子Q包括疑问词在逻辑层面的移动所产生的隐性疑问算子Q和显性疑问算子句末语气词“吗”[15]。[+WH]类动词(如“问、想知道”等)要求在其辖域内必须出现疑问环境，这样的疑问环境包括是非问句、正反问句、选择问句和特指问句。一般来说，当[+WH]类动词辖域内出现“什么”时，其常表疑问解读，此时的疑问环境即为特指问句*也可以为是非问句，如表2中“我想知道你借了什么书吗。”。至此，疑问词“什么”被隐性疑问算子Q约束或处于[+WH]类动词的辖域内时，表疑问解读。

3.4 小结

通过以上三节的分析，我们来总结一下影响“什么”语义解读的句法环境的特征，如表1所示。

表1 影响“什么”语义解读的句法环境的特征

4 基于规则的“什么”的语义识别模型

据表1总结，影响“什么”语义解读的句法环境有12种之多，在这些句法环境中，其解读不尽相同。然而这仅是“什么”在单一句法环境中呈现出的解读，若要构建基于规则的“什么”的语义识别模型，还需使其处于复杂句法环境中来判定其解读，这样才能得出制约“什么”语义解读的句法环境的优先等级。

4.1 “什么”在复杂句法环境中的语义解读

表1将这12种句法环境分成六大类，分别是：①隐性疑问算子Q;②[+WH]类动词辖域;③否定性环境;④真值不确定环境;⑤疑问环境;⑥全称类算子。其中，否定性环境包括否定词统制和反问句，真值不确定环境包括“如果”类连词和非事实类动词，疑问环境包括是非问句和正反问句，全称类算子约束包括被“都、也、全”约束。另外，隐性疑问算子Q约束的疑问词即是常见的特指问句，并无显性的句法标记，也就无须将其引入复杂句法环境中。

接下来，将剩余的五大类句法环境两两组合，然后来判定“什么”的语义解读。测试语句如表2所示。

表2 复杂句法环境下“什么”的语义解读*[x]+WH表[+WH]类动词，[x]Neg.表否定词，[x]WH表显性疑问算子，[x]Non-factive表非事实动词，[x]Universal表全称算子。

续表

在表2中： “什么”表疑问解读的复杂句法环境包括①和②。由于[+WH]类动词需在其辖域内含疑问环境，此时句子若要合格，“什么”必须表疑问。那么，此时“什么”的疑问解读是强势解读。

“什么”表存在解读的复杂句法环境包括③、④、⑤和⑥。③中的[+WH]类动词需在其辖域内含疑问环境，而此时显性疑问算子“吗”表明子句为是非问句，已符合了这类动词的要求，故“什么”也就无需再表疑问。而由于“什么”处于疑问环境中，故表存在解读。④、⑤、⑥的句法环境是“什么”表存在解读所处句法环境的叠加，故仍表存在解读。在这四类环境中，“什么”的存在解读是强势解读。

“什么”表全称解读的复杂句法环境包括⑧、⑨和⑩。在这三类环境中，“什么”无条件地被全称量化算子“都”约束，表全称解读。也就是说，此时“什么”的全称解读是强势解读。

值得注意的是，⑦的测试语句不合格。这也说明了全称量化词“都”的约束行为先于[+WH]类动词的疑问环境需求。[+WH]类动词需在其辖域内含疑问环境，而此时“什么”却优先被“都”约束表全称解读，[+WH]类动词因在其辖域内获取不到疑问环境，致使句子不合格。

4.2 基于规则的“什么”的语义识别模型

至此，基于规则的“什么”的语义识别模型也就大致可以勾勒出来，如图1所示。

图1中当句中“什么”被全称类算子(“都、全、也”)约束时，表全称解读；若没被此类算子约束，再看其是否处于[+WH]类动词的辖域内。若处于此类动词的辖域内，则需再看该辖域内是否已具备疑问环境(“是非问句、正反问句”)。若具备，“什么”则表存在解读；若不具备，则表疑问解读。接着，若“什么”不在[+WH]类动词的辖域内，则需再看其是否处于否定性、真值不确定环境或疑问环境中。若是，则表存在解读；若不是，则表疑问解读。

图1的语义识别模型是一个基于规则的框架，若要验证其合理性，还需要建立相关的词库，确定各句法环境的区分条件，才能测试相关语料。

4.3 相关词库建立

图1所示的语义识别模型需要建立三个词库，即[+WH]类动词词库、非事实类动词词库和“如果”类连词词库。建立词库后，方便人工或机器做出判断。

汉语中[+WH]类动词不多，包括其辖域内必须嵌套疑问环境的“想知道、问、疑惑”等，以及辖域内可以嵌套疑问环境的“清楚、明白、知道、想象、懂”等。

非事实类动词较多，大概包括： “试、打算、主张、保证、愁、盼望、企图、争取、幻想、梦想、设法、提议、有意、愿、尝试、倡议、鼓吹、假装、力图、拟、乞求、妄图、妄想、向往、欲、预计、该、计划、决定、可能、可以、能、能够、要求、应该、必须、觉得、认为、希望、以为、感到、感觉、估计、鼓励、建议、猜、猜想、怀疑、料、疑心、猜测、假定、恳求、期待、期望、深信、推测、推算、宣称、预言、预测、指望、怕、害怕、像、仿佛”等。

“如果”类连词是连接条件性复句的连词，包括： “如果、只有、只要、除非、假设、假如、假若、倘、要是、要、若、如若、即使、就是、就算、纵然、哪怕、即便、纵使”等。

4.4 “什么”所处句法环境的区分条件

词库建立后，可以快速识别出[+WH]类动词、非事实类动词和“如果”类连词，据表1即可确定“什么”的语义解读。然而，表1中仍有“约束、统制、辖域、环境”等抽象概念，不利于人工或机器识别。此时，根据这些抽象概念在汉语语序上的常规分布，总结“什么”所处句法环境的显性区分条件就显得尤为重要。需要注意的是，这些区分条件不等价于表1所述的句法环境的内涵特征，只是内涵特征的外在常规表现。这些区分条件如下：

(1) 否定性环境： ①“什么”被否定词“不、没、没有、未”等统制，统制成分一般处于被统制成分之前，故“什么”前出现否定词极大可能处于否定性环境中；②“什么”在反问句中，反问句常有“难道、哪有、哪里”等词语标识。

(2) 真值不确定环境： “什么”出现在非事实类动词或“如果”类连词的辖域内，辖域一般在管辖成分之后。故“什么”前有非事实类动词或“如果”类连词极大可能处于真值不确定环境中。

(3) 疑问环境： ①“什么”在是非问句中，“吗”是此类问句标志；②“什么”在正反问句中，“V+否定词+V”是此类问句标志。也就是说，含“吗”或“V+否定词+V”的句子就是所谓的疑问环境。

(4) 全称类算子约束：被约束成分一般在全称类算子之前。也就是说，“什么”处在“都、全、也”之前时，极大可能就被这些算子约束*也有反例，比如(3a)，“什么”处于全称量化词“都”前，但没被“都”约束，故不表全称解读，而表疑问解读。。

5 “什么”词义排歧决策表的制定及验证

5.1 “什么”词义排歧决策表的制定

我们将“什么”词义排歧决策表的默认值设定为“疑问”，根据图1和4.4节中的的区分条件，疑问词“什么”词义排歧的决策表如表3所示。

如表3所示,如果在输入中有全称类算子，且在“什么”之后，则输出“全称”；如果不是这样，那么就检测下一项，如果“什么”出现在[+WH]类动词之后，且与“吗”、“V+否定词+V”共现，则输出“存在”；如果不是这样，则检测下一项，如果“什么”出现在[+WH]类动词之后，且不与“吗”、“V+否定词+V”共现，则输出“疑问”；如果不是这样，则检测下一项，如果“什么”与表3中①、②、③和④有关，则输出“存在”；如果不是这样，则输出默认值“疑问”。

5.2 “什么”词义排歧决策表的验证

为验证表3所示的决策表，我们从CCL语料库中随机检索出500个含“什么”的句子，用表3中的规则来判断这500个句子中“什么”的词义解读。验证的步骤如下：

① 观察句子，判断句中是否有表3中所述的规则；

② 根据①观察到的规则，确定“什么”的词义；若句中无表3提及的规则，则输出默认值“疑问”；

③ 将②输出的词义与实际解读作比较，确定输出解读是否恰当。

按上述步骤对500个句子进行验证，结果如表4所示。

表4 “什么”词义排歧决策表的验证结果

表4显示该决策表识别出了220个“什么”表疑问解读，95个表存在解读，40个表全称解读。决策表未识别出四个应表存在解读的“什么”，究其原因在于这四个句子中的非事实类动词被省略而未被识别出，如(6a)。另外，决策表未识别出141个表其他解读的“什么”，其中有113个“为什么”(如6b)，16个复句(如“不论、无论、不管+什么”)中的“什么”(如6c)，11个表例指文献[16]的“什么”(如6d)，1个表否定[16-17]的“什么”(如6e)。

(6) a. 嘴里(好像)说着什么。

b. 为什么一定要扣车呢？

c. 不论什么票，拿到这里来都能赚钱。

d. 这会儿，什么矿物学，岩石学，对这位研究生都毫无意义。

e. 装什么假正经。

6 “什么”语义识别模型与决策表的改进

据5.2节的结果分析，该语义识别模型和决策表还需进行如下改进：

① 判别“什么”所处的句法环境前，先排除“为什么”的影响；

② 建立“不论”类连词词库，即“不论、无论、不管、任凭”等连词，其后若跟“什么”，则表全称解读。

另外，表例指和否定的“什么”主要分布于口语对话中，以文本形式出现的比例不高。就CCL的样本而言，只占2.2%和0.2%。“什么”的这两种用法没有显性的区分条件，本文不考虑“什么”的这类特殊解读。

7 结语

本文选择“什么”作为汉语疑问词的代表来分析，是因为“什么”是汉语疑问词中用法最多的一个，且一些用法已具有语用含义(如表例指和否定的用法)，并不在疑问词的通用解读之内。不过这些特殊用法所占文本比例并不高，且常用在口语对话中，可暂忽略。也正是出于汉语疑问词多义性的考虑，本文通过总结“什么”在汉语语法领域的相关研究成果，构建一个自上而下的基于规则的语义识别模型，然后根据该语义模型制订了“什么”在词义排歧方面的决策表，以此来判断其在不同句法环境中的确切词义。

[1] 朱德熙.语法讲义[M]. 北京：商务印书馆，1982:89-89.

[2] 吕叔湘.现代汉语八百词[M]. 修订版. 北京：商务印书馆，1999:15.

[3] 张斌.现代汉语描写语法[M]. 北京：商务印书馆，2010:191.

[4] 冯志伟.机器翻译研究[M].北京：中国对外翻译出版公司，2004:573-595.

[5] 李涓子,黄昌宁,杨尔弘. 一种自组织的汉语词义排歧方法[J].中文信息学报，1999，13(3):2-9.

[6] Cheng Lisa Lai-Shen. On the Typology of WH-question [D]. Ph.D dissertation, MIT, 1991:123.

[7] Li Yen-hui Audrey. Indefinite Wh in Mandarin Chinese [J]. Journal of East Asian Linguistics. 1992， 1(2): 125-155.

[8] 张蕾,李宝伦,潘海华. “都”的语义要求和特征：从它的右向关联谈起[J]. 语言研究，2012，(2):63-71.

[9] Huang, James C.-T. Logical Relations in Chinese and the Theory of Grammar [D]. Doctoral dissertation. MIT, 1982:423, 254-258.

[10] Lin Jo-wang. On existential polarity WH-phrases in Chinese [J]. Journal of East Asian Linguistics. 1998, (7): 219-255.

[11] 潘海华. 焦点、三分结构与汉语“都”的语义解释[C]. 语法研究和探索(十三). 北京：商务印书馆，2006:163-184.

[12] 董秀芳.“都”的指向目标及相关问题[J]. 中国语文，2002，(6): 495-507.

[13] 牛长伟,程邦雄. 疑问词与“都”的相对位置分析：“都”的关联次序及约束规则[J]. 语言研究，2015，(4): 1-8.

[14] 蒋严,潘海华. 形式语义学引论[M]. 修订版. 北京：中国社会科学出版社，2005:35.

[15] 牛长伟. 汉语疑问词的语义解读及其应用[D]. 华中科技大学博士学位论文，2015:40-42.

[16] 邵敬敏.现代汉语疑问句研究[M].上海：华东师范大学出版社，1996:232-240.

[17] 夏雪,詹卫东.“X什么”类否定义构式探析[J].中文信息学报，2015，29(5): 1-9.

牛长伟(1986—)，博士，讲师，主要研究领域为形式语义学、对外汉语教学。

E-mail： nchw0044@126.com

程邦雄(1957—)，博士，教授，博士生导师，主要研究领域为文字学、语言学及应用语言学。

E-mail： cbx577@126.com

TowardsaRule-basedApproachtoSemanticRecognitionModelofShenme

NIU Changwei1, CHENG Bangxiong2

(1. International Education School, Zhongnan University of Economics and Law, Wuhan, Hubei 430073, China； 2. Institute of Chinese Linguistics, Huazhong University of Science and Technology, Wuhan, Hubei 430074, China)

There are at least three interpretations of wh-phrases in Mandarin Chinese: interrogative reference, existential reference, and universal reference. This paper takesshenmeas the example, and proposes a rule-based approach to recognize its interpretation in different syntactic contexts. After the testing of its preferred reference in the complex syntactic contexts, a semantic recognition model ofshenmeis built and revised by experiments.

shenme; semantic recognition model; word sense disambiguation

1003-0077(2017)05-0014-07

TP391

2016-11-01定稿日期2017-05-15

湖北省社科基金(2016026)；中南财经政法大学振兴工程科研基金(21141611401)