树库中的歧义组合考察

2012-06-29 01:55:30李艳娇杨尔弘
中文信息学报 2012年2期
关键词:小类歧义短语

李艳娇, 杨尔弘

(北京语言大学 应用语言学研究所,北京 100083)

1 引言

树库作为包含语言结构信息的资源,其价值与作用得到了人们的肯定。“首先,它可为基于统计的自动句法分析器提供必要的训练数据和统一的测评平台;其次,它能为汉语句法学研究提供真实文本标注素材,便于语言学家从中总结语言规则和规律;第三,它是进一步进行句子内部的词语义项和语义关系标注的基础[1]。”

组合歧义是指一个句法结构可以对应多种组合方式,即对应多棵树。对于计算机而言,要在多个结构中选择一个合适的句法结构,需要各种知识,通常统计的训练模型主要利用的是一种结构在特定环境中的概率分布知识。本文通过对树库语料中三元词性序列组合方式的统计,发现汉语中的歧义组合很大程度上要靠词语内部的语义关系来化解,上下文环境的句法信息作用甚小。

《汉语短语结构定界歧义类型分析及分布统计》[2]一文在一个汉英机器翻译系统所用的汉语分析规则的基础上,对汉语短语结构的定界歧义做了全面考察,从歧义格式的组成成分,歧义对外造成的影响,模式歧义和实例歧义的对应关系三方面考察了短语结构定界歧义的不同类型,并对汉语短语结构定界歧义的不同类型进行了初步统计,以期对汉语短语结构定界歧义问题做清晰化的描述。至于一个歧义格式跟具体歧义实例的对应关系,由于要跟实际语料使用相印证,需要大规模树库的支持,所以该文没有做统计。而本文是在大规模树库的基础上,根据具体的实例来统计组合歧义模式,不同于上文的角度,正好形成有益的补充。

2 基于树库的考察

2.1 语料说明

清华大学树库(Tsinghua Chinese Tree-bank,TCT)是国内第一个大规模汉语树库,也是一个标注信息最丰富的短语结构树库[3]。1998年到2002年间完成了100万词的建设。本文所使用的语料是TCT中经过人工校对的150个文件,共7 063个句子。

2.2 考察对象

名词、动词、形容词是汉语的三大词类,清华树库中名词、动词、形容词共有14种不同的标记符号(包括小类)。本文主要考察名词、动词、形容词(包括小类)在连续线性序列上的组合情况,共27(33)种。具体方法是,将连续出现的三个词串(名词n、动词v、形容词a的任意组合)提取出来,然后匹配出三个词直接组合在一起的实例,将实例数量排在前十位的模式作为本文的考察对象(下文一些具体的标注符号请参见相关规范[4-6])。

2.3 考察结果与分析

三个连续出现的词串,可能组合在一起,也可能不组合在一起,例如,收回/v 澳门/nS ,/, …… ,/,是/vC [np-DZ [np-DZ [np-DZ 我/rN国/n]人民/n] [np-DZ长期/n的/u [np-DZ 共同/a 愿望/n ] ] ] ] ] …… 。/。(n+n+n模式,“国”没有直接和“人民”结合,而是与前面的代词“我”组合,“长期”则是“共同愿望”的定语,所以这里连续的三个名词n没有直接联系)。在这里,不能直接组合在一起的三元词串不在考察范围内,我们只考察能够直接组合在一起的三元线性序列。

2.3.1 总体情况

通过数据统计,实例数量排在前十位的模式组合情况如表1所示。

通过表1的具体数据可以看出,十种模式在组合方式上是有差异的,“n+n+n”“v+v+v”“v+n+v”模式有三种组合方式,而其余八种模式都是a、b两种组合方式,即相对于其他模式而言,“n+n+n”“v+v+v”多出一种三个成分并列的模式(之所以将“v+n+v”去掉,是因为人工回查中发现,“v+n+v”的并列组合模式属于标注失误)。说明三个词连续出现,若词性相同,则直接组合成一个整体、构成并列成分的可能性会更大。

表1 十种模式的组合情况

此外,十种模式在不同的组合方式上也有不同的组合倾向,如“n+n+v”更倾向于a式组合,“v+a+n”更倾向于b式组合,c式组合有一定的特殊性,需要的条件较严格,只有少数模式在特定情况下才会出现。

以上就是十种模式的总体情况。在后续进一步的考察中发现,有些情况下,同种模式的不同组合根据本身的词性序列是可以化解掉的,如“n+v+n”模式中,若A位置上的n是表示地点的名词(nS),无论B、C位置上是什么词,是什么词性,一般倾向于b([ A [ BC] ])式组合,而不会是a式组合,例如,后来/t 得知/v [dj-ZW临潼/nS[vp-PO有/v风力发电机/n] ] ,/, 我/rN 就/d 一/m 个/qN 人/n 去/v 买/v 。/。

但更多的时候,这种歧义组合在词性标记符号的基础上是消解不了的,以下分别说明十种模式的歧义组合。

2.3.2 十种模式的歧义组合

1) n+n+n模式

a1 ……在/p [np-DZ[np-DZ村/n干部/n]家/n] 搭伙/v 吃/v 饭/n ,/,补贴/vN 金额/n 严格/aD 按/p 规定/n 办/v 。/。

b1 [np-DZ部分/n[np-DZ日元/n贷款/n] ] 及/c 无偿/b 援助/vN 建设/vN 项目/n 考察/vN 散记/n

c1 党/n 的/u [np-LH路线/n方针/n政策/n] 和/c 一切/rN 言论/n 行动/n ,/,……

n+n+n模式是由连续的三个名词组成,相对于其他模式,多出一种三个成分并列的模式。上面三个例子中“村/n 干部/n 家/n”中“村”只修饰“干部”,说明“干部”的级别,“村干部”作为一个整体修饰“家”,表明“家”的所属(谁的家),体现为a式组合;“部分”和“日元”都是来限制修饰“贷款”的,但一个用来说明“贷款”的数量,一个用来说明“贷款”的性质,因此它们不在同一个层次上,组合要有先后顺序,所以“日元”先修饰“贷款”,然后再用“部分”来限定“日元贷款”这个整体,即b式组合;“路线”“方针”“政策”三个词之间是并列关系,各自是一个方面,没有修饰和限定关系,所以三者直接组合成一个整体,体现为c式组合。由此可见,组合方式与词语之间的语义关系直接相关,不同的语义关系决定了不同的组合方式,线性序列上的词性信息没有表现出很强的作用。

2) v+n+n模式

a2 …… [np-DZ[vp-PO种/v菜/n]开支/n] 增加/v ,/,自然/d 影响/v 价格/n 。/。

b2 ……以往/t 那/rB 种/qN 认为/v [vp-PO干/v[np-DZ人武/n工作/n] ] 是/vC “/“ 敲边鼓/iV ”/” 的/u 思想/n 打掉/v 了/u 。/。

在上面两个例子中,“种/v 菜/n 开支/n”与“干/v 人武/n 工作/n”两个短语不仅词性序列相同,更严格的看,两个短语句法位置也都一样,都在句子中作主语,但它们的组合方式依然不同。“种/v 菜/n 开支/n”中动词“种”与“菜”先组合成动词性的述宾结构,述宾结构作定语修饰“开支”,最外层形成名词性的定中结构;而“干/v 人武/n 工作/n”是“人武”与“工作”先组合,然后与前面的“干”在最外层形成述宾结构。这种组合的差异主要体现在语义关系的不同: “种/v 菜/n 开支/n”中“菜”是“种”的动作对象,“种菜”作为一个整体限定说明“开支”的用途;“干/v 人武/n 工作/n”中“人武”不是“干”的直接对象,而是限制说明“工作”的性质,“人武”要与“工作”组合成一个整体来作为“干”的对象。所以,这种不同的组合是由词语之间的语义信息决定的,与句法信息尤其是词性信息关系甚小。

3) n+v+n模式

a3 ……先后/d 分/v 片/qN 举办/v 了/u 30/m 多/m 期/qN [np-DZ[dj-ZW商品/n交易/v]知识/n] 培训班/n ] ,/,……

b3 ……成立/v了/u 600/m 多/m 个/qN [dj-ZW民兵/n[vp-PO送/v温暖/n] ]小组/n ……

“商品/n 交易/v 知识/n”与“民兵/n 送/v 温暖/n”两个短语的词性序列相同,说明两个短语中对应的具体词属于相同的词类范畴,但它们内部的组合方式却完全不同: a3是动词“交易”与前面的名词“商品”先结合形成主谓结构,主谓结构作定语然后修饰后面的名词“知识”,形成定中结构;b3是动词“送”与后面的名词“温暖”先结合形成述宾结构,然后与前面的名词“民兵”结合,最外层形成主谓结构。这种不同的组合方式与词语间的语义关系直接相关,一般而言,动词总是与其动作对象先结合(“送”的对象是“温暖”,“交易”的对象是“商品”),当动作对象处于不同的位置时,就有可能形成不同的组合方式,而这种组合歧义靠词性序列是很难化解的。

4) v+v+n模式

a4要/vM 增强/v 责任/n 意识/n 、/、全局/n 意识/n 、/、 [np-DZ[vp-LH改革/v开放/v]意识/n] 、/、[np-DZ[vp-LH调查/v研究/v]意识/n] ] ] ,/, …… 。/。

b4有/vJY两/m 位/qN 医生累瘫/v 在/p 手术台/n ,/, 稍事休息/v ,/,又/d 重新/d 上场/v [vp-PO继续/v[vp-PO作/v手术/n] ]。/。

上面两个例子中的短语词性序列相同,说明两个短语中对应的具体词,充当句法成分的能力、与其他词语的组合能力有某些共性。但在具体的实例中,v+v+n模式的组合方式却不相同。a4中,“改革”与“意识”、“开放”与“意识”都不是动作与对象的关系,而是一种限定关系(一种什么意识),“改革”与“开放”需要先组成并列结构,然后限定后面的名词;而b4中,“继续”的对象是“做手术”这一行为,“手术”是“做”的直接对象,所以“做手术”要先结合。所以,词语间语义关系的差别决定了a4、b4组合方式的差异。

5) v+n+v模式

a5在/p主人/n 引导/v下/f ,/, 李/nP 主席/n换上/v 清洁服/n ,/, [vp-LW[vp-PO去/v养猪场/n]参观/v] 。/。

b5首都/n萨那/nS 和/c 亚丁/nS 、/、赫台达/nS 、/、塔伊兹/nS 等/u 城市/n 遭到/v 飞机/n 轰炸/v ,/,[vp-PO造成/v[dj-ZW人员/n伤亡/v] ] 。/。

“去/v 养猪场/n参观/v”“造成/v 人员/n 伤亡/v”都是“v+n+v”模式,但是它们内部的组合方式却有所不同,a5中“去/v 养猪场/n 参观/v”表示动作的一前一后,即先“去”然后“参观”(“养猪场”既是“去”的对象也是“参观”的对象),所以“去”与“养猪场”先结合形成述宾结构,“去养猪场”与“参观”有时间上的先后关系,整体形成连谓结构。b5中“伤亡”的主体是“人员”,“造成”的结果是“人员伤亡”这一整体,所以“人员”与“伤亡”先组合成主谓结构,这个主谓结构作“造成”的宾语,外层形成述宾结构。所以不论外层是述宾结构还是连谓结构,都与词语的语义特征、短语内部的语义信息密切相关,与词性序列上句法信息关系不大。

6) n+n+v模式

a6 [dj-ZW[np-DZ张鸣岐/nP同志/n]遇难/v]以后/f ,/当地/s 老百姓/n 说/v ,/, ……

b6 …… [dj-ZW法乌斯蒂诺/nP[dj-ZW头部/n中弹/v] ] 当场/d 死亡/v ……

上面两个例子中,“张鸣岐/nP 同志/n 遇难/v”和“法乌斯蒂诺/nP 头部/n 中弹/v”两个短语的词性序列相同,甚至在小类上也一样,第一个名词都是人名(nP)(属于名词的小类,可以看成是一种较粗的语义标注),但它们的组合方式还是不同,说明类似较粗的语义标注达不到化解歧义组合的要求,内部需要更细微的语义信息: “张鸣岐/nP 同志/n遇难/v”中“遇难”的对象是“张鸣岐同志”,所以“张鸣岐”与“同志”先组合在一起,然后跟“遇难”发生联系,最外层形成主谓结构;而b6中“中弹”的直接部位是“头部”,所以“头部”和“中弹”先组合,形成主谓结构,“头部中弹”这一整体的对象是“法乌斯蒂诺”,所以最外层还是主谓结构,是b式组合。可见,化解类似的歧义组合需要词语之间更精细的语义关系,现有词性小类这样粗粒度的语义信息还达不到化解歧义组合的要求。

7) v+a+n模式

a7 ……告诉/vSB 孩子/n 们/k [vp-PO[vp-SB洗/v干净/a]手/n] 再/d 来/v 看/v 书/n ……

b7 ……一时间/d ,/,信息/n [vp-PO成为/v[np-DZ热门/a话题/n] ] 。/。

v+a+n模式的组合歧义主要集中在中间位置的形容词(a)上,到底是与前面的动词(v)先组合,还是与后面的名词(n)先组合,这由短语内部词语之间的语义关系决定: “成为/v 热门/a 话题/n”中“成为”的结果是“热门话题”,“热门”是限定、修饰“话题”的(什么样的话题),所以“热门”先与“话题”形成定中结构,定中结构再作“成为”的宾语,最外层形成述宾关系。“洗/v 干净/a 手/n”中“干净”是来补充说明“洗”这一动作的,所以“洗”和“干净”要先结合形成述补结构,然后再与“手”结合,最外层形成述宾结构。可以看出,中间位置的形容词(a)无论先与前面的动词(v)结合,还是先与后面的名词(n)结合,都是由语义关系决定的。

8) a+n+n模式

a8 ……这些/rN 过去/t 遥远/a 如/v 梦/n 的/u 产品/n ,/,终于/d 进入/v [np-DZ[np-DZ寻常/a百姓/n]家/n] 。/。

b8 …… 其/rN 所/u 体现/v 的/u [np-DZ基本/a[np-DZ伦理/n观念/n] ] 与/p 各/rB 种/qN具体/a 的/u 礼仪/n 和/c 道德/n 规范/n 相/d 结合/v ……

a+n+n模式中,最前面的形容词(a)某些情况下直接限定修饰紧随其后的名词(n),某些情况下限定修饰后面一个整体(两个名词先组合成一个整体),这种不同的组合方式主要是由词语之间的语义关系决定。“基本/a 伦理/n 观念/n”中“基本”和“伦理”都是来限定、修饰“观念”的,但限定的角度不同,“伦理”是说明“观念”的内容,所以“伦理”与“观念”先组合成定中结构,然后“基本”来说明“伦理观念”的地位。而“寻常/a 百姓/n 家/n”中“寻常”是来限定、修饰“百姓”的(说明“百姓”的性质),与后面的名词“家”没有直接联系,“寻常百姓”来限定说明“家”(谁的家),所以,“寻常”与“百姓”要先结合,形成定中结构,然后整体修饰“家”,最外层形成定中结构。

9) v+v+v模式

a9萨那/nS 和/c 亚丁/nS 的/u 国际/n 机场/n 已/d 关闭/v ,/,[dj-ZW[vp-ZZ对外/v联络/v]中断/v] 。/。

b9 [dj-ZW供/v[vp-PO大于/v求/v] ] ,/,价格/n 自然/d 就/d 趋于/v 下降/v ……。

c9 ……[vp-LH打/v骂/v体罚/v]或/c 娇惯/v 溺爱/v 的/u现象/n 比较/dD 普遍/a 。

在v+v+v模式中,三个动词连续出现,相对于其他模式,同样多出一种三个成分并列的模式,从而出现上面三种完全不同的组合方式。“对外/v 联络/v中断/v”中“中断”的对象是“对外联络”,“对外”说明“联络”的性质(什么样的“联络”),所以,“对外”与“联络”要先结合成一个整体作主语,然后在外层与“中断”形成主谓结构;而“供/v 大于/v 求/v”中三个动词分别充当主、谓、宾,“大于”的对象是“求”(实际上是所求的东西),所以,“大于”与“求”先结合,然后与主体“供”形成主谓结构;“打/v 骂/v 体罚/v”三个动词之间不是限制、修饰关系,而是一种并列关系,所以三个词直接组合在一起。可以看出,三个动词连续出现,不管是什么样的组合方式,都是由词语间的语义关系决定的,语义关系决定哪两个动词先结合,怎样结合,构成什么样的句法结构类型。

10) a+v+n模式

a10[np-DZ[np-DZ基本/a建设/vN]规模/n] 过/dD 大/a ,/,全/a 社会/n 固定/a 资产/n 投资/vN 比/p 上年/t 增加/v 30%/m 以上/m ,/,……

b10民主集中制/n ,/,作为/v 上层建筑/n 的/u [np-DZ重要/a[np-DZ组成/vN部分/n] ] ,/,是/vC ……

从小类上看,上面两个例子都是“a+vN+n”模式(vN名动词,动词下面的一个小类),小类的设立可以看成一种粗粒度语义标注,在这里同样没有起到化解歧义组合的作用。a10中,“基本”只限定、修饰“建设”,说明“建设”的性质,所以它们先组合,形成定中结构,然后修饰“规模”,说明“规模”的内容。而b10 中,“重要”和“组成”都是修饰“部分”的,但角度不同,“组成”和“部分”先组合形成定中结构,然后“重要”来说明“组成部分”的地位。虽然词性标记涉及到小类,但仍有组合歧义,说明词语的组合方式主要取决于它们之间的语义信息,目前词性小类的设置尚且达不到化解组合歧义的目的。

从上面十种模式的分析与考察中可以发现,相同的词性序列可能产生不同的组合方式,也就是我们所说的组合歧义,并且这种歧义具有很大普遍性。同时能够看出,不同的组合方式是由词语之间不同的语义关系决定的,与词语的语法特征(如词类信息)没有明显关系。

3 讨论

纵观汉语的这些类型的歧义,不难发现它们歧义的排除绝大多数是靠自身的意义,而不受词语的语法特征尤其是词类信息的制约,例如,“成为/v 热门/a 话题/n”,“洗/v 干净/a 手/n”的歧义靠自身的意义排列就可以排除,与线性序列上的词性标记、句法信息等无关。

当前统计的方法得到越来越多的认可,人们构建树库,在很大程度上是“可为基于统计的自动句法分析器提供必要地训练数据和统一的测评平台”,即在现有树库的基础上进行机器学习,让计算机获得尽可能多的句法知识,实现更大规模的标注,提高正确率,节省人力、物力。而大量歧义组合的存在必定影响机器学习的效果,对正确的组合方式产生干扰,不利于正确率的提高。

构建树库不是要增加歧义,而是要消除歧义,尽量使一个句子对应一棵树(因为人的理解是没有歧义的)。目前的考察不得不令人怀疑,依靠句法信息、在词性标注的基础上构建汉语树库能否达到消歧的目的。或许,我们可以采取一些新的策略和方法,比如前文(2.3.1)已经提到,词类小类有些情况下可以化解一些组合歧义,只是现有的小类还不够精细,不能够化解所有的歧义组合,所以,在后面的工作中,可以尝试在词类标记小类更加细化的基础上,对这些歧义组合的短语进行集中标注、集中化解,让机器学到更加精细的语义知识,或许情况会有所改善。

4 结论

汉语大规模树库是一项重要的资源,它为汉语语言研究和信息处理做出重要的贡献,如何有效地利用其中的数据,需要通过对数据的考察、分析、研究。

本文通过十种模式的考察与分析发现,在词性序列的基础上,汉语的歧义组合是普遍存在的。一般来说,不同的组合方式与词语之间的语义信息有密切的关系,而并不受句法信息(尤其是词类信息)的制约,甚至词类小类如人名(nP)、名动词(vN)等这种粗粒度的语义标注,某些情况下也达不到化解歧义组合的要求。这说明在目前词性标注的基础上,对汉语进行句法标注会产生大量的歧义组合。

歧义组合的存在会影响计算学习的效果,这需要引起我们的思考和重视,尝试采取一些新的策略和方法,更好的解决树库中存在的歧义组合,以便更好地服务于中文信息处理。

致谢

在本文的写作中,董振东教授提出了很多宝贵的意见,在此表示诚挚的感谢!

[1] 王跃龙,姬东鸿.汉语树库综述[J].当代语言学,2009,11(1):47-55.

[2] 詹卫东,常宝宝,俞士汶.汉语短语结构定界歧义类型分析及分布统计[J].中文信息学报,1999,13(3):9-17.

[3] 汉语句子的句法树标注规范V2.0[R] .清华大学计算机系智能技术与系统国家重点实验室,技术资料,2002.

[4] 周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11.

[5] 周强,张伟,俞士汶.汉语树库的构建[J].中文信息学报,1997,11(4):42-51.

[6] 周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8.

猜你喜欢
小类歧义短语
eUCP条款歧义剖析
中国外汇(2019年12期)2019-10-10 07:26:58
浙江配电网物资标准化研究与应用
物流技术(2017年4期)2017-06-05 15:13:46
English Jokes: Homonyms
“那么大”的语义模糊与歧义分析
寻求歧义研究的解释力度:从认知视角到社会视角——兼评《现代汉语歧义识别与消解的认知研究》
当代修辞学(2011年3期)2011-01-23 06:40:16
小类:年轻人要多努力
大学(2008年10期)2008-10-31 12:51:10