储小静
(华中师范大学 文学院,湖北 武汉 430079)
复句作为汉语语法重要的实体单位,它表达的语义信息丰富复杂,因而在信息处理领域有很多方面值得研究。但是,复句层次和关系的自动分析中,关系词语的省略及嵌套是较难处理的问题。事实上,这两大问题都与复句关联标记的离析度有关[1]。离析度(Separation Degree)本指具有相似性质微粒间发生集聚,进而引起物料的相互分离的程度,这一概念被广泛应用于化学工程学、土木工程学、冶金学、药学等领域。本文中复句关联标记离析度是指固定搭配成对的关联标记相互依存、联系的紧密程度——相互间依存度高意味着关联标记的离析度低,反之则离析度高。
依据分句间关系的不同,复句分为因果类复句、并列类复句、转折类复句三大类[2]。因果复句属于因果类复句的一小类,它由原因分句和结果分句两部分构成,两种分句的语序差异则构成两种类型的因果复句。一类为原因分句在前结果分句在后,称作“因一果”复句,其典型句式为“因为……所以”,如例(1);另一类为结果分句在前原因分句在后,称为“果一因”复句,其典型句式为“之所以……是因为”,如例(2)。
(1)因为两扇大门敞开,又向阳,所以光亮些罢。
(2)作者指出,中国之所以能够创造奇迹,是因为遵循了独立自主、热爱祖国、反腐倡廉、遵纪守法和富民强国的原则。
从语感上看,两两匹配的关系词语“因为”与“所以”、“之所以”与“是因为”分离的能力都较强,相互依存度都不高,既可嵌套也可省略。那么,这两种格式的离析能力完全相同吗,是否存在差异呢?本文拟在刘云基础上,对这两种典型的有标因果句式展开关于关系词语离析能力的对比研究,将从8个方面分析,以期发现更多新的语言现象、规律,运用于中文信息处理中。
省略能力指因果句式“因为……所以”“之所以……是因为”中配对使用的关联标记是否可以省略的能力。如果能够省略,省略一个还是两个都可以省略。如果省略能力越强,则离析程度越高。
储泽祥认为,复句中如果只在前分句用了因果关联标记,则属于居端依赖式(简称居端式),如例(3);如果只在后分句用了因果关联标记,属于居中粘接式(简称居中式),如例(4);如果前后分句都用了因果关联标记,则属于前后配套式(简称配套式),如例(5)[3]。据此,本文将语料中关联标记使用情况分为“居端式”“居中式”和“配套式”三种,统计结果见表1。
表1 因果句式关联标记使用频数统计
(3)他因为太累,没吃饭便倒在床上睡去了。
(4)捕拿外国交涉代表最初也是他提议的,所以他也是属于剿夷派的。
(5)因为它抗拒改变,所以形状一直不变。
“因为……所以”和“之所以……是因为”两种因果句式中关系词语的省略力都很强,且居中式和居端式出现的频次远远多于配套式。不同的是,“因为……所以”句式中,居端式的频次明显多于居中式和配套式,分别是居中式的2.3倍、配套式的41.9倍,即居端式>居中式、配套式。“之所以……是因为”句式中,居中式的频次略微多于居端式和配套式,分别是居端式的1.06倍、配套式的4.33倍,即居中式>居端式、配套式。
我们引入MI值(mutual information value)这一概念来计算因果句式中前后关系词语的搭配强度。MI值(又称“互信息值”)代表共现的两个变量中一个变量对另一个变量的影响程度,表现在复句格式中,即为关系词语A在语料库中出现包含的关于关系词语B出现的概率信息。互信息值愈大,节点词对其词汇环境影响愈大,共现词由于节点词的出现进而减少不确定性。其计算公式为:
(1)
P(a)代表a在语料库中各个位置的平均出现的概率,P(b)代表b在语料库中各个位置的平均出现的概率,P(a,b)代表搭配词a与节点词b的共现概率,统计中设定的搭配距离值为18[4]。它们的计算公式如下:
(2)
(3)
(4)
其中,W代表总词容,为10 429 653词次,f(a)代表a在语料库中出现的频次,f(b)代表b在语料库中出现的频次,f(a,b)代表搭配词a与节点词b在设定的搭配距离内共现的频次。
在“因为……所以”句式中,设定a=“因为”,b=“所以”,其MI值为7.11。在“之所以……是因为”句式中,设定a=“之所以”,b=“是因为”,其MI值为12.14。由计算结果可知,“因为……所以”句式中MI值小于“之所以……是因为”句式中MI值,即“因为……所以”的省略能力强于“之所以……是因为”。
当然,“之所以……是因为”的居端式虽然省略了后面的关系词语“是因为”,但多数情况下需要和“主要是”“主要原因是”“是……决定的”“归因于”等表原因的词语或构式组合搭配成句。这也从侧面证明了“之所以……是因为”省略能力是受限制的。
扩展能力指因果句式“因为……所以”“之所以……是因为”中能否加入相同的关系词语的能力,还有如“由于……因而”可以扩展为“由于……也由于……因而”,“不是……而是”可以扩展为“不是……也不是……而是”。这些关系词语的扩展能力都较强。而有的关系词语却不能扩展,如“与其……不如”不能扩展为“与其……不如……不如”,也不能扩展为“与其……与其……不如”。可以扩展的复句关系词语的离析能力要强于不能扩展的复句关系词语。
对比“因为……所以”、“之所以……是因为”两种句式,它们都可以进行扩展,也都可以和其他类型的关系词语连用。前者可以扩展为 “(正)因为……(正)因为……所以、因为……也因为……所以、因为……所以……所以”,后者可以扩展为“之所以……之所以……(就是)因为、之所以……是因为……也因为、之所以……是因为……是因为”等。请看如下例句:
(6)正因为群众路线是我国刑法的巨大力量的源泉,正因为群众路线是为了谁、依靠谁的关乎革命的根本问题,所以在政法工作中要不要群众路线是社会主义和资本主义两条道路的斗争问题。
(7)哦,因为失恋,所以消极悲观,所以要自杀么?
(8)在中国,共产党领导的无产阶级革命之所以能吸引千千万万的劳动人民的参加,之所以有那么多工农群众不怕流血牺牲,坚定地跟着共产党走,就是因为人民群众懂得共产党是为了谋求劳苦大众的解放,是为劳动人民争民主的。
(9)春天之所以为人喜欢,是因为姹紫嫣红的繁花,是因为青翠欲滴的绿芽。
我们设定搭配距离为18,对语料库穷尽检索,发现,“因为……所以……”向前扩展130例,向后扩展30例;“之所以……是因为”向前扩展20例,向后扩展100例。当“之所以……是因为”句式向后扩展时,表原因的后分句多嵌套一个递进、选择或并列关系复句,原因标“因为”常规出现在并列标、选择标或递进标的后面。当“因为……所以”句式向前扩展时,表原因的前分句多嵌套并列、递进关系复句,此时并列标或递进标可出现,亦可不出现。如若出现,原因标的位置大多在后面。
总的来说,句式“因为……所以”和“之所以……是因为”都有一定的扩展能力,都可以丰富句法结构及语义内容。两种句式扩展能力相差不大。
嵌套能力指因果句式“因为……所以”“之所以……是因为”中能否嵌套其他关系词语的能力。有些配对使用的复句关系词语结合很紧密,几乎不能嵌套其他关系词语[5],例如表推断关系的“与其说……不如说”,穷尽语料难以发现中间嵌套其他关系词语的例子。而有些配对使用的复句关系词语结合较自由,中间能够嵌套其他关系词语[6],如表转折关系的“虽然……但是”或表因果关系的“多亏……因此”。
观察语料可以将“因为……所以”“之所以……是因为”句式的嵌套情况归纳如表2所示。①
表2 “因为……所以”和“之所以……是因为”句式嵌套情况总结
(10)因为他不愿去加重那个社会的黑暗,所以他宁愿去讨饭,也不拿那五斗米的薪俸。
(11)因为国家为了鼓励扩大再生产,规定建筑部门的利润较低、税负较少,所以建筑部门职工生产的价值较低。
(12)你之所以选择了我,是因为我是我,还是因为我正好是这个类型的女人?
(13)党在漫长的岁月中,之所以历经磨难而不衰,不管遇到多么大的狂风暴雨,都能巍然挺立,就是因为深深扎根于人民群众之中。
“因为……所以”可以嵌套假转关系之外的10种关系,几乎囊括了所有复句关系类型。嵌套方式上既可以由前分句嵌套,也可以由后分句嵌套。相比之下,句式“之所以……是因为”中可嵌套的关系词语种类数量较少,并且大多数是后分句嵌套,可以放在前后分句中间的情况很少。如例(13)是表因果关系的“之所以……是因为”前后分句之间嵌套表让步关系的“不管……都”,其他各例多是表原因的后分句嵌套各类关系词语。总之,“之所以……是因为”句式嵌套不够自由,其嵌套能力不如“因为……所以”。
停顿能力是指因果句式“因为……所以”、“之所以……是因为”中配对使用的关系词语之间能否停顿的能力。停顿越长,离析能力越高;反之,则离析能力较弱。来看下面的例子:
(14)“瑞表”是一种可大量生产的塑料廉价石英表,内部零件因为微型技术的充分运用,元件使用数目比传统石英表减少约44%,也就是由原来的91个减为51个,表的厚度也减薄至8毫米,再加上元件是以超音波焊接,没有一颗螺丝,表面玻璃也是嵌镶在表壳里的,所以它是绝对防水避震的。
(15)当时北平的老百姓,因为对过去日本搞什么户口、良民证、身份证,恨透了,所以对国民党又来搞户口登记,很反感,都不去上户口。
例(14)中,“因为……所以”之间使用的虽然全是逗号,但停顿距离为88个字符,停顿长。例(15)中,“因为……所以”之间使用的有停顿能力很弱的顿号,但停顿的距离是23个字符,停顿较长。
(16)他之所以能够捱了多少年,没有逃开那个乌烟瘴气的工厂,是因为那里有好几个他的患难的伙伴。
(17)张某进一步透露,他们之所以能一次用一大叠发票去换购物券及用一大叠购物券在收银台处与顾客交换等额现金,是因为与店内人士“有关系”、“有分成”。
穷尽语料发现“之所以……是因为”句式之间不能用句号、分号停顿,多数用逗号,且停顿距离较短,最长的停顿距离不超过40字符,如例(16)的22个字符、例(17)的37个字符。
由上可知,“因为……所以”内部不仅可以插入各种独立语等语用成分,也可以插入句法成分;不仅可以使用分号、逗号等句内点号,也可以使用句号句末点号;果标甚至可以成为篇章关联标记。与之相比,“之所以……是因为”的停顿能力较弱。
管控能力是指因果句式“因为……所以”“之所以……是因为”中关系词语能否位于主语前面管控整个小句的能力。置于主语前面的关系词语比仅位于主语后面管控述语部分的关系词语的离析度高。
例如并列复句“一面……一面”,当主语相同时,关系词语“一面”既可以位于主语后;也可以位于主语前;当主语不同时,关系词语“一面”则位于主语后。像例(18)、(19)这种用法的非常少见,搜集到的例句仅几十例。现代汉语中“一面……一面”格式连接的两个分句主语大多数是相同的,且关系词语“一面”位于主语后。也就是说“一面”的管控能力较弱。
(18)一面他不愿和桂秋讲什么,一面他切盼树人们回来。
(19)他一面脱上衣和背心,我一面告诉他一切安排都推迟了,等他来决定。
那么,“因为……所以”“之所以……是因为”的管控能力如何?分析语料,“因为……所以”句式中“因为”既可以位于主语前面也可以位于主语后面,位置较自由,离析能力强,如例(20)、(21)。“之所以……是因为”句式中“之所以”全都位于主语后,管控后面述语部分,离析能力大为减弱,如例(22)。
(20)因为他没有文化父亲,所以才叫私生子,单凭这一条,就足以使他永生难见天日。
(21)皇帝因为不相信他的臣子,怕他们反他,所以要他们直接向他负责。
(22)绝对理念之所以成为绝对理念,就是因为它在精神上讲是发展到了极点。
由于管控能力强的关系词语控制小句能力较强,有时中间可以嵌套其他关系复句或关联词语,使用频率也随之升高。
对应能力是指因果句式“因为……所以”“之所以……是因为”中关系词语是否为一对一,能否一对多的能力。可以一对多的关系词语的离析能力强于只能一对一的关系词语。
邢福义[7]先生把因果类复句分为说明性因果、推论性因果、目的性因果、假设性因果和条件性因果五种,是广义的因果关系。狭义的因果复句即说明性因果复句,按照语序的前后可分为由因溯果句——“因—果”复句和由果溯因句——“果—因”复句[8]。“因为……所以”“之所以……是因为”分别作为“因—果”复句和“果—因”复句的典型形式,各自的对应能力是不同的。
“因为……所以”中,前分句关系词语“因为”可以跟多个表结果的关系词语配对(如“因此才、就、因而、便、故此、故而、以至、以致”)而不影响语义表达,同理,后分句关系词语“所以”也有多个表原因的关系词语“多亏、鉴于、由于、幸亏、可惜、好在、亏得”与之配对。
再来看“之所以……是因为”句式,与前分句关系词语“之所以”配对的表原因的关系词语,和与后分句关系词语“是因为”配对的表结果的关系词语都各只有一个,分别是“由于”和“所以”。虽非只能一对一,但对应能力也非常弱。显然,“因为……所以”对应能力强于“之所以……是因为”。这也从侧面验证了相较于“之所以……是因为”,因果式“因为……所以”更为常用、具有普适应。
换位能力是指因果句式“因为……所以”“之所以……是因为”中合用的关系词语能否互换位置的能力。可以换位的复句关系词语的离析度高于不能换位的复句关系词语。
例如“唯有……才”不能换位成“才……唯有”;“是……还是”不能换位成“还是……是”,它们的换位能力弱,离析度低。又如“不是……而是”可以换位成“(而)是……不是”;“尽管……但是”可以换位成“(但是)……尽管”,换位后它们的语义并未发生变化,离析度高。
复句作为语法实体,具有严密的逻辑语义关系,一般情况下前后分句的句序是相对固定的。但由于语用因素或上下文衔接原因,“分句句序逆置”现象时有发生:
(23)a.一名记者表示,他与同事每天早上都是“闭着眼工作”,因为他们都通宵看球。
b.一名记者表示,因为他们都通宵看球,所以他与同事每天早上都是“闭着眼工作”。
(24)a.党的基层组织之所以重要,因为它是训练、教育党员的特殊学校。
b.因为它是训练、教育党员的特殊学校,所以党的基层组织重要。
从例句(23)和(24)可知,“因为……所以”“之所以……是因为”是两种语序完全相反的因果复句,毫无疑问,它们是可以互换的,互换能力都很强。因此本节不赘述。
位置因素指同样的关系词语处于不同的位置时会影响其离析能力。例如“或者……或者”如果需要省略,一般省略前一个“或者”保留后一个“或者”。诸如此类表并列关系的句式“既……又、既……也、又……又、也……也、一边……一边、一面……一面和一方面……另一方面”都可以省略前一个关系词语而不影响理解。这同样是离析度高的表现。
关系词语“因为”“所以”“之所以”“是因为”作为显赫关系标记,几乎在任何句法语义环境下都能充当关系标记,并且都能明确标示其因果复句关系类型,它们的位置能力是不容置疑的。“因为……所以”不论是前省略还是后省略,多数情况下都不影响理解,复句自动分析时可以轻松识别。而“之所以……是因为”句式中“是因为”省略时,多数情况下“之所以”要和“原因就是、重要的原因是、由……决定、根本原因是、导致、原因在于、在于”等表原因的词语或构式组合搭配成句,复句信息化处理时需要考量这些词语参数。
综上,可将上述八个标准比较结果列表如下②:
表3 “因为…所以”和“之所以…是因为”离析度对比
相较于“因为……所以”,“之所以……是因为”的省略、嵌套、停顿、管控、对应和位置都受到极大的制约。同属因果关系的“因为……所以”的离析能力比“之所以……是因为”强得多。我们认为,省略和嵌套能力是影响关联标记离析度的重要的因素,等级序列优先于换位、停顿、扩展、管控、对应和位置因素。当然,这八种因素共同作用于复句关联标记,不可或缺。
自中文信息处理研究迈入“句处理”阶段以来,短语结构分析及单句的自动句法分析都取得了不俗的成绩。然而要进一步实现中文信息处理研究的跨越式发展,推动人工智能的深化,并最终让计算机理解自然语言,依然还有很长的路要走。不论利用什么样的研究方法,采用何种研究路数,在这个过程中,复句信息处理都是无法绕开的重要议题[9]。
对复句的理解与分析起着重要作用的关联标记,其离析度的高低自然影响着复句信息工程的发展。首先在复句自动分析方面,关联标记的离析度可以为复句的层次划分提供参考。例如,一般嵌套能力强的关联标记所在分句多为第一层次,包孕着嵌套能力弱的关联标记引领的分句。同样,一般停顿能力强的关联标记引领的分句多为第一层次,包孕着停顿能力弱的关联标记所在分句。其次在机器翻译方面,省略能力弱的关联标记若缺少与之配对的关系词,语义表达的准确度易受影响。来看假设关系复句“如果我哭了,你就给我递纸巾”百度翻译为“If I cry, you hand me the tissue”;若省略掉假设标“如果”,则翻译为“When I cry, you hand me the tissue”。可见,关联标记的省略与否会影响翻译的句式及其意义。最后在词典编纂、汉语教学、词性标注、信息检索及自然语言生成方面,关联标记离析度的研究都对此有一定帮助。
“因为……所以”和“之所以……是因为”作为常用的表因果关系的句式,从离析能力角度将两种句式的特点加以形式化,供计算机使用,有助于精准、系统化的机器学习,相信能够解决层次关系自动识别过程中遇到的一些难题,也能够对以往词典中关系词词条加以更新、补充或纠正。当然,关联标记即使属于同一语义类型,但离析能力仍然存在个体差异,因而在复句关联标记研究过程中需细化分析,不可笼统划类。
注 释:
①本节关于嵌套情况的考察以严格意义上的复句关系标记为依据,不考虑非充盈态复句。所谓非充盈态是指一定分句数目的复句里,各分句中关系标记的隐现形式不能显式地标示复句层次结构及其语义关系。可参考[6]。
②文中语料来自汉语有标复句语料库、国家语委平衡语料库和CCL等,语料规模为20 716 525字。分析方法采用实证性研究和规范性研究相结合的手法,在进行全面描写的同时解释封闭样本。