关系标记对汉语复句层次关系识别的影响

2014-06-14 06:56吴锋文
渭南师范学院学报 2014年9期
关键词:同形复句连词

吴锋文

(信阳师范学院文学院,河南信阳464000)

复句层次关系识别,是计算语言学句法分析的重要议题,也是中文信息处理领域一项富有挑战性的课题。[1-2]关系词作为复句句法和语义属性的形式标记,在复句层次关系识别中具有重要作用,因而在用计算机来实现汉语复句的关系层次自动分析过程中,关系词语的提取和标引是首要的任务。[3]但对计算机而言,如何准确地识别并提取出句中的复句关系词语却并不是一件容易的事情。例如:

(1)(只要)你不再逃课上网,就给你买你想要的山地车。

(2)(只/要)一斤,多的不要。

(3)我们(所以)以民主投票方式选举新一届领导班子,是因为民主投票方式产生的成员才能得到大家的认可。

(4)我们(所/以)民主投票方式选举了新一届领导班子,成员任命将在下午举行。

“只要”“所以”在例(1)(3)充当复句关系标记,而在例(2)(4)则不是关系标记,是伪关系词①复句中伪关系词主要有与复句关系标记同形的异类词、异构词、词间连词和篇章关系标记。。因此,计算机在汉语复句关系层次自动分析中,不论是统一将“只要”“所以”视为整体字段识别标注,还是视为组合字段进行切分标注都会存在问题,使复句关系词判定错误。

以关系标记为突破口来识别复句层次关系,面临的难题主要有两:其一,标记超量,如何区分复句关系词语与伪关系词;其二,标记少量,如何解决关系标记缺失的问题。为提高复句关系标记识别准确度与利用率,本文拟对复句关系标记识别存在的困难进行系统研究,以期为复句层次关系识别打下坚实基础。

一、复句关系标记与同形异类词的区分

所谓同形异类,是指“同一个形式在语法上分属不同的类”[4]26。复句关系词是根据“联结分句、标明结构关系、形成复句格式”的共同特点组合拢来的一些词语,它们没有固定的词类,所以当某个关系词由其他词类虚化而来时,在语言共时平面,就会出现一些关系标记兼属其他词类的现象,从而对复句关系词的识别造成困扰。[5]289-297

以“由于”为例,现代汉语里“由于”既可用作连词,也可用作介词,属于介连兼类。[6]652-654作连词时,表示因果关系,用在表原因的小句中;作介词时,表示原因或理由,一般只用在名词性词语前面,其句法位置可居于句首,也可居于句中,还可以用于“是”后面。例如:

(1)这几年来,由于我们没有搞好民主集中制,以致上下不通气,这是一个带普遍性的严重现象。(《邓小平文选第一卷》)

(2)<由于>这对眼睛,她整个面庞散射着一种迷人的光辉。(张贤亮《绿化树》)

例(1)是“由于”作因果标记的用法;例(2)是“由于”作介词的用法。这种介、连兼类的用法,加大了复句关系词识别的难度。再看一个例子:

(3)①由于工作的需要,②我虽然读过一些语言学方面的书籍,③但自知在语言学家跟前仍是一个门外汉,④所以不敢妄评。(引自李晋霞、刘云2003)

以目前分词系统做的最为成熟的中科院的ictclas分词软件为分词工具,对例(3)进行分词处理,标注结果如下:

(3’)①由于/c工作/v的/u需要/n,/wd②/m我/r虽然/c读/v过/u一些/m语言学/n方面/n的/ude1书籍/n,/wd③/m 但/c自/r知/v在/p语言学/n家/n跟前/f仍/d是/v一个/m门外汉/n,/wd④/m所以/c不/d敢/v妄/d评/v。/wj

以上标注结果只有后面三个分句的“虽然”“但”“所以”是复句关系词,可分词软件却将第一个语段中介词“由于”错误地标注为关系词“由于/c”,正确标注结果为“由于/p”。

对于与实词同形的复句关系词,目前的分词软件在关系词标注方面也存在问题。例如:

(4)他想说话,刚一张嘴,就被人们的笑声顶撞回去。(冯志《敌后武工队》)

(4’)他/rr想/v说话/vi,/wd刚/d一/m 张/q嘴/n,/w就/d被/p人们/n的/ude1笑声/n顶撞/v回去/v。/wj

例(4)中,“一/m(数词)……就/d(副词)……”应该标注为“一/c(连词)……就/c(连词)……”,前后分句中的“一……就……”构成条件复句。

(5)那你这是给孩子看的,还是给参观的人看的呢?(《人民日报》1981-07-26)

(5’)那/c你/rr这/rzv是/vshi给/p孩子/n看/v的/ude1,/wd还/d是/vshi给/p参观/v的/ude1人/n看/v的/ude1呢/y?/ww

例(5)为选择复句,复句中“是/vshi(动词“是”)…… 还/d是/vshi……”应该标注为“是/c(连词)……还是/c(连词)……”。如果不以小句为视角,则无法正确地对复句关系词进行切分标注。[7]

上述分析表明,复句关系词语与同形异类词之间存在纠葛,如果前期的复句关系词标注错误,无疑会影响到复句层次关系的自动识别。

通过对复句关系标记的全面整理,我们发现与复句关系词存在纠葛的词语主要有17个:只是(d、c)、由于(p、c)、因为(p、c)、因(p、c)、为了(v、p、c)、任凭(p、c、d)、另外(c、r、f)、就是(d、c)、尽管(d、c)、既(d、c)、或者(d、c)、果然(d、c)、那(d、c)、那么(d、c)、一面(一面……一面)(d、c)、一(一……就)(m、c)、是(是……还是)(v、c)。

二、复句关系标记与同形异构词的区分

有些复句关系词是由动词或名词甚至是动词短语虚化而来的,它们大都经过了一个语法化的过程。而重新分析是诱发语法化的重要因素之一[8],经历了语法化的关系标记一般已凝固为一个整体结构出现在语言环境中,而那些同形的词汇则是以一个组合结构出现在语言环境中,这样就导致了复句关系标记与同形异构形式在语言共时平面同时存在的情形。因此,关系标记与同形异构词的区分,是关系词自动标注中的一个十分值得重视的问题,它将直接影响到关系标记标注的准确性。

以“结果”为例,根据姚双云(2006),现代汉语里“结果”主要有动词、名词、连词三种用法,连词“结果”是因果标记,大致经历了一个“结果(动词短语)→动词→名词→连词”的虚化途径。[9]关系词“结果”与名词“结果”在形式上是一样的,计算机在采用基于词形匹配的关系词识别策略时,很容易把一个与复句关系词同形的异构形式错误地标注为复句关系词。例如:

(4)为了赶时髦,有些人不切实际地求新求全,结果把活动引入脱离实际、赶浪头争彩头的歧途。(《人民日报》2002年)

(5)由于我们党制定了正确的路线、方针和政策,结果以和平改造的方式,实现了我国历史上最深刻、最伟大的社会变革,从而为我国社会的一切发展和进步奠定了基础。(《人民日报》1991年)

例(4-5)中的“结果”都是用作关系标记的。经过ictclas分词软件分词标注后,句中“结果”的标注结果分别如下:

(4’)为了/p 赶时髦/v,/w 有些/r 人/n

不切实际/v 地/u 求/v新/a 求全/v,/w结果/n把/p 活动/n 引入/v 脱离/v 实际/n、/w 赶浪头/v 争/v 彩头/n 的/u 歧途/n。/w

(5’)由于/c 我们/r 党/n 制定/v 了/u正确/a 的/u 路线/n、/w 方针/n 和/c 政策/n,/w结果/d以/p 和平/n 改造/v 的/u 方式/n,/w 实现/v 了/u 我国/n 历史/n上/f 最/d 深刻/a、/w 最/d 伟大/a 的/u社会/n 变革/vn,/w 从而/c 为/p 我国/n社会/n 的/u 一切/r 发展/v 和/c 进步/v奠定/v 了/u 基础/n。/w

分析例(4-5),作关系标记的“结果”均被错误地标注为名词“结果/n”和副词“结果/d”,正确的注结果应该为“结果/c”。为了解决复句关系词与同形异构词的识别难题,胡金柱、沈威(2007)采用基于渡越矩阵方法进行个案研究,对共时平面“结果”的用法进行标注试验,实验结果表明,计算机基本能自动识别用作因果标记的“结果”,其封闭测试的正确率达98.32% 。[10]

再如表让转关系的“不过”,它既可以是一个固化的词语,作让转标记,相当于“只是、可是、但是”等,也可以用作副词、动词、形容词短语等。在“不过”的关系词用法与同形异构用法之间,经常被标注错误。例如:

(6)如果斗不过,该怎么办呢?(李晓明、韩安庆《平原枪声》)

(7)秘书长人选你最适合不过了,不过现在已成定局,我说话怕不起作用。(周而复《上海的早晨》)

(8)她对有翼固然没有承担什么义务,不过历史上的关系总还有一些,在感情上也难免有一点负担。(赵树理《三里湾》)

只有例(7)后一个“不过”和例(8)“不过”才是表示让转关系“不过”。通过分析,关联词“不过”出现的句法位置为后续句的句首,也就是说,语表词形“不过”只有用在句中语段的句首位置才能被标注为连词“不过/c”。

针对这一特点,可以制定句法规则来区分某个复句关系标记与同形异构词形。在关系词语标注实验中,加入一条关系标记粗筛选规则,将出现在主语和动词之后的与关系标记同形的词语排除掉,只保留那些出现在主语和动词之前的词语,就能筛除一部分伪关系词。[3]

通过对430多个关系词的复句语料进行关系词标注试验,总结出如下28个关系标记容易被错误标注:超词形式“如果说、与其说、不如说、不要说、怪不得、如果不是、不但不、倘若不是、要不是、再不然、不单单”等;双音节的关系词有:“只要、要是、只有、要不是、要不、不是、就是、若非、就算、不过、难怪、的话”等;单音节的有:“要、是、如、更、也”等。总体而言,目前分词软件对复句关系词与同形异构形式间的识别度较低,复句关系词的自动标注水平还有待提高。要成功解决关系标记与同形异构的识别问题,一方面需要分析这些关系词出现的句法环境并制定相应规则,避免一些错误标注;另一方面,需要改进关系词的标注方法,特别是如何将统计和规则的方法有效结合仍需深入探讨。

三、关系标记不同用法的影响

关系标记可以连接不同层级的语法单位,根据关系标记连接对象是否为分句,可以把关系标记区分为复句关系标记和非复句关系标记①非复句用法,是指一个关系标记除了在复句中用来联结分句并标明分句间关系的用法之外的用法,具体包括联结小句内词或短语的句内关系词用法,以及用来联结句与句之间,标明句群关系的篇章关系词用法。。下面讨论非复句关系标记对复句层次关系识别的影响。

(一)关系标记在单句中的用法

虽然关系标记的常用功能就是用来联结分句,标明分句间的逻辑语义关系。但是,关系标记有时也用在单句中,宋玉柱(1986、1990年)、周刚(2000年)均有相关论述。关联词语在单句里主要用来联结句法成分,标示句法成分之间的逻辑关系,同时还具有表达精简、结构紧凑以及话题化功能。[11]主要用途有三:

第一,出现在单句中,用来联结主语和谓语,突显主语、谓语之间的逻辑关系。例如:

(12)只有这种人的态度,才是正确的态度。(《刘少奇选集上卷》107页)

(13)成功的基础是奋斗,奋斗的收获是成功,所以,天下唯有不知而艰辛奋斗的人,才能走上成功的高峰。

例(12-13)中“只有……才”“唯有……才”突显主语所表示的事物对谓语的唯一条件性。

第二,出现在单句中,用来联结状语和主谓部分,突显修饰性成分与主干成分之间的逻辑关系。例如:

(14)尽管在那样紧张的日子里,但是他毫无惧色。

(15)只有在铲除愚昧和丑陋的杂草之后,科学之树才会结出丰硕的果实。(赵丹雅《蓝天,也是属于你的》,《芙蓉》1983年第4期)

例(14)中“尽管……但是”突显状语与主、谓语之间的让转关系;例(15)中“只有……才”突显状语与主、谓语之间的条件关系。

第三,出现在单句中,用来连接相同的句法成分,如联结主语、谓语或状语等,突显相同句法成分之间的逻辑关系。例如:

(16)不但所有的干部,而且所有的家属都参加了这次义务劳动。

(17)这种虽然比较温暖,但是十分潮湿的气候令人不适。

还有一种情况,标记搭配格式在复句的同一分句中共现。这类格式主要有:“只有……才”“只要……就”“因……而”“即使……也”“就算……也”“越……越”“一……就”“愈……愈”“是……还是”“不是……而是”“又……又”“无论……都”“不管……都”“宁可……也不”,这些格式联结的一般是一个紧缩型结构,它们在复句中只构成关系而不形成层次结构,因而不参与复句层次的划分。例如:

(18)①只有不管是白猫还是黑猫,②能抓到老鼠的都是好猫,③才能使人才辈出。(《邓小平文选》)

(19)①明珠小姐无邪的笑容和天真的热情救了我,②所以我发誓这一生都要为明珠小姐而活,③就算陪上这条命也心甘情愿。(《还君明珠》)

例(18-19)中都存在结构紧缩型分句:例(18)分句①中的“是……还是”、例(19)分句③中“就算……也”标示各自所在分句是紧缩型分句。

(二)居于句首的关系标记用作篇章标记

篇章关系标记一般出现在某个句子的句首位置,但它在语义逻辑上与前面句子或篇章发生关系,如上例(11)的“并且”。有关篇章标记的一些显著特点如下[12]:义标识功能已经跨越了所位居的句子,标示所位居的句子与上文语境句子的逻辑语义关系。例如:

(20)村官是广大村民的主心骨、领路人,肩负着重要的使命。“三农”政策,要靠他们传达贯彻;乡亲们的意见、建议,要靠他们汇报反映;建设社会主义新农村,要靠他们带路领航;邻里之间的矛盾纠纷,要靠他们协调化解。可是,由于村官纷纷外出打工,这些重要的工作都搁浅了,乡亲们的期待和希望也落了空。(《人民日报》2009-04-20)

其二,句序位置的句首性。篇章关系标记在标示篇章语义关系的同时,也起着“承上启下”的结构联络作用,一般出现于所位居的句子句首,在句序上表现出强烈的句首性。例如:

(21)作为古巴坚定盟友,委内瑞拉总统查韦斯在“玻利瓦尔美洲国家替代计划”缔约国首脑会议上强调,由于古巴被排除,他将否决峰会的所有决议。因此,古巴成了峰会缺席的主角。(《人民日报》2009-04-20)

其三,句法配位的后序性。除原因标“因为”外,篇章关系标记的句法配位总是居于搭配中的后一个序位,表现出明显的后续性。如上例(20)“可是”、例(21)“因此”都是后序配位关系标记。

其四,句中搭配的孤立性。篇章关系标记在所位居的句中一般找不到与之组配的搭配对象,在句中表现出搭配的孤立性。例如:

(22)……①<因为>该岛虽然比塔布岛距离国际日期变更线还远几英里,②但是由于它的地理位置更靠南,③所以在那里要比在汤加群岛能够提前1小时13分看到公元2000年1月1日的第一线曙光。(《长江日报》1994年)

例(22)有3个分句、5个关系标记:因为、虽然、但是、由于、所以,而分句①用尖括号标注的“因为”在复句中缺乏搭配对象,标示该复句对前文语境的补注和解释。

研究发现,同时兼有复句关系标记用法和篇章关系标记用法的关系标记数量并不多,主要有15个:因为、所以、因此、因而、于是、同时、另外、另一方面、而且、并且、况且、然而、但是、可是、不过。[9]

由于篇章关系词语是与上文句子内容发生逻辑关系的,复句层次关系识别必须排除篇章关系词语的干扰,如果不能正确的区别复句关系词和篇章关系词,计算机对复句层次关系的句法分析必将作

其一,语义关系的跨句性。篇章关系标记的语出错误的判定。

四、复句关系标记隐现形式的影响

复句层次关系的识别,必须借助复句关系词语的形式标记功能,如邢福义(1979、2001年)、石安石(1983年)、肖国政(1983年)、姚亚平(1990年)、王祥(1994年)等都肯定了复句关系词语在复句层次分析中的作用。姚亚平(1990年)特别提及:“多重复句的分析方法就是:以多重复句的关联词模式为工作对象,按照关联词出现的先后顺序决定层次的高度,在每个层次的关联词语的后件前划出该复句的层次结构与语法关系。”[13]他还指出,归纳复句的联结模式对计算机的语言处理具有重要意义。的确,如果复句的每个分句都出现了关系标记,而且每个关系标记在复句中都能找到各自的组配对象,那么这种关系标记隐现模式的复句层次关系根据关系搭配常识,比较容易确定其层次结构和语义关系了。例如:

(23)①高手相争无论是低估了对方,②还是高估了自己,③都同样是不可原谅的错误。(古龙《英雄无泪》)

(24)①两人此刻虽然谁也瞧不见对方,②但只要听到对方的声音,便已觉得有一阵温暖的友情充满了身心。(古龙《武林外史》)

例(23-24)都是标记充盈态复句,每个分句都出现了关系标记,并且还有一个分句出现了关系标记连用格式“无论是”、“但只要”。对于这类复句,计算机只要在复句关系词库的支持下,将构成搭配关系的关系标记按照一定的组合顺序匹配,就能判定诸如例(23-24)这样的充盈态复句的层次关系了。可问题是,实际语言运用中像例(23-24)这样“标记齐备,搭配完整”的充盈态复句并不多见,相反,分句中标记缺失的情况却很多。一旦标记省略,将会给那些无标分句的层次归属和语义判定造成困扰,使得整个复句的层次关系识别困难重重:一方面,由于有些分句中出现的标记在复句中缺失组配对象,从而使得分句的层次归属无法找到充分的形式依据;另一方面,无标分句的出现,使得整个复句格式成为潜在歧义格式。[14]以复句格式“就算……,也……,……”为例:

(25)①就算麦克打死全世界的人,②也不会伤害你一个手指头的,③你有什么好担心的呢?(央视8套连续剧《再续意难忘》)

(26)①就算我陪上自己的性命,②也一定要把玉凤救回来,③一定不让爸爸再失望。(央视8套连续剧《又见阿郎》)

例(25-26)都是复句格式“就算……,也……,……”的实例化,但仔细体察,它们的层次结构并不相同,见图1、图2。例(25-26)这类标记非充盈态复句,其层次关系不能单纯依靠分句里所显现的关系标记序列模式来判定,因为在关系标记序列模式和复句层次关系之间不存在“一对一”的映射关系。[15]

图1 例(25)

图2 例(6)

表1 三句式有标复句的标记充非盈态模式序列表

以三句式复句为例,由于分句里关系词语的缺失而形成的非充盈态有标复句,其标记隐现模式如表1所示。分析表1,可以将三句式有标复句的8种非充盈态模式分为三类:①标记搭配+单标/空标(模式1、2);②单标 +单标(模式3、4);③单标(模式5-8)。通过对标记非充盈态模式归类,我们发现,标记非充盈态模式中几乎无例外的存在单标,或者说存在标记缺失现象,正是由于关系标记的缺失,使得单标(无标)分句在层次归属上出现歧义,使得分句间的逻辑关系缺失客观标志。

据此可以推测,三个分句以上的有标复句,只要某些分句缺失关系标记,整个复句中存在的单标越多,层次归属出现歧义的分句也将越多,那么该有标复句成为非充盈态有标复句的可能性越大。因此,三个分句以上的有标复句,单纯依靠关系标记来识别其层次关系的有效性将受到削弱。

对于非充盈态有标复句,复句层次识别的难点在于无标分句的层次消歧。一个可行的途径是,从无标分句与其前后分句间的相互关联上去判断,如确定分句主语的一致性,分析分句谓语的相关性等。[16]在目前基于语义的句法分析技术还很薄弱的情况下,要最终实现复句层次关系的识别问题,复句中无标分句的层次消歧和关系标记省略问题是一道“沟坎”。

五、结语

复句层次关系识别是中文信息处理领域一项富有挑战性的课题,它对推动汉语“句处理”进展有着重要意义。与复句关系词语同形的异类词、异构词、词间连词、篇章关系词等伪关系词的出现及关系标记的缺失,给复句层次关系识别造成的困扰。文章探讨了复句关系词语与同形异类词、异构词等伪关系词之间的区别,归纳了与关系标记同形的17个异类词和28个异构词,描写了与关系标记同形的词间连词、篇章关系词的用法特点及关系标记的隐现形式,区分关系标记的充盈态和非充盈态形式,指出非充盈态复句的识别在于无标分句的层次消歧,分析了解决上述困难的可能途径,为汉语复句信息处理奠定了基础。

[1]吴锋文,胡金柱.基于规则的汉语复句层次关系自动识别研究[J].华文教学与研究,2010,(1):85-92.

[2]吴锋文.面向信息处理的“二标三句式”复句层次关系判定[J].信阳师范学院学报(哲学社会科学版),2012,(1):88 -92.

[3]胡金柱,舒江波.面向中文信息处理的复句关系词提取算法研究[J].计算机工程与科学,2009,(10):90 -93.

[4]邢福义.汉语复句研究[M].北京:商务印书馆,2001.

[5]邢福义.汉语语法学[M].长春:东北师范大学出版社,2000.

[6]张斌.现代汉语虚词词典[K].北京:商务印书馆,2006.

[7]沈威.“句管控”理论在分词和标注中的应用[J].语言研究,2010,(1):69 -74.

[8]刘坚,曹广顺.诱发汉语词汇语法化的若干因素[M]//吴福祥.汉语语法化研究.北京:商务印书馆.2005.

[9]姚双云.复句关系标记的搭配研究与相关解释[D].武汉:华中师范大学博士学位论文,2006.

[10]胡金柱,沈威.基于渡越矩阵的复句关系词自动标注初探[J].微计算机信息,2007,(30):200-202.

[11]周刚.关联成分在单句中的功能再探[J].汉语学习,2000,(6):18 -24.

[12]吴锋文.面向中文信息处理的三句式有标复句层次关系自动识别研究[D].武汉:华中师范大学博士学位论文,2010.

[13]姚亚平.多重复句的分析模型——兼谈语法分析的作用与目的[J].汉语学习,1990,(3):8 -14.

[14]吴锋文,胡金柱.基于规则的汉语复句层次关系自动识别研究[J].华文教学与研究,2010,(1):85 -92.

[15]吴锋文.基于关系标记的汉语复句分类研究[J].汉语学报,2011,(3):63 -73.

[16]吴锋文.基于主谓语知识挖掘的分句语义关联研究[J].语言文字应用,2011,(4):132 -142.

猜你喜欢
同形复句连词
韩汉同形完全异义词略考
连动结构“VP1来VP2”的复句化及新兴小句连接词“来”的形成
汉语复句学说的源流
连词that引导的宾语从句
现代汉语同形同音词的形成机制与构词特征
佛经音义同形字辑释
表格大团圆,连词学得全
壮字喃字同形字的三种类别及简要分析
西夏语中的对比连词 djij2
略论复句分类与对外汉语教学