定中心理论视野下的汉语语篇第三人称回指解析

2020-10-22 15:22
华文教学与研究 2020年3期
关键词:第三人称语料代词

李 榕

(西安外国语大学中国语言文学学院,陕西,西安710061)

0. 引言

第三人称回指是近几十年以来篇章语言学、认知心理学和自然语言处理研究的热点问题之一。美国语言学家和认知科学家在20 世纪末面向计算机处理语篇提出了定中心理论(Centering Theory)①也有人译为“向心理论”,如苗兴伟(2003)和许余龙(2004)等。(Grosz & Sinder, 1986;Grosz 等,1995;Walker 等,1998)。该理论综合了多个学科的前沿成果,关注语篇回指的处理难度和连贯性等问题,提出后指中心(Backward-looking Centers,简称 Cb)②也有人译为“后照中心”或“回指中心”,下文统一为“后指中心”。是影响第三人称回指的重要因素。该理论一出现就引起了研究者极大的兴趣,已有很多跨语言的研究,包括德语、希伯来语、意大利语、日语、荷兰语和土耳其语等 (Di Eugenio,1990;Hoff⁃man & Turan,1993;Kameyama,1986;Rambow,1993;Walker,Iida & Cote,1990; Yongkyoon,1991;Ziv & Grosz,1994 等)。近二十年来国内也出现了不少相关研究, 如苗兴伟(2003),许余龙(2004),熊学亮、翁依琴(2005),许宁云 (2006),段嫚娟 (2006),王德亮(2011),孙珊珊等(2015)等。前人文献在定中心理论的介绍和基本应用方面取得了不少成就,基本证明了该理论适用于汉语语篇回指的处理。但如何定义后指中心因素?能否有一种后指中心的定义方法可以同时处理第三人称代词回指和零形回指?这些问题尚无一致结论。英汉语篇回指现象差异巨大,不能简单地照搬国外理论。此外,计算机处理语篇回指时需要简洁统一的规则,如能找到统一第三人称代词回指和零形回指的规则将大大提高处理效率。

基于以上考虑,本文选择了一种不同于前人文献的特殊语料进行分析。选择这种特殊语料的原因有:(1)这种语料是研究第三人称回指的“最小对立对”,其在第三人称回指形式的前一句话中出现了两个可能的回指对象,将语篇中的无关因素压缩到最少。(2)其也是前人文献和计算机处理语篇时的棘手问题,如Givón(1983)使用回数法判断回指对象(通常以间隔的小句计算),但这类语料中两个先行语和回指形式的距离相等。(3)这种语料在真实语篇中并不少见。本文考察的80 篇《人民日报》的叙述文中,2.8%的句子含这种语料。总之,本文希望通过分析这种特殊语料探讨两个问题:(1)是否存在一种适用于汉语语篇的后指中心定义方法?(2)后指中心对第三人称代词回指和零形回指的影响力是否相同?有没有综合两者的后指中心定义方法?这些问题的答案有助于探究定中心理论在汉语语篇第三人称回指解析问题中的适应性,揭示汉语语篇的类型学特色,为中文信息处理语篇服务。

1. 本文语料及定中心理论的处理

1.1 本文语料

引言中提到的特殊语料如例(1),第三人称代词或者零形式的前一个小句中有两个可能的回指对象“王刚”或者“李强”,需要阅读下文才能判断其真正的回指对象。

(1)王刚看见了李强,他/Ø……。

人工阅读并分析《人民日报》(具体引例中简称“《人》”)的80 篇报道后,初步筛选出281 句类似语料,其中使用第三人称代词的139 句,使用第三人称零形式的142 句。如:

(2)李成斌老人j抖着手慢慢掀起李鸿海i的衣衫,他i身上还未拆线的伤口足足有一尺长。(《人》2006-2-3)

上句第三人称代词前有两个单数男性参与者“李成斌老人”和“李鸿海”。根据下文可以判断出“李鸿海”是真正的回指对象,即“实际回指实体”(Actual Referent)(在例句中用粗体表示)。另一个竞争者“李成斌老人”是“可能回指实体”(Potential Referent),用下划线表示,在下文语篇中并未被回指。

注意本文排除了两类语料,第一类为直接引语句,共49 句,其中含第三人称代词的19句,含零形式的29 句,如:

(3)父亲j说:“鲁迅i爱老鼠,似乎有些特别。其实他i是同情弱小。” (《人》2007-5-29)

直接引语里分句中的第三人称代词与主句的言说主语不存在回指关系。如果只看直接引语里的句子,第三人称代词只有一个回指对象,如上例的第三人称代词“他”只可能回指“鲁迅”,不可能回指主句的“父亲”。

第二类为同指句,共79 例,其中含第三人代词的38 句,零形式的41 句。这类例子中的两个回指对象往往是同一人物,并非不同的竞争者,如:

(4)李升宏i今年45 岁,高大、魁伟,性情豪爽,是条典型的东北大汉i。他i16 岁就参加了工作,当过清洁工、瓦工、线路工、调度工长等。(《人》2001-11-22)

除去直接引语句与同指句后,剩下的就是真正符合本文要求的特殊语料——含第三人称代词或零形式的前一句话中出现了两个可能回指对象的句子,如例(2),其中含第三人称代词的计82 句,含零形式共72 句。那么,现有的定中心理论框架是如何处理此类语料的呢?

1.2 定中心理论如何处理特殊语料

定中心理论认为:语言交际是一个由交际双方共同参与的互动过程(Arnold,2001)。在这一互动过程中,交际的双方共同建构一个语篇模型,即现实世界或非现实世界的心理表征。语篇模型是由语篇实体(discourse enti⁃ty)、属性(attribute)以及语篇实体之间的联系构成的。语篇实体在语篇模型中充当中心(center)的角色。在语篇的任何一点上,某一个语篇实体可以与上文所提到的实体发生联系,充当后指中心;同时这一实体又可以成为下一个语段所涉及的中心,充当前指中心①也有人译为“前瞻中心”或“前指中心”。(Forward-Looking Center,简称Cf)。在语篇推进的过程中, 后指中心按显著程度(salience)②显著度确定的方式各派意见不一,比较有影响力的有Brennan 等(1987)和Kameyama(1998)。排列,显著度最高的中心将成为下一个语段的回指对象。语篇的中心就是以这种方式不断过渡,并以不同的过渡方式来形成不同连贯程度的语篇。

定中心理论有两条基本规则:(一)除非后指中心被代词化,否则该句中的任何成分都不能被代词化。代词化的意思就是被代词回指。已有很多研究证实代词倾向回指后指中心。(二)句间衔接更容易选择的排序是:中心接续(continue)>中心保留(retain)>中心转换(shift)。越往左,连贯性越好。越往右,连贯性越差。定中心理论的两条规则可用例(5)说明,该例中的每一个代词都回指后指中心,c 句为中心接续,d 句为中心保留,e 句为中心转换,连贯性确有差异。

(5) a. Johnihas been having a lot of trouble arranging his vacation.

b. Heicannot find anyone to take over his responsibilities.(Cb=John; Cf={John})

c. Heicalled up Mikejyesterday to work out a plan. (Cb=John; Cf={John, Mike})

d. Mikejhas annoyed himia lot recently.(Cb=John;Cf={Mike, John})

e. Hejcalled Johnion Friday last week.(Cb=Mike;Cf={Mike,John})(转 引 自 Grosz,Weinstein&Joshi,1995)

上例a 句中只出现了一个实体John,b 句用 he 回指 a 句的 John,则 Cb 是 John,Cf 也是John。c 句中 he 回指的是 John,Cb 是 John,但是出现了一个新的实体Mike,则Cf 有两个,分别是John 和Mike。c 句延续了b 句的中心,所以c 句是中心接续。d 句中him 回指了John,Cb 还是John,不同的是Mike 是d 句中的主语,成了排序最高的Cf,John 只是被保留下来。这就是中心保留。在e 句中he 直接回指Mike,Cb 就变成了Mike,形成了中心转换。上例的分析凸显了定中心理论在解决回指问题上的优势,其将研究范围从句子扩展到语篇,且语篇并不是简单的线性序列,而是连贯程度不同的块状结构。这种理论假设既符合母语者的语感,又能给计算机提供较为简明的规则。

与本文关注的特殊语料“回指的最小对立对”相关的是,定中心理论如何处理多个可能回指实体的问题?针对这个问题,传统的定中心理论框架并未给出答案。多个回指实体会带来一个矛盾,规则(二)的过渡关系优先顺序和规则(一)的第三人称代词实现后指中心有矛盾。规则(二)实际上属于整体语篇①局部语篇只含回指形式的句子,整体语篇指除此句外的其他语篇。层次,规则(一)属于局部语篇层次。两者可能会产生矛盾,如果第三人称代词实现后指中心后形成的过渡关系并非优先过渡关系会怎么样?如下例,U1 句出现了两个实体George 和Alan,后续句中出现的he 究竟回指谁?如果只看U1 和U2 句,那么U0a 中he 回指George,是中心接续,U0b 中的He 回指Alan,是中心转换。U0a 句更自然。如果加上U3句,反而会感觉到U0b 句比U0a 句更自然。因为这三句话形成的小语篇保持了一个中心就是Alan,而且此时U1 句的Alan 直接换用him会更自然。

(6)(U3 Alanjwas very upset recently.)

U2 Gerogeiand Alanjare brothers.

U1 Yesterday, Georgeipunched Alanjin the face.

U0a Heihad been pestered all day.

U0b Hejfell down with a bloody nose.(改编自Maat&Sanders,2009)

为什么会有这种语篇连贯性的语感差异呢?因为上文语篇通过叙述已经建立了Alan 的话题延续性。前人研究认为代词倾向回指主语(Givón,1983;陈平,1987 等)。Alan 在例 (6)的U1 句中做宾语,但是完全不影响其被回指后形成连贯的语篇。这是一个整体语篇因素影响力大于局部语篇因素的例子,启发我们可以通过扩大语篇考察范围的方式来判定后指中心,处理出现了多个可能回指实体的特殊语料。

经过再三尝试,本文确定了这样的后指中心判定方法:若含回指语形式(第三人称代词或者零形式)的句子为U0,实体必须在U3(U0 回数的第3 个句子)被提及,且在其竞争者都未被提及的前提下才可以被认为是U1 句的后指中心②如果U3 句出现的还是代词,就继续往前数,直至出现名字或NP,则该名字或者NP 就是后指中心。。首先,这种定义方法可以处理类似例(6)的语料,该例的U3 句中只出现了Alan,并没有出现竞争者George,则Alan 是后指中心。其次,徐赳赳(2003)发现汉语语篇中第三人称代词“他”话题延续性的平均值为2.52 个句子。选择3 个句子为界是比较合适的范围。最后,Kehler(2002)和Matt & Sanders(2009)曾使用相同的后指中心判定方法处理了英语和荷兰语的语篇,均取得了显著成果。如果本文对汉语语篇的分析取得类似的结果,或许可以假设这种后指中心的定义方式具备一定的跨语言普适性。

2. 后指中心对汉语语篇第三人称回指形式的影响

2.1 后指中心对第三人称代词回指的影响

我们筛选了《人民日报》的80 篇报道文学语料,排除了直接引语句和同指句后得到了154 句符合本文要求的特殊语料,其中含第三人称代词的计82 句,含零形式的计72 句。全新的后指中心定义方式能处理多少语料?应用时会遇到什么问题?经过人工阅读和统计,本文的语料中有70 例可以使用全新的后指中心定义方式进行处理,占85%。有85%的U3 句中只出现了一个回指对象。其中,第三人称代词回指后指中心的正确率是75%,即有62 例代词回指后指中心。典型的例子如例(7),U3句出现了“林有盛”而没有出现“师傅”,则“林有盛”是U1 句的后指中心,也是U0 句的第三人称代词的回指对象。

(7)U3 林有盛i刚参加工作时只有小学文化程度。

U2 他i16 岁来到哈尔滨锅炉厂当了电焊工。

U1 在师傅j手把手的传授下,他i刻苦钻研技术,只用一年多时间,就提前满师,被破格定为二级工,并获得了四级工的操作合格证。

U0 从那时起,他i就不间断地勤学苦练,力求对技术精益求精。(《人》1980-9-1)

前人研究中提出的代词倾向回指主语的规则处理正确率是多少呢?统计语料中第三人称代词回指前一句话主语的句子只有42 例,占51%,远低于使用定中心理论处理的正确率。实际语篇中回指非主语实体的例子很多,占一半左右,除了回指宾语的例子,还有回指定语等其他句法成分的例子,如上文的例(2)与下例:

(8)U3 我常为他i担心:永刚i,就算你是铁打的也扛不住啊……。

U2 永刚i还是一个家庭责任感很强的人。

U1 儿子j是永刚i的心头肉。

U0 每次出差在外,无论多忙,他i都不忘打个电话回来,跟儿子说上几句。(《人》2007-4-16)

上例U0 句的第三人称代词回指的不是U1句的主语“儿子”,而是定语“永刚”。U3 句只出现了真正的回指实体“永刚”,而非其竞争者“儿子”。这就是后指中心处理语篇回指的优势所在,扩大了语篇搜索范围以后,可以处理大量代词回指非主语实体的情况。这也说明了代词回指是一个语篇现象,而非简单的句法现象,距离代词较远的句子对其仍有影响。

U3 句中出现的实体并不一定都是代词的回指对象,本文的语料中有8 例(占10%),即可能回指实体是前一句话的后指中心,实际回指实体不是,如:

(9)U3 蒲市村叶家堂的叶宝云老人j,是个出了名的“火爆脾气”。

U2 85 岁时,下地种麦不慎摔倒,导致半身瘫痪。

U1 严国忠i听说此事后,二话没说,搬着行李就住到了这位老人j家里。

U0 每当老人j发火时,他i都一声不响,耐心地服侍着。(《人》2007-9-3)

按照定中心理论判断后指中心的规则,U3 句中出现的是“叶宝云老人”,其应该是U1 句后指中心,是U0 句的第三人称代词的回指对象,但实际上第三人称代词回指“严国忠”。

定中心理论处理不了的语料有两种类型,一是两个回指对象未出现在U3 句中,无法判断后指中心,共有9 例,占11%,如下文的(11)和(12)例及其分析。二是两个回指对象都出现在U3 句中,无法判断后指中心,有3 例,占4%,如下文的例(13) 及分析。

先看第一种类型,若U3 句中没有出现任何实体,理论上有三种可能性:

一是根本没有U3 句,U2 句或者U1 句是语篇的首句,往前数没有上文,因缺少有效的语篇信息无法判断后指中心。这时实际回指实体和可能回指实体都是新信息。这类语料有7句,占10%,如下例就是文章的首句,上文无信息。

(11)U1 7 月,记者j走近林强i,从成都到凉山,同吃同行一个星期,感到这位军人出身、又在四川省教育厅机关工作了20 年的干部i,内心深处有如这7月的阳光,明亮、炽热。

U0 他i那积极向上的人生态度,乐观的生活状态,感染着身边的人,也感染着我们。(《人》2007-7-31)

二是有U3 句,但起背景描写作用,没有出现任何实体。类似语料有2 句,占1%,如:

(12)U3 鑫珠春公司是焦作煤业集团原朱村矿破产重组建立起来的。

U2 1998 年,煤炭行业萧条,部分职工下岗,情绪很不稳定,谢延信i本也在下岗之列。

U1 矿领导j专门研究了他i家的情况,认为谢延信i一旦下岗,这一家人会衣食无着,便照顾他i留岗。

U0 2003 年他i又住了三次医院,单位照顾他i办理退养手续后,又特意安排他i去瓦斯泵房看设备,每个月多了400 元的收入。(《人》2007-2-13)

上例中“矿领导”是可能回指实体,“谢延信”是实际回指实体。U3 句是背景描写,两者都未出现,所以无法预测后指中心。这启示我们语篇的结构不是线性的,应该是有层级的,句子在语篇叙述中的不同的功能也会影响回指。

三是实际回指实体和可能回指实体的各项指标都相同,如它们都出现在U3 句中,有相同的句法成分,有相同的先行语词汇形式。这时两者排序相同,无法判断谁是真正的后指中心。本文语料中没有这类例子①这类语料可能会造成读者的阅读困难。。

综上所述,以上三种语料是定中心的理论处理的局限,也可以考虑修正后指中心的判定方法来处理上述语料。比如引入局部语篇因素,利用U1 句的信息来处理。也可以考虑标注语篇内句子的叙述功能,区分描写、叙述和对话等。相比较而言,利用U1 句的信息更加经济有效。

第二种类型是两个回指对象都在U3 句中出现了,也无法判断后指中心。这类语料有3例,占4%。这类语料也可以通过利用局部语篇信息来处理,如:

(13)U3 老薛i怀着感激的心情谢绝了老同学j的好意。

U2 记得头一次老同学j催他i治病,是1992 年的春季。

U1 他i和老同学j为新校园的建设去省城筹款,奔波劳累了一天的薛厚炎i一到招待所,病痛就发作了。

U0 当时如万箭穿心一般的疼痛,他i从床上滚到床下,豆大的汗珠一阵阵往下滚。(《人》1997-1-4)

上例U3 句中出现了两个实体“老薛”和“老同学”。根据下文,“老薛”才是U0 句第三人称代词的回指对象。局部语篇提供了有效的信息——U1 句中的“他”就回指“薛厚炎(老薛)”。这启发我们可以结合局部语篇和整体语篇的规则改进之前的后指中心定义,得到一个更全面的第三人称回指形式解析方案。本文的目的是为计算机直接处理语篇服务,所以希望把计算量减到最小。先试试如果只看U3 句的信息,“老薛”和“老同学”的句法成分不同,“老薛”是主语,“老同学”是定语。李榕(2020)发现第三人称代词回指句法成分的倾向序列是:主语>宾语>其他,“老薛”胜出,是U1 句的后指中心。综上所述,本文修正后的后指中心判定规则如下图:

图1 :汉语语篇第三人称代词回指形式解析方案

使用修正后的后指中心定义方案,定中心理论能正确处理的语料有65 例,占总语料的79%。其余的17 例(占21%)都属于第三人称代词的实际回指对象不是后指中心的情况。综上所述,后指中心对第三人称代词回指的影响统计结果如表1。注意这是经过修订的定中心理论后指中心判定方案,如果未经修订的方案,实际回指实体为后指中心的只有62 例,正确率为75%。

表1 :第三人称代词回指的后指中心统计(共82句)

以上分析可以证明后指中心是判断第三人称代词回指的重要因素,有79%的后指中心是实际回指实体,只有10%的后指中心是可能回指实体,差异显著。实际回指实体是后指中心即上文提到的中心接续过渡,可能回指实体是后指中心即中心转换过渡,两者的连贯性有差异。值得注意的是后指中心的定义考察了含回指语形式的前三个小句,综合了局部语篇和整体语篇的因素。如果只看主语位置,语料中仅有51%的第三人称代词回指了前一句话的主语。对比这两个数据,可以发现第三人称代词回指受整体语篇因素的影响大于局部语篇因素。如果我们引入U1 句的局部语篇信息,还可以处理缺乏有效信息的9 个例子,包括语篇首句的7 例和U3 是背景描写句的2 例,正确率可以达到90%。不过加入U1 句和U3 句同时处理增加了计算负担,另外还需要讨论U1 句和U3 句处理的先后顺序问题。

2.2 后指中心对第三人称零形回指的影响

注意本节讨论的第三人称零形式是主语位置零形式,不包括其他位置的零形式。第三人称零形式采用的后指中心判定方法与图1 所示的第三人称代词的后指中心判定方法一致,实际回指实体为后指中心的有55 例,占76%。其中有53 例(占73%)是U3 句只出现了一个实体,如例(14) 中的U3 句出现了“王国栋”,“小江江”没有出现。“王国栋”是U1 句的后指中心,也是U0 句第三人称零形式的回指对象。

(14)U3 1995 年春,王国栋i从当地报纸上得知孤儿院的孩子们需要关怀。

U2 于是,他i找到宜昌市孤儿院认下了一个叫小江江j的3 岁小孩。

U1 这一年,他i10 次去看望小江江j,

U0 Øi给小江江j买了 4 套衣服和两双鞋子,Øi与小江江j建立了深厚的感情。(《人》1998-1-27)

还有2 例是U3 句出现了两个实体,占3%,如例(15)。按照图1 的判定方案,使用句法成分倾向顺序,“田百春”是U3 句的主语,排序更前,是后指中心,也是U0 句第三人称零形式的回指对象。

(15)U3 冰天雪地里,田百春i跟在马军武j身后,爬上近20 米高的铁架,作例行观察。

U2 铁架上结了冰,冻得人直打颤,一不小心就可能倒栽下去。

U1 爬到一半时,马军武j劝他i别再上了,他i心里也有怯意,但看到马军武j敏捷地爬上爬下,

U0 Øi想想人家j每天观察、记录,Øi还是坚持爬了上去。(《人》2012-6-10)

总之,使用修订后的定中心理论后指中心判定标准,可以准确预测第三人称零形式的回指对象语料有55 例,占77%,这些语料的第三人称零形式回指的都是前一句话的后指中心。第三人称零形式的回指对象不是前一句话的后指中心的语料共16 例,占23%,有以下三种情况:

第一种情况是可能回指实体是前一句话的后指中心,实际回指实体不是,类似语料有11例,占15%,如:

(16)U3 多年义务投送报刊、书信,张山j也练就了一个好记性。

U2 邮递员i只要把各类报刊、信件按次序分好,交代一遍,他j能全部记在脑海里。

U1 一次邮递员i有意试一下他j的记忆力和手感,

U0 Øi把成沓成沓的报纸打乱……。(《人》2006-7-11)

U3 句中出现了“张山”,竞争者“邮递员”没有出现,则“张山”是U1 句的后指中心,但其不是U0 句零形式的回指对象,“邮递员”才是。

第二种情况是实际回指实体和可能回指实体都不是后指中心。有两种可能性:一是两个实体都为语篇新信息,如语篇首句,有2 例,占3%。二即U3 是描写句,两个实体都找不到,有4 例,占6%,如:

(17)U3 今年2 月,有媒体将事件公开曝光后,情况才变得一发不可收拾。

U2 之前,大庆晚报记者刘为强j因藏羚羊假照片而身败名裂,对我的心理压力非常大。

U1 张亮i和刘为强j是朋友,

U0 Øi知道他j多次冒着生命危险完成工作。(《人》2008-4-7)

上例中的U3 句是描写句,没有出现实际回指实体“张亮”或可能回指实体“刘为强”,无法预测后指中心。

第三种情况是实际回指实体和可能回指实体的各项指标都相同。两者排序相同,无法判断后指中心。本文收集的语料中没有这类例子。

综上所述,后指中心因素对第三人称零形回指的影响结果如表2:

表2 :第三人称零形回指对象的后指中心统计(共72 句)

①这里使用了不同于本文语料的另外40 篇《人民日报》的语料,共67898 字。

从上表可以看出后指中心可以有效地判定第三人称零形式的回指对象,有76%的后指中心是实际回指实体,有15%的后指中心是可能回指实体,比第三人称代词比例略低。如果只看第三人称回指形式前一句话的句法因素影响,两者差异很大。如果只看主语位置,语料中有92%的零形式回指U1 句的主语。对比这两个数据,可以发现第三人称零形式受局部语篇因素的影响大于整体语篇因素。这和第三人称代词的情况正好相反。

3. 汉语语篇第三人称回指解析方案的修正及语段层的重要性

总结本文之前对汉语语篇第三人称代词回指和零形回指的分析,可得到表3:

表3 :第三人称代词回指和零形回指的影响因素对比

回指主语即回指U1 句的主语,是一个局部语篇的句法因素。后指中心综合了整体语篇因素和局部语篇因素。根据上表,可明显看出第三人称代词回指和零形回指的差异。第三人称零形回指受局部语篇因素的影响(回指主语92%)大于整体语篇因素(回指后指中心76%),而第三人称代词则相反,受整体语篇因素的影响(回指后指中心79%)大于局部语篇因素(回指主语51%)。如果可以分开处理第三人称代词和第三人称零形式,应采用不同的方案。第三人称零形式考察主语位置,而第三人称代词考察后指中心。但是如果需要对两者进行整体考察,应该选择后指中心因素。事实证明其综合来看是最有效的第三人称回指判定因素。

至此,本文回答了引言中提出的两个问题:确实存在一种结合了句法和语篇层面影响因素的后指中心判定方法,可以只通过含第三人称回指语形式的句子回数第三个句子内部的因素就可以判定后指中心。这种方法适用于汉语语篇的第三人称回指,不过其对第三人称代词回指处理效果优于零形回指。如果进一步考虑现有方案处理不了的反例,考虑加入U1 句的信息,就可以处理更多的语料,但这样会增加计算量,不如只处理U3 句简洁。如图2 所示。

图2 :汉语语篇第三人称回指形式解析方案(修正后)

加入Step3 之后缺乏U3 句实体信息的语料,如上文的例(11)(12)和(17)都可以处理。本文用其他新闻报刊语料①这里使用了不同于文本语料的另外40 篇《人民日报》的语料,共67898 字。试处理后,人工阅读检查其正确性达96%,远超过前人文献提出的只看主语位置解决方案的71%。可见结合了局部语篇与整体语篇因素确定的后指中心是处理汉语语篇第三人称回指现象的好方法。Kehler (2002) 和 Matt & Sanders(2009)曾使用相同的后指中心判定方法处理了英语和荷兰语的语篇,均取得了显著成果。这种后指中心的判定方法可能具备跨语言的普适性。

还有一个很重要的问题,本文后指中心的判定根据的是回指形式的回数三句话,即U3句的情况,其比前一句话中的信息对回指的影响更大。这充分证明了语篇是一个有机不可分割的整体。对于这个不同于局部语篇(前一句话)和整体语篇的“中语篇”层级——语段,传统语言学关注很少。本文的研究恰好证实了这个层级才是影响第三人称回指的关键所在。语篇可以分为四层:处于最底层的就是小句,有韵律标记,和文字上的逗号大概重合。第二层是语篇句,也有韵律标记,和文字上的句号大概重合,包括单句和复句②关于语篇的基本单位讨论可以参见王洪君、李榕(2014)。。第三层是语段,指处于同一时空表述一个事件或者完整观点的若干句子,是几个有相互联系的语篇句的集合。第四层就是整个语篇,指一段完整的对话或者一篇文章。语篇的四层分级如下表:

表4 :语篇的四个层级及其表现

语段层非常重要,是对第三人称代词和零形回指影响最大的单位。传统语言学中并没有这一级概念,汉语语篇研究对此层的关注也很少。张新华(2007)曾提出“句段”的概念,指的是处于一个统一的指示框架内,语义、形式上联系比独立的句子紧密的一个相对独立的片段。这个概念与语段关系很大,但是比其范围更小。语段并不会因为人物中心的转换和叙事支点而变化,主要是受指示框架和时空的限制。语段对第三人称回指的影响应作为后续研究的重点方向之一。

语篇的第三人称回指是一种很复杂的语言现象,很难用一条简洁的规则说明或解释,但能找到主要的规律。人类的认知策略就是绕过复杂的形式规则,凭借这种概率性的语法规律来理解语言。如何让计算机准确地判断第三人称回指?就需要语言学研究者分析其中各个因素的影响和关系,找到这种规律。这方面定中心理论值得我们思考和借鉴。

猜你喜欢
第三人称语料代词
基于归一化点向互信息的低资源平行语料过滤方法*
代词(一)
代词(二)
谈谈英语教学中 第三人称单数及其后面动词的用法
濒危语言与汉语平行语料库动态构建技术研究
这样将代词考分收入囊中
用第三人称和自己说话能减压
记叙文写作之记事(三)
国内外语用学实证研究比较:语料类型与收集方法
英语教学中真实语料的运用