基于语料库的“万一”的搭配分析

2011-11-13 07:42雷二毛
关键词:跨距连词语料

雷二毛

(华中师范大学 文学院,湖北 武汉430079)

基于语料库的“万一”的搭配分析

雷二毛

(华中师范大学 文学院,湖北 武汉430079)

本文利用语料库对词语“万一”的搭配行为和特点进行分析,采用语料库语言学中两种常见的方法,即基于数据的方法和数据驱动的方法,对该词的左搭配和右搭配作了分别考察,认为“万一”具有消极语义韵的倾向。

“万一”;搭配;语料库;语义韵

1.引言

1.1 搭配(collocation)是语言学领域最为重要的概念与研究内容之一。词语搭配的概念是弗斯(Firth)在1957年正式提出的,至今已有50多年的历史,其中经历了几个重要的发展阶段。总的来说,在20世纪70年代中期以前,研究者只能采取传统的方法,由于所获得语料的诸多限制,在一定程度上会影响结论的准确性。随着语料库语言学的兴起,研究词语搭配出现了新的方法和手段,琼斯和辛克莱(Jones&Sinclair)完成了第一个基于语料库的词语搭配研究报告,并提出了一系列研究原则和基本手段。基于语料库的方法改善了研究的效率,也提高了结论的准确度,使该理论进一步深入发展。

词语搭配研究涉及到方方面面,并且在很多具体的应用领域具有极大价值。语义韵是其中的一个重要研究点,因为该方法可以辐射到整个搭配分析。语料库研究人员为语义韵研究建立了一整套完整的概念体系和方法,主要有三种方法:(1)建立并参照联接,用基于数据的方法研究;(2)计算节点词的搭配词,用数据驱动的方法研究;(3)用基于数据与数据驱动相结合的折中方法研究。①第一种方法以关键词为中心,建立起类联接,利用索引证据和传统的语法知识来探究词项的搭配情况。第二种方法是采用统计学中的测量手段和相关知识,靠自动化程序研究关键词的搭配模式,剔除了前者那种先入为主的观念,有利于发现一些新的规律和现象。第三种方法则是两类方法的结合。

1.2 对于“万一”的词性的归属,笔者查询一些常用的工具书,概括起来有两种基本的看法,这里需要说明的是我们剔除“万一”作为实词名词这一属性,只考虑其做为虚词使用时的词性。张斌主编的《现代汉语虚词词典》、朱景松主编的《现代汉语虚词词典》《现代汉语词典》(第5版)只将其归入连词。侯学超主编的《现代汉语虚词词典》、王自强主编的《现代汉语虚词词典》《现代汉语八百词》将其归入连词兼副词。这里我们取第二种看法,分析其分别作为副词和连词时的搭配情况。

本文将利用第一种方法和第二种方法,对“万一”的左右搭配进行考察研究。对关键词的右搭配使用基于数据的方法,左搭配使用数据驱动的方法。这里要用到两个语料库,一个是北京语言大学的CCRL汉语检索通,该语料库的语料来源较广,文章只选取从人民日报中搜索到的语料,作为规范的现代汉语普通话材料,说服力比较强;另一个语料库是台湾中央研究院的现代汉语标记语料库4.0版,该语料库的功能比较强大,具有设定文类搜索范围、缩小主题范围、排序、词类标记、词类累计、过滤、统计等功能②,使用十分方便。

2.基于数据的研究方法

2.1 基于数据的研究方法,就是利用索引证据、参照类联接,来进行考察。这个方法涉及两个重要的概念,即检索(concordance)和类联接(colligation)。检索就是将含有所要观察的关键词的句子片段显示出来,在数据处理中KWIC备受欢迎,它的最大好处就是不需要观察包含关键词的整个句子,而只需要显示相关的内容。执行查询时,只需要输入关键词,就能够以关键词为中心显示左右的语境,语境的长度可以根据研究的需要设定,③本文中采取默认值设置,窗口大小为50。类联接指语法范畴间的结合。类联接不是与词语搭配平行的抽象,而是高一级的抽象,是词语搭配发生于其中的语法结构和框架,一个类联接代表了一个搭配类。④

我们从北语语料库人民日报栏中检索到关于“万一”的原始语料共557项,剔除掉名词类“万一”和作为人名的“万一”,剩下一共460项,将其分为副词类和连词类两个TXT文档,以作分别考察。在导入TXT文档前,我们先使用中科院提供的分词软件,选择973标准,对所有这些语料做一个粗略的预切分,以提高识别的精度。

2.2 这里还要简单地说明一下关于副词“万一”和连词“万一”的区分,已有相关文章考察过这个问题,并提出了自己的观点。对于副词性“万一”,从句法功能上讲,它只能在自身所处的分句中做状语,以修饰谓语中心语或者整个分句,并不能连接分句,这也是副词的典型特征。语义上表示主观认为某种情况发生的可能性极小,没有假设的意义,可以用“也许”或“可能”替换。⑤对于连词性“万一”,从句法功能上讲,它不充当任何句子成分,一般位于复句中前一分句的句首位置。语义上,是说话人对某种主观上认为可能性极小的情况提出假设,可以用“如果”替换。“万一”所在的分句一定要有后续句来说明随之产生的结果,或面对此情况的做法、主张、希望,或者寻求建议。⑥

我们在具体分析这些语料的过程中,发现一些规律,当然因为语料数目的限制,这些规律是否具有普遍适用性,还需要进一步的考查。疑问句中出现的“万一”基本均为连词,陈述句的情况则有些复杂。观察所得,副词性“万一”一般位于句中,但是位于句中的并不一定是副词性;在句首的“万一”一般为连词,但是连词性“万一”不一定在句首,这里有一个简单的判断方法,如果在句中发现“万一”,我们可以看其能不能前置到句首,能则为连词起到连接分词的作用;不能则为副词,并且这些副词性“万一”一般可以删掉,删去后不会影响句法结构,只是失去了原有的主观性和内在的情感态度。

下面我们按副词和连词两类将获得的索引列出,前面一个为副词性,后面为连词性。限于篇幅,我们只随机抽取每类中的10行索引。这里需要说明的是,由于“万一”有作为连词的属性,所接的后续成分有很多并不是单句而是复句,碰到这样的情况,我们在考察其搭配时只考虑“万一”后面第一个完整的表意成分,而不是复句整体,这样方便操作。副词性索引:

1.铁路方面的领导更担心万一片梁掉下来了怎么办?第一片,8分钟,第二

2.量可能有问题。但仍然担心万一商检结果不准,索赔不成反而影响与外商的合

3.至于有些消费者担心万一公司出现变故保险责任不能兑现,是不

4.而焦虑、恐惧外,更害怕如万一考不上,会受到讥讽,产生愧对父母、

5.牌商品保证金,以便在市场万一出现假冒伪劣商品时向用户做出加倍赔偿。

6.儿童玩弄此塑料袋时万一套在头上会窒息。电器用品上面也常注明,

7.提供了两个保险的方案,以免万一失败,失去荣誉。我则根据品种资源观察

8.攀登,虽有安全措施,但只起万一失手滑落时的保护作用。攀岩在国际上十分

9.目前股市现状,丝毫没有万一被“套牢”的风险意识。

10.明白并严格遵守。问题是万一厂家叫一个“利”字搞昏了头,就“不明白”呢?

连词性索引:

1.好过,其实也潜伏着危机,万一邓亚萍失常或受伤,有没有第二个邓亚萍顶上来?

2.大市场签约,占个位子,万一将来建材大世界顾客锐减,我就只好关门歇业了。”

3.但是,在特定的情况下,万一香港政府需要中央人民政府帮助的时候,

4.通道狭,没有任何消防设施,万一失火,势必造成“火烧连营”的局面,

5.而且还会传染给他人,万一是非典,会殃及无辜。正确的做法是

6.闹钟,家中队里各放一台,万一醒不了就靠闹钟叫起床。有人给姜策丰算了一笔账,

7.我们7·7亿公里的太空,万一出现不测事件,有没有撞不上的可能?

8.是存在的,要力争实现。万一不能全部起义,局部起义也是好的。”袁血卒返回

9.不要钱。”“私刻犯法,万一让公安局知道可就麻烦了。”“公安局抓不着,

10.像那么回事儿才行,万一太离谱了还是会吃批评。原来是这样,

2.3 类联接考察

根据观察,副词性的“万一”右搭配有+S,+VP,+V,+NP,+P+S五种,分别代表跟句子、动词性短语(包括动宾和动补短语)、动词、名词性短语(主要是定中短语)、介词同句子组合的搭配。其中+VP最多,有25个,其次+S,有18个,然后依次是+NP,+V,+P+S。高频搭配词主要是考察谓语动词和其相关的宾语,由于副词性“万一”的语料不多,所以我们把共现次数大于2的定义为高频搭配词,主要有纠纷、索赔、意外、唱倒彩这一类词语。

连词性的“万一”右搭配有+S,+V,+VP,+AV+V,+AP,+P+V/S/N六种,前三种与上面的意思相同,后三个分别代表助动词和动词的组合,状中短语,介词和动词(句子、名词)的组合。其中,+S和+VP占据了最多,分别有167个和163个,接下来依次为+V,+P+V/S/N,+AV+V,+AP,此类的语料比较多,因此按一般情况把共现次数大于4的定义为高频搭配词,主要有闪失、遗失、被盗、处理、出事、倒下、不测、三长两短这一类词语。

2.4 语义韵考察

语义韵是搭配研究的另一个重要内容。在词语搭配中,一些词项的搭配行为显示了一种特殊的趋向性:习惯性地和某一类具有相同或相似语义特点的词项搭配。简单来说,这个趋向性就是语义韵。不同的学者对语义韵的理解略有差异,但是大体相同,可以概括为:指相同或相似的语义反复与节点词在文本中贡献,使整个跨距内弥漫了一种特殊的语义氛围。⑦一般来说,我们将感情色彩分为褒义、贬义和中性三类,那么语义韵也分为积极语义韵、中性语义韵和消极语义韵三种。如果一个节点词的搭配词绝大多数都具有消极的语义特点,那么该节点词就会具有一种消极语义韵,另外两类同理可证。

由于“万一”兼属副词和连词的虚词属性,它的语义韵不像其他实词,比如动词、名词的搭配,可以从单个的搭配词中观察出来,它的语义倾向必须通过一个很长的表意成分所呈现的氛围来体现,这在一定程度上给语义韵的判断带来了麻烦。⑧不过,在长表意成分中,语义韵一般通过谓语的核心部分来体现,它所承载的信息量是最大的,因此,如同上文所说,我们考察的是谓语动词和其相关的宾语成分。

根据这样的标准来分析“万一”搭配词体现出的语义倾向,消极语义韵占据了绝大部分的比例,从上一部分所列举的一部分高频词可以得到很鲜明地体现。在这些高频搭配词中,会出现一些单看会导致判断不明确的词语,比如:追认、碰上、治、出现、解决等,基本上都是属于谓语动词,如果不结合具体的语境,我们只能认为是中性的,但是回到原句中,进一步查看,后面所接的宾语无一例外是不好、不如意、不希望发生的事情。另外,不可否认,在实际中“万一”还可以用于往好的方面设想,表希望发现的事情,在词典中也举出了一些例子:咱们再试一次,万一成功了,就不必去麻烦别人了。/坚持下去,万一这次能中大奖呢?但是,总体来说,这类表示积极倾向的例子很少,不能改变“万一”带有消极语义韵倾向的事实,因此词典中对其的释义“表示发生的可能性极小和可能性极小的假设,多表示不希望发生的事”,这一点得到了语料库的支持。

对于前面提到的“万一”具备的主观性和此处的消极语义韵也有相关文章进行了研究,“万一”演变到现在,具备的副词和连词用法是一个语法化的过程,关于“万一”的来源,柳士镇认为来源于“万分之一”,是减缩后的词组形式,⑨而它的消极语义韵正是跟这种“万分之一”的初始意义相关。至于“万一”的主观性,是因为“万一”在语料中绝大多数都用于对话或者心理活动的语境,是一种假设、一种期望、一种推测,可能是未然情况也可能是已然情况,交际时的互动策略促使了这种主观化过程。

3.数据驱动的研究方法

3.1 在这个研究方法中,有一些使用很频繁的相关概念需要说明,包括节点词、搭配词、搭配距离(也就是所说的跨距)、统计测量方法。节点词就是要研究的关键词,搭配词就是与关键词构成搭配关系的词语,节点词左右的语境长度叫跨距,用词长来计算。搭配研究通常将跨距设定为4或者5,就是向左右各取4个或5个词长作为节点词的上下文语境。与跨距密切相关的是矩位,是指跨距内与搭配词共现的各词的位置,通常用N-1/N+1或者L1/R1来表示。⑩跨距定位4或5是通常做法,但是这种简单的设定,具有一些弊端,特别是研究像“万一”这种关系标记,因为它后面接的表意成分一般都比较长,跨距太短就会掩盖一些现象。在下面要用到的台湾中央研究院的语料库里,我们就取它能给定的最大跨距10。

词语的搭配强度计算方法通常有两种,即MI值测量和Z值测量。MI值表示的是共现的两个词中,一个词在语料库中出现的频数所能提供的关于另一个词出现的概率信息。Z值也叫T检验,是通过检验某一样本的平均数与正太分布总体的平均数之间的差异是否显著来断定该样本取自总体的可能性有多大。比较两者,MI值的大小与使用的频率高低没有必然的联系,是与共现频次相关,但这并不是唯一的决定因素,Z值更能反映词语搭配的强度。

因为中央研究院提供的语料库只具备MI值的计算功能,这里我们就只取MI值来观察,这不能不说是一个缺陷,在后续的研究中我们再利用Z值来进一步的研究。MI值的计算公式是:

其中,P(a,b)是给定上下文范围中词a和b共现的概率,P(a)、P(b)是词a和b共现的概率。当词a和词b无关时,MI值为零;当两个词之间存在依赖关系时,MI值越大,说明节点词对其词汇环境影响越大,对共现词的吸引力也就越强。

3.2 对左搭配词考察

上文已经说过,一般的跨距定为4或5,但是鉴于“万一”的特殊情况,考察左搭配时将跨距界定为—10,在台湾中央研究院的语料库中进行进阶处理,将得到的结果挑选剔除后,选出共现次数大于2的、MI值大于3(统计学的界定,MI>3为搭配能力强)的14个词项,如下表所显示:

MI值 总出现次数 与节点词共现次数 左搭配词7.999 24 2防备7.621 35 2 以防6.149 229 3 就算5.731 927 8 怕5.468 603 4 担心5.294 359 2 以免4.662 675 2 将来4.557 750 2 否则4.236 2583 5 不过3.718 2604 3 而且3.585 4954 5 但是3.360 2483 2 可是3.202 10170 7 但3.007 5301 3如果

对这些左搭配词进行分词,我们发现大致可以分为两类:一类是表示一种主观态度,表明人的内心活动,比如“防备、以防、怕、担心、以免”等,它恰恰印证了上面提到的“万一”的主观化,表示说话人已经关注到最不利的消极情况,对其后果加以考虑,或者不希望这种状况的发生,或者甚至还寻求了某种建议;同时,在里面还增加了假设的意味或说话人个人主观的推测语气。另一类是一些有紧密联系的关联词,比如“否则、不过、而却、但是、可是、但、如果”。正是因为“万一”的语义韵是消极的,为了凸显这种不利的状况,用这有递进、假设、转折关系的标记来作进一步强调,或者引起听话人的注意,或者表现说话人的强烈思想感情。

4.结语

通过语料库研究,能够更清楚地显示词语搭配的倾向。本文以虚词“万一”为例,利用数据的方法和数据驱动的方法来考察了该词左搭配和右搭配体现出的特点。右搭配将“万一”分为副词和连词两类,主要从结构上着手,并用语料库支持了“万一”具有消极语义韵特点的观点;左搭配主要从语义内容上着手。当然,文章没有使用Z值来验证“万一”的搭配行为和特点,是一个不足之处,留待以后继续分析研究。

注释

①④卫乃兴:《语义韵研究的一般方法》,《外语教学与研究》2002年第4期。

②田宏梅:《利用汉语语料库研究词语搭配—以“有点”为例》,《暨南大学华文学院学报》2006年第3期。

③⑦⑧⑩姚双云:《复句关系标记的搭配研究》,武汉:华中师范大学出版社,2008年,第52页,第172页,第174页,第54页。

⑤⑥邓瑶:《“万一”的功能差异及其演变动因》,《宁夏大学学报》2009年第6期。

⑨罗荣华:《“万一”的语法化》,《宜春学院学报》2007年第1期。

责任编辑 王公

猜你喜欢
跨距连词语料
连词that引导的宾语从句
核级工艺管道支撑跨距研究
表格大团圆,连词学得全
CTC Global发布超高强度导线 适用大跨距重冰雪输电项目
设计时速120 km线路架空刚性悬挂接触网跨距选择
基于语料调查的“连……都(也)……”出现的语义背景分析
西夏语中的对比连词 djij2
华语电影作为真实语料在翻译教学中的应用
有关大跨距同轴孔系加工方法的研究
《苗防备览》中的湘西语料